dwh をモダナイズする google cloud のソリューション ·...
TRANSCRIPT
Confidential & Proprietary
DWH をモダナイズする
Google Cloud のソリューション#gc_dpday
寳野 雄太 | Yuta Honoスペシャリスト カスタマーエンジニアリング技術リード
Twitter: @yutah_3
1894 年
2010 年テクノロジーは格段に進化
従来のデータ ウェアハウス (DWH)
DWHDWH
DWH
大容量データ処理
Hadoop,Spark...
従来のデータ ウェアハウス (DWH)
DWH
DWH
大容量データ処理
Hadoop,Spark...
ストリーミング
(Kafka etc.) ???
従来のデータ ウェアハウス (DWH)
Cloud
DWH
新しい データ ウェアハウス
Google BigQuery
エンタープライズ向け分析用データ ウェアハウス
エクサバイト規模のストレージとペタバイト規模の SQL クエリ
セキュア、耐久性 メンテナンス フリー
Unique
フルマネージドでサーバレス
Unique
ストリーミング データのリアルタイム分析
Unique
ML と GIS をビルトイン
Unique
ハイスピードでインメモリの BI エンジン
情報資源の有効活用人的資源の活用
BigQuery - ビジネス目線での利点
インフラ設計、運用不要で分析に集中
高速なクエリで分析を繰り返し、より高い生産性
財務的資源の節約
低コストで使った分だけ支払い
Or
定額プランで立てやすい予算計画、低 TCO
社内のデータ流通を促進
全員が同じ 新のデータにもとづいて意思決定可能に
組み込み済み ML や GIS の高度な分析、予測でビジネスを加速
Forrester Research Names Google Cloud a Leader in Cloud
Data Warehouses
お客様は [BigQuery の] 柔軟なインフラ ストラクチャ、実績のあるハイエンド規模とパフォーマンス、強力なAI / ML 機能、そして幅広い分析ユースケースのサポートを望んでいます。
The Forrester Wave™:Cloud Data Warehouse, Q4 2018
BigQuery の経済的な利点
「私たちは他のクラウド分析ツールでも POC を行いました。 グーグルは、 も迅速、柔軟、スケーラブルなソ
リューションとして目を引きました。」
エンタープライズデータウェアハウスのワークロードを BigQuery に移行する経済的なメリット
52%オンプレミスより低い TCO ( 3 年 )
41%レガシーな DWH をパブリッククラウドに載せた場合よりも低い TCO
Source: ESG, The Economic Advantages of Migrating Enterprise Data Warehouse Workloads to Google BigQuery
BigQuery - 価格体系の概要
クエリー計算能力の課金
ストレージの料金
長期保存ストレージの料金
オンデマンド or 定額レート
保存した分だけ課金
90日以上保存したデータは割引
※ ストリーミングインサートなどは別途料金が必要
Google Cloud Data Analytics - お客様事例
Cloud
DWH ストレージ
コンピュート
新しいデータ ウェアハウス
別の BigQuery のお客様が実行したクエリ 5 ペタバイト超 / クラスタ分割無し
ある BigQuery のお客様が保存するデータ250 ペタバイト / クラスタ分割無し
コンピュート と ストレージの分離
SQL:2011準拠
ペタビット規模ネットワーク
BigQuery高可用性を備えたコンピュート クラスタ
(Borg)ストリーミングインサート
無料のバルクロード
複製済み、分散ストレージ
(99.9999999999%12 nineの耐久性) REST API
7 言語のクライアントライ
ブラリ
Web UI, CLI分散インメモリ
シャッフル
BigQuery ストレージとコンピュートの接続
● 1300 Tbps total
● CLOS トポロジー
● SDN (Software Defined Network)
ペタバイト級のクエリ : 2016 年実行の履歴
ペタバイト級のクエリ : 2018 年実行の履歴(カラム 日付 パーティション)
ペタバイト級のクエリ : 2019 年実行は?(クラスタリング)
Cloud
DWH ストレージ
コンピュート サーバーレス
新しいデータ ウェアハウス
BigQuery | サーバーレス データ分析
従来のデータ ウェアハウスとの違い
Analysis and insights
BigQuery のサーバーレス分析
パフォーマンスチューニング
モニタリング
信頼性デプロイと設定
利用率の向上
分析と洞察
リソースプロビジョニング
スケールの調整
分析と洞察
高可用性を備えたいままでの解析基盤
VPC
Region 1
Region 2
Availability Zone 1
Source 1
Source 2
Source N
Availability Zone 1
Availability Zone 2
VPC
DNS Service
Orchestration Big Data Cluster
Orchestration Big Data Cluster
Orchestration Big Data Cluster
Queue
Analytics
BigQuery での可用性やメンテナンスは?
SQL:2011準拠
ペタビット規模ネットワーク
BigQuery高可用性を備えたコンピュート クラスタ
(Borg)ストリーミングインサート
無料のバルクロード
複製済み、分散ストレージ
(99.9999999999%12 nineの耐久性) REST API
7 言語のクライアントライ
ブラリ
Web UI, CLI分散インメモリ
シャッフル
BigQuery ストレージ | フルマネージド耐久性があり、バックアップも自動実行される永続化ストレージ
3
2
1
3
21 3
2
1
Table 1 Table 2 Table 3
Zone A Zone B Zone C
リージョン
● テーブルは DWH のクエリに適化されたカラムナー
フォーマットで保管される
● それぞれのテーブルは自動で圧縮、暗号化される
● ストレージはフルマネージドで 12 nines の耐久性があり、それぞれのテーブルはゾーンをまたいで複製されている
● スケールもおまかせ
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
BigQuery での可用性やメンテナンスは?
SQL:2011準拠
ペタビット規模ネットワーク
BigQuery高可用性を備えたコンピュート クラスタ
(Borg)ストリーミングインサート
無料のバルクロード
複製済み、分散ストレージ
(99.9999999999%12 nineの耐久性) REST API
7 言語のクライアントライ
ブラリ
Web UI, CLI分散インメモリ
シャッフル
BigQuery コンピュート | サーバーレス
Shuffle
ワーカー
ワーカー
GROUP BY state COUNT(*)
SELECT state
ワーカー
ワーカー
ワーカー
WHERE year...SHUFFLE BY state
分散ストレージ
● クエリ実行時のみコンピュート(コンテナ)が大量に起動される
= 従量制課金を実現
● 一部のゾーンやワーカーが障害でも透過的に割当変更するだけ
= 高可用性
● ワーカーはお客様には透過的にアップデートされる
= メンテナンス, バージョンアップのダウンタイムなし
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
BigQuery | サーバーレス データ分析
まとめ : お客様でのクラスタ管理は一切、必要ありません
Analysis and insights
BigQuery のサーバーレス分析
パフォーマンスチューニング
モニタリング
信頼性デプロイと設定
利用率の向上
分析と洞察
リソースプロビジョニング
スケールの調整
分析と洞察
Cloud
DWH ストレージ
コンピュート サーバーレス
オープン
新しいデータ ウェアハウス
BigQuerySQL
Hadoop SparkHive
...
データレイクをデータ ウェアハウスに開放
BigQueryストレージ
データレイク
ストレージ
BigQuery 外部データソース (フェデレーション)他のストレージ上のデータを直接クエリー可能
Cloud Storage(オブジェクトストレージ)
ドキュメント:外部データソースの概要
CSV, JSON, Avro, Google スプレッドシート Google Drive
Cloud SQL(マネージド
RDB)
Cloud Bigtable(ワイドカラム NoSQL )
MySQL フェデレーションBeta
Postgres フェデレーションBeta
時系列データなど予測済みレコメンなど
Avro, JSON, CSV, ORC, Parquet (まもなく)
BigQuery 外部データソース(フェデレーション)Hadoop / Spark ジョブのリフトアンドシフトもサポート
Cloud Storage(オブジェクトストレージ)
ドキュメント:外部データソースの概要
Cloud Bigtable(ワイドカラム NoSQL )
Cloud Dataproc(マネージド Hadoop /
Spark)
HBase 互換 API
HDFS の代替コネクタParquet, ORC ...
BigQuery Storage API
BigQuery(Read 専用にアドホック利用)
Cloud
DWH ストレージ
コンピュート サーバーレス
オープン
新しいデータ ウェアハウス
リアルタイム
BigQuery ストリーミング
スケーラブル アーキテクチャ
Cloud Dataflow との連携
拡張性を考慮したデザイン
33
テンプレートにより GUI だけで取り込みパスを構築可能
テーブルあたり 50 GB /秒の取り込み 1M 行 / 秒
重複排除Exactly Once セマンティクス(近日公開予定)
公式ドキュメント : BigQuery へのデータのストリーミング
事例 : テレビ東京様
● 既存アーキテクチャ (Redisベース) より高度な分析を目指し BigQuery を利用
● 収集したストレージから分析ツールのデータ移動が不要に
● 一つのコンテンツが持つ価値の 大化に貢献
Google Cloud Next ‘19 より引用
D1-2-S09: BigQuery を利用した視聴データのリアルタイム ダッシュボード構築
Cloud
新しいデータ ウェアハウス
リアルタイム
セキュリティと信頼
DWH ストレージ
コンピュート サーバーレス
オープン
各種セキュリティ要件に対応
● 東西 2 フルリージョン
● Interconnect による 専用線サポート
● IP 制限、その他各種データ持ち出し防止 (VPC Service Control)
● 国際的コンプライアンス : PCI-DSS, ISO 27001 など
● デフォルト暗号化、 CMEK 、暗号化関数
Blog: 東京 GCP リージョンで BigQuery の提供開始Cloud OnAir 番組レポート : Google Cloud でセキュアにアプリケーションを開発しようGCP を利用したセキュリティ要件対応 : VPC Service Controls を試してみた標準 SQL での AEAD 暗号化のコンセプト
「ワークロードを GCP に移行することで、技
術的収益と経済的収益の両方がもたらさ
れ、世界中に分散している大規模な機関で
イノベーションを促進することができまし
た。」
Darryl WestGroup CIO, HSBC
Cloud
現代のデータ ウェアハウス
セキュリティと信頼
データ共有リアルタイム
DWH ストレージ
コンピュート サーバーレス
オープン
クエリを保存して共有
データセットの共有と保護
BigQuery などのデータを使用して美しいレポートを作成
する
結果を スプレッドシート として共有
BigQuery によるパワーシート
使い慣れたツールや無料の Google サービスを活用し、組織間でデータを活用することで
多様なインサイトを獲得可能に
Partner Tools
BigQuery で データ インサイト を民主化する
データポータル
BigQuery BI Engine の紹介
1 秒未満のクエリ
単純化されたアーキテクチャ
スマート チューニング
40ドキュメント : BigQuery BI Engine
Connected Sheets (Analyze)
スプレッドシートのピボットテーブルが BigQuery で演算
ビッグデータを SQL 不要で分析可能に
Connected Sheets (Beta)
Cloud
現代のデータ ウェアハウス
予測
セキュリティと信頼
リアルタイム
DWH ストレージ
コンピュート サーバーレス
オープン
データ共有
「予測分析は、機械学習を導入した部門の 82% のエグゼクティブにとって も影響力のあ
る分野です。」
Forbes
● 回帰
● 顧客セグメンテーション: K-means クラスタリング
● 製品のレコメンなど : 行列分解
● Tensorflow モデルのインポート し BigQuery で予測
● BigQuery で Tensorflow DNN モデルを作成する
1
2
3
BigQuery からデータを移動
せずに ML イニシアチブを実
行
開発速度を上げるために
BigQuery で SQL のモデルを
繰り返す
一般的な ML タスクとハイ
パーパラメーター調整を自動
化
BigQuery ML を使用して AI の基盤を構築する
ドキュメント : BigQuery ML の概要
需要予測
在庫切れ予測
価格 適化
顧客生涯価値
コンバージョンレート、解
約分析
不正予測
その他...
Start with raw tabular data
Channels
Channel ID
Name Category
Features
Supplier
INSTORE
“Navy …” XYZ [“A, B, …”]
Nike
CALL CE
“Running…”
XYZ [“A, B, …”]
Nike
... ... ... ... ...
Geo locations
Geo ID Name Category
Features
Supplier
CA “Navy …” XYZ [“A, B, …”]
Nike
CA “Running…”
XYZ [“A, B, …”]
Nike
... ... ... ... ...
Promotions
Month ID
Name Category
Features
Supplier
2018-1 “Navy …” XYZ [“A, B, …”]
Nike
2017-1 “Women’s…”
XYZ [“A, B, …”]
Adidas
... ... ... ... ...
Products
Product ID
Name Image Features
Supplier
102934 “Navy …” gs://XYZ [“A, B, …”]
Nike
112932 “Women’s…”
gs://XYZ [“A, B, …”]
Adidas
... ... ... ... ...
Sales
Month Channel ID Product ID Geo ID Volume
2018-1 INSTORE 102934 CA102 600
2018-1 INSTORE 112932 CA102 800
2018-1 WEB 901243 AZ203 300
... ... ... ... ...
● 先端のモデルを自
動的に構築
● 幅広いデータプリミティ
ブのための充実した処
理 (#s, text, etc.)
● BigQuery でデータセッ
トを適切に処理 (10 TBまで)
● 完全なコードレス グラ
フィカル UI ML
AutoML Tables
ドキュメント : AutoML Tables
Cloud
DWH ストレージ
コンピュートサーバーレ
ス
オープン
現代のデータ ウェアハウス
リアルタイム
セキュリティと信頼
予測データ共有
Thank you