Google Cloud Platform Japan Blog
最新情報や使い方、チュートリアル、国内外の事例やイベントについてお伝えします。
ダウンタイムなしでのオンライン リサイジングに対応した Google Cloud Persistent Disks
2016年4月6日水曜日
* この投稿は米国時間 3 月 31 日、Google Compute Engine の Software Engineer である Igor Belianski によって投稿されたもの(
投稿はこちら
)の抄訳です。
Google Compute Engine
は、仮想マシン インスタンスのプライマリ ブロック ストレージとして使用できる
Persistent Disks
を提供しています。
しかし、クラウドやオンプレミスで利用するお客様の多くは、これまでブロック ストレージの適切なプロビジョニングに苦労してきました。将来のデータ増加やパフォーマンス ニーズのプランが必要になるからです。また、仮想マシンがスペースを使い切ってしまっても、ブロック ストレージのサイズをスケーリングすることは容易ではありませんでした。
このたび、私たち Google は
Persistent Disks のオンラインでのリサイジング対応
を GA (General Availability)リリースとしました。この機能により、ボタンをクリックするか API を 1 つ呼び出すだけで、サイズを変更できるようになります。
この機能を使っても、
Google Compute Engine
インスタンスにダウンタイムが発生したり、スナップショットが必要になったりはしません。対象となるのは、最近発表された
64 TB ボリューム
を含むすべての Persistent Disks です。
この機能の導入により、Persistent Disks のキャパシティ プランニングは大幅に単純化されます。現在のニーズに基づいて Persistent Disks をプロビジョニングし、後でスペースやパフォーマンス
1
が必要になったらサイズを増やせばよいのです。
システムをオフラインにしてディスクのスナップショットを取得し、大きいデバイスにスナップショットを復元してまたオンラインに戻す、といった複雑なワークフローは不要です。単純に物理デバイスを大きくするという 1 個のコマンドだけです。デバイスの IOPS とスループットの限界は直ちに高まります。
仮想マシン インスタンスにマウントされているディスクのサイズを変更したら、ファイル システムのサイズを変更します。通常、Linux なら resize2fs を実行し、Windows なら Disk Manager でパーティションのサイズを変更するだけです。
Google 社内でも、
Cloud SQL Second Generation
からオンラインでのディスク サイズの変更を行ってきました。そして
Google Cloud SQL
が使用する Persistent Disks では、ダウンタイムのない自動的な拡張を実現しています。
ぜひ新機能をお試しください!
[1] Persistent Disks のパフォーマンスは、選択したボリューム サイズとディスク タイプによって決まります。大きなボリュームの方が、小さなボリュームよりも高い I/O レベルを実現できます。
- Posted by Igor Belianski, Software Engineer, Google Compute Engine
Google BigQuery でヒストリカルデータ保存の料金を半分に、 クエリの速度を 10 倍に
2016年4月5日火曜日
* この投稿は米国時間 3 月 24 日、BigQuery Technical Program Manager の Tino Tereshko によって投稿されたもの(
投稿はこちら
)の抄訳です。
Google BigQuery が処理を、早く、安く、使いやすくし続け、次世代のフルマネージド zero-Ops アナリティクスデータウェアハウスを定義し続けてます。
既に BigQuery の新しい機能のリリースに関する発表を Google Cloud Platform Blog でご覧になっているかもしれませんが、ここではもう少し詳細にお話をしたいと思います。
長期保存の料金
Long Term Storage (長期保存) は、 BigQueryに長期間データを保存する場合に適用される自動割引です。データが 90 日を過ぎて BigQuery に保存する場合、料金が 1 GB あたり月 $0.02 から自動的に $0.01 に引き下げられます。
2016 年 2 月 1 日にエディットされたデータから追跡を始めているので、長期保存割引は 90 日後の 2016 年 3 月 1 日から適用になっているはずです。
長期保存前の料金体系:
長期保存後の料金体系:
長期保存の料金体系によって、古いデータを削除したり、データのアーカイブプロセスを設計したりしなくても良くなります。古いデータが BigQuery に残っていることによるメリットには、古いデータへのクエリを同じインターフェース、同じコストレベル、同等のパフォーマンス特性で処理ができるということもあります:
この割引は自動的に適用されます
パフォーマンスや耐久性、あるいはいかなる機能の劣化もありません
クエリのコストは標準のストレージと同じです
割引はテーブルごと、パーティションごとに計算されます
もし、あるテーブルのデータを変更した場合には 90 日のカウントはリセットされます
もし、テーブルが時間ごと(例えば 1 日ごと)のパーティションに分かれていた場合、 90 日以上経過したパーティションには長期保存の料金が適用されます。これは、仮に新しいパーティションを作っても同じことです。下でご説明する通り、このプロセスは自動化されることになっており、長期保存のメリットをより受けやすくなります。
Capacitor Storage Engine
私たちは、数年間の開発を経て社内で Capacitor と呼んでいる新しいストレージエンジンの運用を開始しました。Capacitor は、 BigQuery の、業界をリードするパフォーマンス特性に大きな役割を担っている、現在の最適化カラムナストレージフォーマット ColumnIO を置き換えるものです。表面上の変化やダウンタイム無く、顧客は Capacitor のメリットを自動的に享受できます。単純なアグリゲーションやポイントルックアップといった多くのクエリのパフォーマンスは、最大で 10 倍、場合によっては 1000 倍も改善します!
これまでの圧縮データの処理では先ず解凍が必要でしたが、 Capacitor では圧縮データを直接扱うことができる点が、多くの改善の中でも特筆すべき点です。このことによりデータ処理の効率が大きく高まりました。
Poseidon - クエリのパフォーマンスに影響しない、より高速のインポート/エクスポート
インポートとエクスポートのパイプラインを、クエリが基盤として活用しているのと同じ Dremel インフラストラクチャを使って再構築しました。これにより、高速で、クエリのパフォーマンスには全く影響しないフリーなインポートなど、当然期待されるメリットばかりではなく、より高いパフォーマンスやスケーラビリティとプレディクタビリティ、インジェスト時間の約 5 倍の改善ももたらします。
さらに、インポートとクエリを対称に作ったことで、 BigQuery ストレージにはないデータのクエリを、より簡単にしています。Google Cloud Storage からインポートできるものは、全て直接クエリすることが可能です。
良い例としては、 AVRO のサポートの追加があげられますが、 AVROは標準のフリーバッチプロセス経由のインポートと直接のクエリの両方が可能です。
Table Partitions v1 - アルファ
(この機能は、限られた数の顧客向けにアルファ版として数週間のうちに提供いたします)
現在は、データを日ごとに分割し TABLE_DATE_RANGE オペレーションによりデータを 1 つにまとめるのが最善のやり方ですが、 Table Partitions の最初のバージョンにより、データを 1 つのテーブルに保存しておくことができるようになります。自動パーティションのサポートで、データ処理がより安く、より早く、そしてより簡単になります。そのうえ、パーティションは一般的なユーザーが伝統的なデータベースソフトで慣れ親しんでいるテーブルマネジメントの操作性を受け継いでいます。
このバージョンのテーブルパーティションはデフォルトで、データが BigQuery にインジェストされた時に設定されます。将来提供されるバージョンの Table Partitions ではカスタムの日時をもったパーティションや、一般的なカスタム値を持ったパーティションの設定が可能になります。
Table Partitions 無し:日付で分割(カスタマ・マネージド)+ TABLE_DATE_RANGE (クエリ時)
Table Partitions 有り:日付でパーティション作成(BigQuery により自動管理) + パーティションの選択(クエリ時)
パーティションにサフィックスを付け加えることで、各パーティションを直接処理することも可能です。例えば、次のようなクエリを実行することができます:
SELECT … FROM sales$20160101
これは次のクエリと同等となります
SELECT … FROM sales WHERE _PARTITION_LOAD_TIME = TIMESTAMP(“20160101”)
仮に、カラム c1 と c3 のデータの中で 2016 年 1 月 3 日と 2016 年 1 月 4 日のデータのみを処理するクエリがあったとします。Table Partitions が無ければ、 BigQuery はこの二つのカラム全体をスキャンするため、実際に必要なのはその一部のデータだけなのにもかかわらず、ユーザーには二つのカラム分の金額が請求されます:
Table Partitions では、どのパーティションからデータを読み出すかという指示を追加することができます。この例では、 BigQuery はカラム c1 と c3 の 20160103 と 20160104 のパーティションからのみデータを読み出します。このため、パフォーマンスが向上しますし、コストも目に見えて安くなります。
AVRO フォーマットサポート
CSV や JSON に加え、人気の AVRO フォーマットも BigQuery へデータをインポートする時と Federated Data Sources からデータをクエリする時の両方で利用することができるようになりました。
Google Cloud Storage から AVRO ファイルをクエリする場合:
bq query --external_table_definition=foo::AVRO=gs://test/avrotest.avro* "SELECT * FROM foo"
Google Cloud Storage から AVRO ファイルを BigQuery にロードする場合:
bq load --source_format=AVRO project:dataset.dest_table gs:://test/avrotest.avro
自動スキーマ検出
現在の BigQuery がリリースされる前は、 CSV ファイルや JSON ファイル用にテーブルスキーマを定義する必要がありました。今では、 BigQuery はスキーマを自動的に検出しようとします。
これはロード時に CSV、 JSON、 AVRO ファイルに対して機能します:
bq load --source_format=CSV project:dataset.dest_table gs:://test/csvtest.csv
Google Cloud Storage から直接このデータをクエリする場合には次のようになります:
bq query --external_table_definition=foo::CSV=gs://test/test.csv* "SELECT * FROM foo"
新しい Table Create UX
BigQuery では、スムーズでシンプルな BigQuery UI のテーブル作成のユーザー体験を提供します。
自動スキーマ推理が数週間のうちに UI に提供される予定になっていることをご承知おきください。
目に見えない改善
私たちは、データをより早く、より簡単に、より信頼性高くクエリする、多くのトランスペアレントで目に見えない改善をリリースしています。これらの改善のうちの一つは、分析関数とセミ結合 (semi-JOINs) のダイナミックマテリアライゼーションです。
私たちの顧客は、卓越した信頼性とパフォーマンスを求めています。いつものことですが、私たちはこれらの機能を貴社にシームレスに、全くダウンタイムなしで、ユーザーの手を煩わせることなくご提供します。フルマネージドな方法ということです!
- Tino Tereshko, BigQuery Technical Program Manager
Avro フォーマットの採用で BigQuery データの取り込みが 10 倍高速に
2016年4月5日火曜日
* この投稿は米国時間 3 月 15 日、Google Cloud Platform の Technical Lead である Sam McVeety によって投稿されたもの(
投稿はこちら
)の抄訳です。
このたびリリースされた
Dataflow SDK
Version 1.5.0では、
Google BigQuery
からデータを処理用に取り込む速度が大幅に向上しています。
Google の社内ベンチマークを見てみると、パイプラインにおいて BigQuery からデータを取り込むセグメントが従来よりも 10 倍高速に実行されていることがわかります。
下図に示すように、BigQuery からのエクスポート専用のパイプラインにおいて速度の向上が顕著です。
私たち Google のもとには、BigQuery からデータを取り込むセクションの高速化に関する質問が数多く寄せられていました。Dataflow SDK 1.5.0 がまさにそのための方法を提供することを、私たちはうれしく思います。
これまでその取り込み速度は、BigQuery からエクスポートするファイルのフォーマットに依存していました。
Dataflow SDK の従来バージョンの場合、テーブルとクエリは Dataflow に、JSON エンコードされた
Google Cloud Storage
オブジェクトとして提供されていました。それらのエントリがすべて同じスキーマを持つことを考えると、この表現はきわめて冗長です。基本的に、レコードごとにスキーマを文字列として複製することになるからです。
それに対して Dataflow SDK 1.5.0 では、Dataflow は Avro ファイル フォーマットを使用し、単一の共有スキーマに従って BigQuery データをバイナリ エンコードおよびデコードします。これにより、個々のレコード サイズが実際のフィールド値に応じて減少します。
こうした効率性が、私たち Google が Protocol Buffers (Apache Avro とよく似た多くのデータ シリアライズ システムの 1 つ)を非常に気に入っている理由の 1 つです。
当然のことながら、BigQuery シンクでも同様のパフォーマンス向上が得られます。Dataflow チームと BigQuery チームは Avro エンコーディングのサポートを予定しており、その実現を楽しみにしています。
- Posted by Sam McVeety, Technical Lead, Google Cloud Platform
月刊 Google Cloud Platform ニュース
2016年4月4日月曜日
Posted by 水江 伸久(Google Cloud Platform セールスエンジニア)
先月( 2016 年 3 月)発表された
Google Cloud Platform
関連のニュースをブログ記事から振り返ります。
[新製品、新機能、GCP NEXT 2016 ]
3 月 23 日 24 日の 2 日間にかけて、サンフランシスコで
GCP NEXT 2016
が開催され、
日本リージョンの追加
を含む多数の発表が行われました。
Google Compute Engine でさらなる高可用性を実現
3/29
Cloud Bigtable, ビッグデータ・アナリティクス向けHDDストレージを低コストで提供開始
3/30
Google Cloud Pub/Sub が gRPC のサポートで大幅に高速化
3/28
Google Cloud Dataflow で Python のサポートを発表
3/24
Google Stackdriver のご紹介 : GCP と AWS 向け統合モニタリングとロギング
3/24
GCP NEXT 2016 :最先端の機械学習サービス Cloud Machine Learning を発表
3/24
Google App Engine の Node.js がベータ版に
3/23
Google Cloud Platform に 2 つの新リージョンが追加、今後 10 リージョンがさらに追加予定
3/22
Spark / Hadoop マネージド サービスの Google Cloud Dataproc が一般リリース
3/3
[顧客事例]
株式会社カブクが Google Cloud Platform を使って、非常に迅速かつ安定したサービスを実装した事例が紹介されています。また、毎分 20 万リクエストに応えるオンライン学習サイト Quizlet が、Google Cloud Platform へのシステム移行を実施しました。
株式会社カブクの導入事例:デジタルものづくりプラットフォームを Google Cloud Platform で。
3/31
Snapchat が説く GCP での セキュリティベストプラクティス
3/29
毎分 20 万のリクエストに応える無料オンライン学習ツールも Google Cloud Platform で
3/15
[ Developer Tips ]
Stackdriver Traces に新たな機能が追加され、アプリケーションのパフォーマンス分析が容易にできるようになりました。パフォーマンスの最適化に興味のある方はぜひお試しください。
Trace の新機能がアプリケーションの早さを解析
3/11
[パートナー関連]
前述の
Stackdriver 統合モニタリング
に加え、Google はパートナーシップも強化していくことで、ハイブリッドクラウドの運用を強くサポートしていきます。
Splunk, BMC とパートナーを組みハイブリッドクラウドの運用をより簡単に
3/28
[ソリューション]
Google Cloud Platform で Red Hat Openshift をはじめよう
3/23
円周率 5,000 億桁の計算と探索
3/22
Google Cloud Platform で Slack との連携を実現する 3 つの方法
3/10
Google Compute Engine 上で機械学習を使用した独自のリコメンデーション エンジンを構築
3/7
TensorFlow : Google Cloud Platform 上の金融データを使用したディープラーニング
3/4
[その他]
Youtube 360 度ビデオを使った Google DataCenter のツアー動画が公開されました。Google データセンターの内部を 360 度見渡してみてください。また、Google は新しい IT インフラストラクチャの標準化を推進するべく、
Open Compute Project
に加わりました。
Google データセンターにみるセキュリティとデータ保護のベストプラクティス
3/31
クラウドの価格体系 Part6 - ビッグデータプロセシングエンジン
3/30
Google の DataCenter で360度ツアー
3/28
GCP を支えるロードバランサの設計を公開
3/23
IT インフラの標準化に向け、Open Compute Project に参加
3/14
Google Cloud Launcher でサードパーティアプリのクラウドでの実行を容易に
2016年4月4日月曜日
* この投稿は米国時間 3 月 21 日 Google Cloud Launcher の Product Manager である Anil Dhawan によって投稿されたもの(
投稿はこちら
)の抄訳です。
技術的なアジリティの将来性から、パブリッククラウドには規模を問わずさまざまなビジネスから大きな期待が寄せられています。
エコシステムの成長にともない、ソリューションを見つけ、統合し、立ち上げまでにかかる時間の更なる削減のために、ソフトウェアのマーケットプレイスが現れました。今日ではアプリを見つけて立ち上げまで数分あれば大丈夫です。
しかし生産性の向上は劇的に向上しましたが、問題点もあります。運用とサポートに大きな課題が残されているのです。静的なイメージファイルをベースとしたソリューションは、時間とともに劣化し、アップデートやマネジメントの明確な道筋が示されていなければ、「死んだソフトウェア」を動かすことになってしまいます。
例えば、コンフィギュレーションのドリフトやイメージファイルの劣化、全体のサポート性の低下といったことがあげられます。
そこで、私たちは
Cloud Launcher
マーケットプレイスの全面的なアップデートを発表させていただきます。これまでにないサポートとパブリッシャーとの接続性をもった、完璧なソリューションを見つけることのできる場を開発者のために構築しました。
最新のアップデートは次の通りです:
ソリューションをたった数クリックで入手。今でも Developers Console から Cloud Launcher にアクセスすることは可能ですが、このたび私たちは構成と検索を見直し、必要なソリューションをより簡単に見つけられるようにしました。
ソリューションの正しい設定やスペックを、より簡単に発見。全てのソリューションは、カスタマイズされた事前設定オプションに加え、すぐに使えるデフォルトを用意し、立ち上げがより簡単になりました。
Launcher ソリューションは
Google Cloud Deployment Manager
を使用するようになり、Deployment Manager UI でのデプロイの設定の全アスペクトの完璧なビューを提供します。各ソリューション独自のテンプレートは、全てダウンロードして変更できるようになるため、他の
Google Cloud Platform
やサードパーティあるいはプライベートなテンプレートを使って構成することができ、より洗練されたソリューションの作成も可能になります。
プロダクショングレードのソリューション。より多くのオープンソースや商用のソリューションが、 multi-VM とマルチリソースデプロイメントの両方をサポートし、プロダクションアプリケーションに必要なスケーリングや信頼性を担保しています。
デプロイしたソリューションのセキュリティの通知を自動的に受信。
Cloud Launcher
ソリューションにセキュリティのアップデートが有った時に自動で通知が届くため、セキュリティ対策も容易です。
パートナーサポートへの直接アクセス。ヘルプが必要になったら、
Cloud Launcher
を通して、直接パートナーサポートにコンタクトできるようになりました。入ってきたサポートリクエストが正規の購入者からであることを確認するメカニズムもパートナーに用意されているので、問い合わせにはタイムリーに対応することができます。
より多くのソリューションの選択肢。私たちは、
SendGrid
や
Brocade
、
EnterpriseDB
、
StorReduce
、
Techila Technologies
など多くの新しいパートナーを
Cloud Launcher
へ、よろこんで迎え入れています。
Cloud Launcher Solutions のマネジメントに Deployment Manager を使うことができるようになりました
スマートデフォルトを使ってパワフルな設定をデプロイするか、シンプルウィザードで変更します。
私たちは、皆さまの生産性を向上するために、常に新しいソリューションやサービスをカタログに付け加えています。したがって次回、人気の既成ソリューションを探すときも
Cloud Launcher
からスタートしてください。
さあ、出発です!
- Posted by Anil Dhawan, Product Manager, Google Cloud Launcher
IAM ベスト プラクティス ガイドを公開
2016年4月1日金曜日
* この投稿は米国時間 3 月 29 日、Solutions Architect である Grace Mollison によって投稿されたもの(
投稿はこちら
)の抄訳です。
Google Cloud Identity & Access Management
(IAM)サービスは、
Google Cloud Platform
リソースへのアクセスをよりセキュアにする機能を提供します。この IAM サービスを活用していただくため、私たち Google はベスト プラクティス ガイドを作成しました。
ベスト プラクティス ガイドの構成は次のとおりです。
Using IAM Securely
Designing Resource Hierarchies
Understanding Service Accounts
“
Using IAM Securely
” ガイドは、IAM を使用するときの懸念事項に関するベスト プラクティスのチェック項目を提供し、IAM コントロールをセキュアに使用するのに役立ちます。
このガイドでは、ベスト プラクティスを次の 4 つに分類しています。
最小権限 : ユーザーやアプリケーションによる想定外の振る舞いを制限するのに役立つ一連のチェック項目。
サービス アカウントとサービス アカウント キーの管理 : この 2 つをセキュアに管理するときに役立つアドバイス。
監査 :
Audit ログ
と
クラウド ロギング ロール
の使用を忘れないようにするためのプラクティスをカバー。
ポリシー管理 : 方針を適切に策定して管理するうえでチェックすべきポイント。
Cloud Platform リソースは階層的に構成されており、IAM ポリシーはその構造の下の方に伝播させることが可能です。IAM ポリシーは、次に示すリソース階層のレベルで設定できます。
組織レベル :
このレベルは企業の代表を表します。このレベルで認められた IAM ロールは、組織の下のすべてのリソースに継承されます。
プロジェクト レベル :
このレベルは社内での信頼関係の境界を表します。同じプロジェクト内のサービスはデフォルトで信頼を置かれます。たとえば、App Engine インスタンスは同じプロジェクトの Cloud Storage バケットにアクセス可能です。プロジェクト レベルで認められた IAM ロールは、そのプロジェクトのリソースに継承されます。
リソース レベル :
Google Cloud Storage
と
Google BigQuery
の既存の ACL システムに加え、
Google Genomics
データセットや
Google Cloud Pub/Sub
トピックもリソース レベル ロールをサポートするので、単一のリソースに対して特定のユーザー権限を与えることができます。
次の図は Cloud Platform リソース階層の一例です。
“
Designing Resource Hierarchies
” ガイドは、リソース階層の実際の意味を示した例と、ベスト プラクティスに従っていることをダブルチェックする際に役立つ使いやすいチェック項目から構成されます。
サービス アカウントは、エンドユーザー個人ではなく、アプリケーションや仮想マシン(VM)に属する特別なタイプの Google アカウントです。このサービス アカウントに関して、以下に示すようなよくある質問に答えてくれるのが “
Understanding Service Accounts
” ガイドです。
サービス アカウントがアクセスできるリソースは何か?
サービス アカウントはどのような権限を必要としているか?
サービス アカウントの ID で動くコードは、Google Cloud Platform 上で動作するのか、それともオンプレミスで動作するのか?
このガイドは、特定の決定を下すことが持つ意味を説明し、サービス アカウントを安全かつ効率的に使うために必要な知識を身に付けられるように支援します。
私たち Google は、IAM を使用している、もしくは IAM の使用を検討しているお客様の声に耳を傾けながら、この IAM ベスト プラクティス ガイドをさらに充実させていくつもりです。また、現状では想定されていないロールに関しても、要望に応えていきたいと考えています。
Cloud Platform を最もセキュアで最も使いやすいクラウドにすることが、私たちの目標です。その目標を実現するうえで、皆さんの声はとても重要な意味を持ちます。ぜひ
CP-iam-feedback@google.com
宛にご意見をお寄せください。
- Posted by Grace Mollison, Solutions Architect
Cloud Dataflow オートスケーリングと Spark Hadoop の比較
2016年4月1日金曜日
* この投稿は米国時間 3 月 24 日、Software Engineer の Marian Dvorsky と Product Manager の Eric Anderson によって投稿されたもの(投稿はこちら)の抄訳です。
前回のポスト
では、現在
Apache Beam (インキュベーションの段階)
となっている
Dataflow
のプログラミングモデルを
Apache Spark
のものと比較しました。今回のブログポストでは、
Google Cloud Dataflow
サービスで Beam パイプラインを実行させるメリットの一つであるオートスケーリングをご紹介します。
MapReduce のような Google に昔からあるようなシステムや、 Spark や Hadoop といった現在使われているシステムなどをこれまで使ってきた私達の経験から、ユーザーは自らのジョブのチューニングに多くの時間を費やしていることを理解しています。
これには、ジョブやクラスターで使用するワーカーの数を推測するという作業も含まれています。しかも、一つの環境設定がしばしば正解とは限らず、あるジョブの継続時間中にリソースのダイナミックな変化が必要な場合があります。
Google Cloud Dataflow
のオートスケーリング機能は、シンプルな環境設定(ワーカー数の指定が不要)とコスト削減(ある期間にわたって最適化されたワーカー数)を提供します。
Cloud Dataflow
は私たちの知る限り、自動オートスケーリングが可能で、データ処理特有のシグナルに統合されている唯一のシステムです。私たちのアルゴリズムは、 Google 内で類似のシステムを実行してきた経験に基づき開発されました。
ダイナミックスケーリングの必要性
ワークロードのプロビジョニングには、適切なワーカーの数の選択(これまではユーザーによって選択されていました)や、適切なデータパーティション数の選択(これまではワーカーの数やデータのサイズで計算されていました)が含まれます。固定したワーカーのセットを選ぶということは、常にジョブに対してプロビジョニングが多すぎたり、少なすぎたりしている、ということを意味します。あるタイミングで最適だったとしても、(ストリーミングのため、あるいは次のバッチデータセットのために)インプットの変化があれば最適な状態から外れるてしまうことになります。
これまでストリーミングに関連してきた制約のないソースでは、インプットレートの変化の対応が主な関心ごとでした。この領域でのオートメーションは通常、存在しないか、あっても簡単なものなので、ユーザーは相反するニーズの間で右往左往しなくてはなりませんでした。つまり、余分なコストをかけてプロビジョンを増やすか、正確性やレイテンシ、データパイプラインのスループットの低下というリスクを冒してプロビジョンを少なくするか、のどちらかということになります。
図 1 固定サイズのプロビジョニング
制約のあるソースのパイプライン(すなわちバッチ)はリアルタイムでのインプットレートの変化に対処する必要はありませんが、これもやはり要注意です。これまで、バッチパイプライン用のワーカーの数を決めるのは謎解きゲームのようでした。ジョブを適切な時間内に処理するのに必要なのは 100 のワーカーなのか、それとも 10 で充分なのか、と推測をしなくてはならなかったのです。
しかも、bounded data は、それぞれスケールの制限があるステージに分けて処理するのが最適です(例えばマッピングの後にリデュースするなど)。
ある変換のプロパティは、他よりもパラレルにしやすいとか、それぞれのデータサイズが異なっているかもしれないとか、一方は I/O バウンドで他方は CPU バウンドであるなど、色々な要素が絡んでいます。
また、一つのコンセプチュアルなパイプラインを、異なるインプットサイズ(例えば、日次、月次、年次のジョブ)と、それぞれが異なる最適なチューニングポイントをもつデータセットの処理に使うかもしれません。
ワーカー数を固定するということは、どのステージにおいても余分なリソースをもつ(そしてコストがアップする)か、ジョブの処理時間が必要以上に長くなるかということなのです。
ワーカーの数の設定の他に、関連した課題としては中間データセットを含むデータセットのパーティションの数の設定があります。沢山使いすぎると、パーティションごとのオーバーヘッドが支配的になります。また、少なすぎるとシステムは利用できるワーカーを全ては使いきれなくなります。
また、パーティションの数が固定の場合(これまでのシステムではそうでしたが、 Cloud Dataflow は異なります)、ユーザーがそれを設定するか、システムがクラスターのサイズやデータサイズ、あるいは同じパイプラインのこれまでのランのプロファイルから「正しい」数を推定しなくてはなりません。このような推定はしばしば不正確で、ユーザーの手動での上書きが必要になっていることが分かりました。
スケーリングオプション
Cloud Dataflow
と Spark はどちらもジョブのリソースを自動でプロビジョンする手段を持っていますが、その振る舞いは大きく異なります。Spark ではユーザーはクラスターをデプロイし、さらにクラスターにジョブをデプロイします。
ユーザーにはスケーリングを行う 2 つの領域ができ、オートスケーリングが難しくなります。これに関しては後ほどご説明します。一方
Cloud Dataflow
はジョブをデプロイするのみです。
Google Cloud Platform
を自動的にスケーリングされたクラスターと考えることもできます。ジョブのワーカーは、ジョブ実行のタイミングに合わせてデプロイされ、不必要になったら引き離されます。
ジョブに自動的にワーカーを加えるために、 Spark では Dynamic Resource Allocation を提供しており、クラスターの中で利用可能なワーカーをジョブに割り当てます(図 2 をご覧ください)。余談になりますが、これは Mesos が類似の機能をビルトインしているので、概ね YARN にもあてはまります。
この機能は、オンプレミスでのインストレーションの様にマシンのセットが固定されている場合には上手くいきますが、クラウドではジョブ内のスケーリングはコストの削減にはなりません。
コストを減らすには、クラスターが Spark の外でリサイズされる必要があります。ユーザー自身が手動のリサイズやスクリプトでこれを行います。クラウドプロバイダーのオートスケーリングサービスもワーカーを追加したり削除したりできますが、制限されたデータの並列性や、それぞれのステージが CPU バウンドなのか IO バウンドなのか、などのドメイン特有の制限は必ずしも反映されません。
クラスターをアップスケールすることで、より多くの、あるいはより大きなジョブを実行させることができますが、十分なタスクやパーティションが既に割り振られていなければ、今あるジョブには関係がないかもしれません。これは Spark ではそのステージのタスクの数をダイナミックに変更する手段がないからです。これは Spark クラスターをオートスケールする方法はあるものの、中で実行中のジョブには必ずしもメリットが無いということです。
図 2 Spark 対 Cloud Dataflow のオートスケーリング
一方、
Cloud Dataflow
はクラウドで実行を行うように、オートスケーリングも考慮して設計されています。
Cloud Dataflow
のオートスケーリングは Flume と MapReduce から派生した次世代リソースマネジメントアルゴリズムです(sorting blog ポストの Lessons learned セクションもご覧ください)。
バッチジョブでは、オートスケーリングは与えられたジョブのワーカー数をダイナミックに調整するだけではなく、タスクの数も調整しワーカーが無駄にならないようにします。以上をまとめると、 Spark ユーザーは二つの制限されたスケーリングインターフェースを設定、調整しモニターしなくてはなりませが、 Cloud Dataflow ではインターフェースは一つで、サービスはインテリジェントにスケールが可能です。
オートスケーリングは決定を下すために幾つかのシグナルが必要になります。これらのほとんどは、ワーカーがどれぐらいビジーなのか、あるいは余っているか、の評価で、 CPU 使用率やスループット、残っている仕事の量(あるいはバックログ)なども含まれます。
ワーカーは、 CPU 使用率とバックログが増えると増やされ、これらのメトリクスが減少すると減らされます。例えば、ワークロードの通常の変動では、ワークが増加(あるいは減少)するに従って数回のリサイズが行われ、ピークや谷の底では逆方向への変動が起きるまではサイズを維持します(図 3 をご覧ください)。
図 3 オートスケーリングによるアンバウンドデータのプロビジョニング
参考例
リーダーボードパイプライン(ストリーミング)
ここまで述べてきたことに関連した、基本的な例を幾つか見ていきましょう。
programming model comparison
ポスト のリーダーボードパイプラインは、
モバイルゲームドメイン
のストリーミングパイプラインで、ゲームスコアのストリームが与えられ、時間当たりのチームごとのスコアと、全時間にわたるユーザーごとの合計スコアを連続的に計算します。パイプラインのインジェスト・レートは色々な要素で変化しますが、多くの場合、特にゲームでは、次の 2 つの要素が重要です:
マクロライフサイクル:そのゲームの人気は上昇していますか、それとも下降していますか? これはゲームの立ち上げ直後には大変大きな要素になる場合があります。
日ごとの変動:ユーザーは夜より日中の方がよりアクティブです
この例では、アクティビティが低い日と高い日で 4 倍の変動があるというシナリオで説明させていただきます。
このパイプラインへのストリーミングデータを生成するインジェクタを構築しました。実際の Cloud Dataflow ストリーミングパイプラインの 1 日の負荷の変動をプロダクションから取り、私たちのインジェクタで再現しました。メッセージ(ゲームイベント)のレートは毎秒、約 7,000 から 35,000 まで変動します。図 4 をご覧ください。
図 4 インプットスループットとワーカー数の
Google Cloud Monitoring
チャート
イベントのレートが増加すると、 Cloud Dataflow は初期の 3 ワーカーから 4、 16、そして最終的には 32 ワーカーまでスケールアップしてピークの負荷を処理していることが分かります。イベントのレートが減少した場合には、 Cloud Dataflow は徐々にワーカーの数をダウンサイズし、元の値である 3 まで減らします。これは、ピーク負荷の処理に対応したパイプラインのプロビジョニングを常に実行させる場合と比較して、大きなコスト削減につながります。
User Scores パイプライン(バッチ)
シンプルなバッチの例も見てみましょう。User Scores は
model comparison ポスト
でも取り上げましたが、ゲームイベントのバウンドセットで、ユーザーごとのスコアを計算するパイプラインです。ここでは Cloud Dataflow がこのシナリオで、どのようにしてその同じパイプラインで、自動的にワーカーの数を選ぶかをお見せします。
二つのサイズのデータセットを例として使います:
小(約 22GiB): gs://dataflow-samples/game/gaming_data*.csv
大(約 1.3TiB);gs://dataflow-samples/game/large/batch*.csv
小さなデータセットでは、 Cloud Dataflow は 3 ワーカーからスタートしますが、ジョブのサイズとスループットを学ぶにつれ、まず 5 までアップスケールし、その後 12 ワーカーに増やします(Cloud Dataflowが選択するワーカーの数はデータのサイズだけではなく、ワーカーごとの処理速度にも依存することに注意してください):
Cloud Dataflow は、ジョブをアップスケールする際、見えないところで新しいタスクやパーティションをダイナミックに作成し、ワーカーをビジーに保ちます。最初に多くのタスクを作成しておく必要はありません。Hadoop MapReduce といった、これまでのシステムでは、データサイズに基づいてタスクを予め作成しておきます(例えば 64 MB のデータごとに一つのタスクというように)。このやり方は、ここでお示ししたケースでは上手くいったかもしれませんが、インプットが小さく、レコードが処理するにはコストが掛かりすぎる場合には破たんします。Cloud Dataflow はそのようなシナリオもロバストに扱います。
ジョブを 5 分弱で終了し、約 30 VM-minutes を全体で使っています。
大きなデータセットは小さなデータセットより、おおよそ 60 倍大きくなります。大きなジョブのモニタリングメッセージは次のようになります:
実際このような、より大きなデータセットでは Cloud Dataflow は小さなデータセットの場合と比較して大変多くのワーカー (294) を選んでいます。それでも、ジョブは 1139 VM-minutes を使用して約 8 分で終了しています(つまり、小さなデータセットの約 40 倍のコスト)。
予想どおり、より大きなデータセットは一桁コストが高い(インプットサイズが大きく違うため)ですが、オートスケーリングのために終了までの時間はそれほど長くはなりません。
これらはオートスケーリングの動作に関する大変簡単な例です。今後のポストで、より詳しい例をお見せしたいと思います。
まとめ
Cloud Dataflow のオートスケーリング機能を紹介し、 Spark や Hadoop のような他の類似のシステムとどう違うかをご説明しました。Cloud Dataflow のユーザー、が何故ワーカーやパーティションの数の指定に関して心配する必要がないか、 Cloud Dataflow がどの様にダイナミックにワーカーの数を時間と共に調整するかをお示ししました。
ユーザー様からの反応は大変喜ばしいものでした。例えば、 SwiftIQ のチーフアーキテクト Alex Harvey は私たちに「必要なリソースの数を考えなくてもよいのがとても気に入った。自分たちはアルゴリズムを考えることに集中して、リソースのスケーリングは Dataflow に任せられる。」と話していただけました。
Nest のソフトウェアエンジニア Riju Kallivalappil も同じようなことを仰ってくださいました。「私は Dataflow のオートスケーリングのファンだ。ジョブを実行するのに必要なマップやリデュース、パーティション等々の数を心配しなくて良いなんて最高だよ。」
私たちは間もなく、全てのバッチジョブにデフォルトでオートスケーリングをイネーブルにする予定です。今のところは、 -
-autoscalingAlgorithm=THROUGHPUT_BASED
をバッチパイプラインのコマンドラインで指定することでイネーブルにすることができます。ストリーミングオートスケーリングは、現在
Early Access Program
としての招待によってのみ入手可能です。
私たちは Cloud Dataflow のオートスケーリングの挙動をプロダクションでモニターし、オートスケーリングのアルゴリズムとヒューリスティックスを、シグナルのスタビリティやワークの予測精度およびオートスケーリングの決定に関する品質の良いメトリクスに基づき、引き続き進化させていきます。
私たちはまた、デフォルトのオートスケーリングヒューリスティックスを若干変更して、コストを重視するかジョブの処理速度を重視するかを反映できるようにジョブクラスを増やすことも計画しています。これからもご注目ください。
- Posted by Eric Anderson, Product Manager and Marian Dvorsky, Software Engineer
12 か月間のトライアル
300 ドル相当が無料になるトライアルで、あらゆる GCP プロダクトをお試しいただけます。
Labels
.NET
.NET Core
.NET Core ランタイム
.NET Foundation
#gc_inside
#gc-inside
#GoogleCloudSummit
#GoogleNext18
#GoogleNext19
#inevitableja
Access Management
Access Transparency
Advanced Solutions Lab
AI
AI Hub
AlphaGo
Ansible
Anthos
Anvato
Apache Beam
Apache Maven
Apache Spark
API
Apigee
APIs Explore
App Engine
App Engine Flex
App Engine flexible
AppArmor
AppEngine
AppScale
AprilFool
AR
Artifactory
ASL
ASP.NET
ASP.NET Core
Attunity
AutoML Vision
AWS
Big Data
Big Data NoSQL
BigQuery
BigQuery Data Transfer Service
BigQuery GIS
Billing Alerts
Bime by Zendesk
Bitbucket
Borg
BOSH Google CPI
Bower
bq_sushi
BreezoMeter
BYOSL
Capacitor
Chromium OS
Client Libraries
Cloud API
Cloud Armor
Cloud Audit Logging
Cloud AutoML
Cloud Bigtable
Cloud Billing Catalog API
Cloud Billing reports
Cloud CDN
Cloud Client Libraries
Cloud Console
Cloud Consoleアプリ
Cloud Container Builder
Cloud Dataflow
Cloud Dataflow SDK
Cloud Datalab
Cloud Dataprep
Cloud Dataproc
Cloud Datastore
Cloud Debugger
Cloud Deployment Manager
Cloud Endpoints
Cloud Firestore
Cloud Foundry
Cloud Foundry Foundation
Cloud Functions
Cloud Healthcare API
Cloud HSM
Cloud IAM
Cloud IAP
Cloud Identity
Cloud IoT Core
Cloud Jobs API
Cloud KMS
Cloud Launcher
Cloud Load Balancing
Cloud Machine Learning
Cloud Memorystore
Cloud Memorystore for Redis
Cloud monitoring
Cloud NAT
Cloud Natural Language API
Cloud Networking
Cloud OnAir
Cloud OnBoard
cloud Pub/Sub
Cloud Resource Manager
Cloud Resource Manager API
Cloud SCC
Cloud SDK
Cloud SDK for Windows
Cloud Security Command Center
Cloud Services Platform
Cloud Source Repositories
Cloud Spanner
Cloud Speech API
Cloud Speech-to-Text
Cloud SQL
Cloud Storage
Cloud Storage FUSE
Cloud Tools for PowerShell
Cloud Tools PowerShell
Cloud TPU
Cloud Translation
Cloud Translation API
Cloud Virtual Network
Cloud Vision
Cloud VPC
CloudBerry Backup
CloudBerry Lab
CloudConnect
CloudEndure
Cloudflare
Cloudian
CloudML
Cluster Federation
Codefresh
Codelabs
Cohesity
Coldline
Colossus
Compute Engine
Compute user Accounts
Container Engine
Container Registry
Container-Optimized OS
Container-VM Image
Couchbase
Coursera
CRE
CSEK
Customer Reliability Engineering
Data Studio
Databases
Dbvisit
DDoS
Debugger
Dedicated Interconnect
deep learning
Deployment Manager
Developer Console
Developers
DevOps
Dialogflow
Disney
DLP API
Docker
Dockerfile
Drain
Dreamel
Eclipse
Eclipse Orion
Education Grants
Elasticsearch
Elastifile
Energy Sciences Network
Error Reporting
ESNet
Evernote
FASTER
Fastly
Firebase
Firebase Analytics
Firebase Authentication
Flexible Environment
Forseti Security
G Suite
Gartner
gcloud
GCP
GCP Census
GCP 移行ガイド
GCP 認定資格チャレンジ
GCPUG
GCP導入事例
gcsfuse
GEO
GitHub
GitLab
GKE
Go
Go 言語
Google App Engine
Google Apps
Google Certified Professional - Data Engineer
Google Cloud
Google Cloud Certification Program
Google Cloud Client Libraries
Google Cloud Console
Google Cloud Dataflow
Google Cloud Datalab
Google Cloud Datastore
Google Cloud Endpoints
Google Cloud Explorer
Google Cloud Identity and Access Management
Google Cloud INSIDE
Google Cloud INSIDE Digital
Google Cloud INSIDE FinTech
Google Cloud Interconnect
Google Cloud Launcher
Google Cloud Logging
Google Cloud Next '18 in Tokyo
Google Cloud Next '19 in Tokyo
Google Cloud Platform
Google Cloud Resource Manager
Google Cloud Security Scanner
Google Cloud Shell
Google Cloud SQL
Google Cloud Storage
Google Cloud Storage Nearline
Google Cloud Summit '18
Google Cloud Summit ’18
Google Cloud Tools for IntelliJ
Google Code
Google Compute Engine
Google Container Engine
Google Data Analytics
Google Data Studio
Google Date Studio
Google Deployment Manager
Google Drive
Google Earth Engine
Google Genomics
Google Kubernetes Engine
Google maps
google maps api
Google Maps APIs
Google Maps Platform
Google SafeSearch
Google Service Control
Google Sheets
Google Slides
Google Translate
Google Trust Services
Google VPC
Google マップ
Google 公認プロフェッショナル
GoogleNext18
GPU
Gradle
Grafeas
GroupBy
gRPC
HA / DR
Haskell
HEPCloud
HIPAA
Horizon
HTCondor
IaaS
IAM
IBM
IBM POWER9
icon
IERS
Improbable
INEVITABLE ja night
inevitableja
InShorts
Intel
IntelliJ
Internal Load Balancing
Internet2
IoT
Issue Tracker
Java
Jenkins
JFrog
JFrog Artifactory SaaS
Jupiter
Jupyter
Kaggle
Kayenta
Khan Academy
Knative
Komprise
kubefed
Kubeflow Pipelines
Kubernetes
KVM
Landsat
load shedding
Local SSD
Logging
Looker
Machine Learning
Magenta
Managed Instance Group
Managed Instance Group Updater
Maps API
Maps-sensei
Mapsコーナー
Maven
Maxon Cinema 4D
MightyTV
Mission Control
MongoDB
MQTT
Multiplay
MySQL
Nearline
Network Time Protocol
Networking
neural networks
Next
Node
NoSQL
NTP
NuGet パッケージ
OCP
OLDISM
Open Compute Project
OpenCAPI
OpenCAPI Consortium
OpenShift Dedicated
Orbitera
Organization
Orion
Osaka
Paas
Panda
Particle
Partner Interconnect
Percona
Pete's Dragon
Pivotal
Pivotal Cloud Foundry
PLCN
Podcast
Pokemon GO
Pokémon GO
Poseidon
Postgre
PowerPoint
PowerShell
Professional Cloud Network Engineer
Protocol Buffers
Puppet
Pythian
Python
Qwiklabs
Rails
Raspberry Pi
Red Hat
Redis
Regional Managed Instance Groups
Ruby
Rust
SAP
SAP Cloud Platform
SC16
ScaleArc
Secure LDAP
Security & Identity
Sentinel-2
Service Broker
Serving Websites
Shared VPC
SideFX Houdini
SIGOPS Hall of Fame Award
Sinatra
Site Reliability Engineering
Skaffold
SLA
Slack
SLI
SLO
Slurm
Snap
Spaceknow
SpatialOS
Spinnaker
Spring
SQL Server
SRE
SSL policies
Stack Overflow
Stackdriver
Stackdriver Agent
Stackdriver APM
Stackdriver Debugger
Stackdriver Diagnostics
Stackdriver Error Reporting
Stackdriver Logging
Stackdriver Monitoring
Stackdriver Trace
Stanford
Startups
StatefulSets
Storage & Databases
StorReduce
Streak
Sureline
Sysbench
Tableau
Talend
Tensor Flow
Tensor Processing Unit
TensorFlow
Terraform
The Carousel
TPU
Trace
Transfer Appliance
Transfer Service
Translate API
Uber
Velostrata
Veritas
Video Intelligence API
Vision API
Visual Studio
Visualization
Vitess
VM
VM Image
VPC Flow Logs
VR
VSS
Waze
Weave Cloud
Web Risk AP
Webyog
Wide and Deep
Windows Server
Windows ワークロード
Wix
Worlds Adrift
Xplenty
Yellowfin
YouTube
Zaius
Zaius P9 Server
Zipkin
ZYNC Render
アーキテクチャ図
イベント
エラーバジェット
エンティティ
オンライン教育
クラウド アーキテクト
クラウド移行
グローバル ネットワーク
ゲーム
コードラボ
コミュニティ
コンテスト
コンピューティング
サーバーレス
サービス アカウント
サポート
ジッター
ショート動画シリーズ
スタートガイド
ストレージ
セキュリティ
セミナー
ソリューション ガイド
ソリューション: メディア
データ エンジニア
データセンター
デベロッパー
パートナーシップ
ビッグデータ
ファジング
プリエンプティブル GPU
プリエンプティブル VM
フルマネージド
ヘルスケア
ホワイトペーパー
マイクロサービス
まっぷす先生
マルチクラウド
リージョン
ロード シェディング
運用管理
可用性
海底ケーブル
機械学習
金融
継続的デリバリ
月刊ニュース
資格、認定
新機能、アップデート
深層学習
深層強化学習
人気記事ランキング
内部負荷分散
認定試験
認定資格
料金
Archive
2019
8月
7月
6月
5月
4月
3月
2月
1月
2018
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2017
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2016
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2015
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2014
12月
11月
10月
9月
8月
6月
5月
4月
3月
2月
Feed
月刊ニュースレターに
登録
新着ポストをメールで受け取る
Follow @GoogleCloud_jp