Google Cloud Platform Japan 公式ブログ

ダウンタイムなしでのオンラインリサイジングに対応した Google Cloud Persistent Disks

2016年4月6日水曜日

* この投稿は米国時間 3 月 31 日、Google Compute Engine の Software Engineer である Igor Belianski によって投稿されたもの（投稿はこちら）の抄訳です。Google Compute EnginePersistent DisksPersistent Disks のオンラインでのリサイジング対応Google Compute Engine64 TB ボリューム1Cloud SQL Second GenerationGoogle Cloud SQL[1] Persistent Disks のパフォーマンスは、選択したボリュームサイズとディスクタイプによって決まります。大きなボリュームの方が、小さなボリュームよりも高い I/O レベルを実現できます。- Posted by Igor Belianski, Software Engineer, Google Compute Engine

Google BigQuery でヒストリカルデータ保存の料金を半分に、クエリの速度を 10 倍に

2016年4月5日火曜日

* この投稿は米国時間 3 月 24 日、BigQuery Technical Program Manager の Tino Tereshko によって投稿されたもの（投稿はこちら）の抄訳です。長期保存の料金

長期保存の料金体系によって、古いデータを削除したり、データのアーカイブプロセスを設計したりしなくても良くなります。古いデータが BigQuery に残っていることによるメリットには、古いデータへのクエリを同じインターフェース、同じコストレベル、同等のパフォーマンス特性で処理ができるということもあります：

この割引は自動的に適用されます

パフォーマンスや耐久性、あるいはいかなる機能の劣化もありません

クエリのコストは標準のストレージと同じです

割引はテーブルごと、パーティションごとに計算されます

もし、あるテーブルのデータを変更した場合には 90 日のカウントはリセットされます

もし、テーブルが時間ごと（例えば 1 日ごと）のパーティションに分かれていた場合、 90 日以上経過したパーティションには長期保存の料金が適用されます。これは、仮に新しいパーティションを作っても同じことです。下でご説明する通り、このプロセスは自動化されることになっており、長期保存のメリットをより受けやすくなります。

Capacitor Storage Engine

私たちは、数年間の開発を経て社内で Capacitor と呼んでいる新しいストレージエンジンの運用を開始しました。Capacitor は、 BigQuery の、業界をリードするパフォーマンス特性に大きな役割を担っている、現在の最適化カラムナストレージフォーマット ColumnIO を置き換えるものです。表面上の変化やダウンタイム無く、顧客は Capacitor のメリットを自動的に享受できます。単純なアグリゲーションやポイントルックアップといった多くのクエリのパフォーマンスは、最大で 10 倍、場合によっては 1000 倍も改善します！

これまでの圧縮データの処理では先ず解凍が必要でしたが、 Capacitor では圧縮データを直接扱うことができる点が、多くの改善の中でも特筆すべき点です。このことによりデータ処理の効率が大きく高まりました。

Poseidon - クエリのパフォーマンスに影響しない、より高速のインポート／エクスポート

インポートとエクスポートのパイプラインを、クエリが基盤として活用しているのと同じ Dremel インフラストラクチャを使って再構築しました。これにより、高速で、クエリのパフォーマンスには全く影響しないフリーなインポートなど、当然期待されるメリットばかりではなく、より高いパフォーマンスやスケーラビリティとプレディクタビリティ、インジェスト時間の約 5 倍の改善ももたらします。

さらに、インポートとクエリを対称に作ったことで、 BigQuery ストレージにはないデータのクエリを、より簡単にしています。Google Cloud Storage からインポートできるものは、全て直接クエリすることが可能です。

良い例としては、 AVRO のサポートの追加があげられますが、 AVROは標準のフリーバッチプロセス経由のインポートと直接のクエリの両方が可能です。

Table Partitions v1 - アルファ

（この機能は、限られた数の顧客向けにアルファ版として数週間のうちに提供いたします）

現在は、データを日ごとに分割し TABLE_DATE_RANGE オペレーションによりデータを 1 つにまとめるのが最善のやり方ですが、 Table Partitions の最初のバージョンにより、データを 1 つのテーブルに保存しておくことができるようになります。自動パーティションのサポートで、データ処理がより安く、より早く、そしてより簡単になります。そのうえ、パーティションは一般的なユーザーが伝統的なデータベースソフトで慣れ親しんでいるテーブルマネジメントの操作性を受け継いでいます。

このバージョンのテーブルパーティションはデフォルトで、データが BigQuery にインジェストされた時に設定されます。将来提供されるバージョンの Table Partitions ではカスタムの日時をもったパーティションや、一般的なカスタム値を持ったパーティションの設定が可能になります。

Table Partitions 無し：日付で分割（カスタマ・マネージド）＋ TABLE_DATE_RANGE （クエリ時）

Table Partitions 有り：日付でパーティション作成（BigQuery により自動管理） + パーティションの選択（クエリ時）

パーティションにサフィックスを付け加えることで、各パーティションを直接処理することも可能です。例えば、次のようなクエリを実行することができます：

SELECT … FROM sales$20160101

これは次のクエリと同等となります

SELECT … FROM sales WHERE _PARTITION_LOAD_TIME = TIMESTAMP(“20160101”)

仮に、カラム c1 と c3 のデータの中で 2016 年 1 月 3 日と 2016 年 1 月 4 日のデータのみを処理するクエリがあったとします。Table Partitions が無ければ、 BigQuery はこの二つのカラム全体をスキャンするため、実際に必要なのはその一部のデータだけなのにもかかわらず、ユーザーには二つのカラム分の金額が請求されます：

Table Partitions では、どのパーティションからデータを読み出すかという指示を追加することができます。この例では、 BigQuery はカラム c1 と c3 の 20160103 と 20160104 のパーティションからのみデータを読み出します。このため、パフォーマンスが向上しますし、コストも目に見えて安くなります。

AVRO フォーマットサポート

CSV や JSON に加え、人気の AVRO フォーマットも BigQuery へデータをインポートする時と Federated Data Sources からデータをクエリする時の両方で利用することができるようになりました。

Google Cloud Storage から AVRO ファイルをクエリする場合：

bq query --external_table_definition=foo::AVRO=gs://test/avrotest.avro* "SELECT * FROM foo"

Google Cloud Storage から AVRO ファイルを BigQuery にロードする場合：

bq load --source_format=AVRO project:dataset.dest_table gs:://test/avrotest.avro

自動スキーマ検出

現在の BigQuery がリリースされる前は、 CSV ファイルや JSON ファイル用にテーブルスキーマを定義する必要がありました。今では、 BigQuery はスキーマを自動的に検出しようとします。

これはロード時に CSV、 JSON、 AVRO ファイルに対して機能します：

bq load --source_format=CSV project:dataset.dest_table gs:://test/csvtest.csv

Google Cloud Storage から直接このデータをクエリする場合には次のようになります：

bq query --external_table_definition=foo::CSV=gs://test/test.csv* "SELECT * FROM foo"

新しい Table Create UX

BigQuery では、スムーズでシンプルな BigQuery UI のテーブル作成のユーザー体験を提供します。

自動スキーマ推理が数週間のうちに UI に提供される予定になっていることをご承知おきください。

目に見えない改善

私たちは、データをより早く、より簡単に、より信頼性高くクエリする、多くのトランスペアレントで目に見えない改善をリリースしています。これらの改善のうちの一つは、分析関数とセミ結合 (semi-JOINs) のダイナミックマテリアライゼーションです。

私たちの顧客は、卓越した信頼性とパフォーマンスを求めています。いつものことですが、私たちはこれらの機能を貴社にシームレスに、全くダウンタイムなしで、ユーザーの手を煩わせることなくご提供します。フルマネージドな方法ということです！

- Tino Tereshko, BigQuery Technical Program Manager

Avro フォーマットの採用で BigQuery データの取り込みが 10 倍高速に

2016年4月5日火曜日

* この投稿は米国時間 3 月 15 日、Google Cloud Platform の Technical Lead である Sam McVeety によって投稿されたもの（投稿はこちら）の抄訳です。Dataflow SDKGoogle BigQuery

Google Cloud Storage- Posted by Sam McVeety, Technical Lead, Google Cloud Platform

月刊 Google Cloud Platform ニュース

2016年4月4日月曜日

Posted by 水江伸久(Google Cloud Platform セールスエンジニア)

先月（ 2016 年 3 月）発表された Google Cloud Platform 関連のニュースをブログ記事から振り返ります。
[新製品、新機能、GCP NEXT 2016 ] 3 月 23 日 24 日の 2 日間にかけて、サンフランシスコで GCP NEXT 2016 が開催され、日本リージョンの追加を含む多数の発表が行われました。

Google Compute Engine でさらなる高可用性を実現 3/29

Cloud Bigtable, ビッグデータ・アナリティクス向けHDDストレージを低コストで提供開始 3/30

Google Cloud Pub/Sub が gRPC のサポートで大幅に高速化 3/28

Google Cloud Dataflow で Python のサポートを発表 3/24

Google Stackdriver のご紹介 : GCP と AWS 向け統合モニタリングとロギング 3/24

GCP NEXT 2016 :最先端の機械学習サービス Cloud Machine Learning を発表 3/24

Google App Engine の Node.js がベータ版に 3/23

Google Cloud Platform に 2 つの新リージョンが追加、今後 10 リージョンがさらに追加予定 3/22

Spark / Hadoop マネージドサービスの Google Cloud Dataproc が一般リリース 3/3

[顧客事例] 株式会社カブクが Google Cloud Platform を使って、非常に迅速かつ安定したサービスを実装した事例が紹介されています。また、毎分 20 万リクエストに応えるオンライン学習サイト Quizlet が、Google Cloud Platform へのシステム移行を実施しました。

株式会社カブクの導入事例：デジタルものづくりプラットフォームを Google Cloud Platform で。 3/31

Snapchat が説く GCP でのセキュリティベストプラクティス 3/29

毎分 20 万のリクエストに応える無料オンライン学習ツールも Google Cloud Platform で 3/15

[ Developer Tips ] Stackdriver Traces に新たな機能が追加され、アプリケーションのパフォーマンス分析が容易にできるようになりました。パフォーマンスの最適化に興味のある方はぜひお試しください。

Trace の新機能がアプリケーションの早さを解析 3/11

[パートナー関連] 前述の Stackdriver 統合モニタリングに加え、Google はパートナーシップも強化していくことで、ハイブリッドクラウドの運用を強くサポートしていきます。

Splunk, BMC とパートナーを組みハイブリッドクラウドの運用をより簡単に 3/28

[ソリューション]

Google Cloud Platform で Red Hat Openshift をはじめよう 3/23

円周率 5,000 億桁の計算と探索 3/22

Google Cloud Platform で Slack との連携を実現する 3 つの方法 3/10

Google Compute Engine 上で機械学習を使用した独自のリコメンデーションエンジンを構築 3/7

TensorFlow : Google Cloud Platform 上の金融データを使用したディープラーニング 3/4

[その他] Youtube 360 度ビデオを使った Google DataCenter のツアー動画が公開されました。Google データセンターの内部を 360 度見渡してみてください。また、Google は新しい IT インフラストラクチャの標準化を推進するべく、Open Compute Project に加わりました。

Google データセンターにみるセキュリティとデータ保護のベストプラクティス 3/31

クラウドの価格体系 Part6 - ビッグデータプロセシングエンジン 3/30

Google の DataCenter で360度ツアー 3/28

GCP を支えるロードバランサの設計を公開 3/23

IT インフラの標準化に向け、Open Compute Project に参加 3/14

Google Cloud Launcher でサードパーティアプリのクラウドでの実行を容易に

2016年4月4日月曜日

* この投稿は米国時間 3 月 21 日 Google Cloud Launcher の Product Manager である Anil Dhawan によって投稿されたもの（投稿はこちら）の抄訳です。Cloud Launcher

ソリューションをたった数クリックで入手。今でも Developers Console から Cloud Launcher にアクセスすることは可能ですが、このたび私たちは構成と検索を見直し、必要なソリューションをより簡単に見つけられるようにしました。

ソリューションの正しい設定やスペックを、より簡単に発見。全てのソリューションは、カスタマイズされた事前設定オプションに加え、すぐに使えるデフォルトを用意し、立ち上げがより簡単になりました。

Launcher ソリューションは Google Cloud Deployment Manager を使用するようになり、Deployment Manager UI でのデプロイの設定の全アスペクトの完璧なビューを提供します。各ソリューション独自のテンプレートは、全てダウンロードして変更できるようになるため、他の Google Cloud Platform やサードパーティあるいはプライベートなテンプレートを使って構成することができ、より洗練されたソリューションの作成も可能になります。

プロダクショングレードのソリューション。より多くのオープンソースや商用のソリューションが、 multi-VM とマルチリソースデプロイメントの両方をサポートし、プロダクションアプリケーションに必要なスケーリングや信頼性を担保しています。

デプロイしたソリューションのセキュリティの通知を自動的に受信。Cloud Launcher ソリューションにセキュリティのアップデートが有った時に自動で通知が届くため、セキュリティ対策も容易です。

パートナーサポートへの直接アクセス。ヘルプが必要になったら、 Cloud Launcher を通して、直接パートナーサポートにコンタクトできるようになりました。入ってきたサポートリクエストが正規の購入者からであることを確認するメカニズムもパートナーに用意されているので、問い合わせにはタイムリーに対応することができます。

より多くのソリューションの選択肢。私たちは、SendGrid や Brocade、EnterpriseDB、StorReduce、Techila Technologies など多くの新しいパートナーを Cloud Launcher へ、よろこんで迎え入れています。

Cloud Launcher Solutions のマネジメントに Deployment Manager を使うことができるようになりました

スマートデフォルトを使ってパワフルな設定をデプロイするか、シンプルウィザードで変更します。Cloud Launcher- Posted by Anil Dhawan, Product Manager, Google Cloud Launcher

IAM ベストプラクティスガイドを公開

2016年4月1日金曜日

* この投稿は米国時間 3 月 29 日、Solutions Architect である Grace Mollison によって投稿されたもの（投稿はこちら）の抄訳です。Google Cloud Identity & Access ManagementGoogle Cloud Platform

Using IAM Securely

Designing Resource Hierarchies

Understanding Service Accounts

Using IAM Securely

最小権限 : ユーザーやアプリケーションによる想定外の振る舞いを制限するのに役立つ一連のチェック項目。

サービスアカウントとサービスアカウントキーの管理 : この 2 つをセキュアに管理するときに役立つアドバイス。

監査 : Audit ログとクラウドロギングロールの使用を忘れないようにするためのプラクティスをカバー。

ポリシー管理 : 方針を適切に策定して管理するうえでチェックすべきポイント。

組織レベル : このレベルは企業の代表を表します。このレベルで認められた IAM ロールは、組織の下のすべてのリソースに継承されます。

プロジェクトレベル : このレベルは社内での信頼関係の境界を表します。同じプロジェクト内のサービスはデフォルトで信頼を置かれます。たとえば、App Engine インスタンスは同じプロジェクトの Cloud Storage バケットにアクセス可能です。プロジェクトレベルで認められた IAM ロールは、そのプロジェクトのリソースに継承されます。

リソースレベル : Google Cloud Storage と Google BigQuery の既存の ACL システムに加え、Google Genomics データセットや Google Cloud Pub/Sub トピックもリソースレベルロールをサポートするので、単一のリソースに対して特定のユーザー権限を与えることができます。

Designing Resource HierarchiesUnderstanding Service Accounts

サービスアカウントがアクセスできるリソースは何か?

サービスアカウントはどのような権限を必要としているか?

サービスアカウントの ID で動くコードは、Google Cloud Platform 上で動作するのか、それともオンプレミスで動作するのか?

CP-iam-feedback@google.com- Posted by Grace Mollison, Solutions Architect

Cloud Dataflow オートスケーリングと Spark Hadoop の比較

2016年4月1日金曜日

* この投稿は米国時間 3 月 24 日、Software Engineer の Marian Dvorsky と Product Manager の Eric Anderson によって投稿されたもの（投稿はこちら）の抄訳です。前回のポストApache Beam （インキュベーションの段階）DataflowApache SparkGoogle Cloud DataflowGoogle Cloud DataflowCloud Dataflow ダイナミックスケーリングの必要性

図 1 固定サイズのプロビジョニングスケーリングオプションCloud DataflowCloud DataflowGoogle Cloud Platform 図 2 Spark 対 Cloud Dataflow のオートスケーリング

Cloud DataflowCloud Dataflow

図 3 オートスケーリングによるアンバウンドデータのプロビジョニング
参考例リーダーボードパイプライン（ストリーミング）programming model comparisonモバイルゲームドメイン

マクロライフサイクル：そのゲームの人気は上昇していますか、それとも下降していますか？これはゲームの立ち上げ直後には大変大きな要素になる場合があります。

日ごとの変動：ユーザーは夜より日中の方がよりアクティブです

図 4 インプットスループットとワーカー数の Google Cloud Monitoring チャートUser Scores パイプライン（バッチ）model comparison ポスト

小（約 22GiB)： gs://dataflow-samples/game/gaming_data*.csv

大（約 1.3TiB）；gs://dataflow-samples/game/large/batch*.csv

まとめ-autoscalingAlgorithm=THROUGHPUT_BASEDEarly Access Program
- Posted by Eric Anderson, Product Manager and Marian Dvorsky, Software Engineer

Google Cloud Platform Japan Blog

ダウンタイムなしでのオンラインリサイジングに対応した Google Cloud Persistent Disks

Google BigQuery でヒストリカルデータ保存の料金を半分に、クエリの速度を 10 倍に

Avro フォーマットの採用で BigQuery データの取り込みが 10 倍高速に

月刊 Google Cloud Platform ニュース

Google Cloud Launcher でサードパーティアプリのクラウドでの実行を容易に

IAM ベストプラクティスガイドを公開

Cloud Dataflow オートスケーリングと Spark Hadoop の比較

12 か月間のトライアル

Labels

Archive

Feed

Company-wide

製品・サービス

デベロッパー

Google Cloud Platform Japan Blog

ダウンタイムなしでのオンライン リサイジングに対応した Google Cloud Persistent Disks

Google BigQuery でヒストリカルデータ保存の料金を半分に、 クエリの速度を 10 倍に

Avro フォーマットの採用で BigQuery データの取り込みが 10 倍高速に

月刊 Google Cloud Platform ニュース

Google Cloud Launcher でサードパーティアプリのクラウドでの実行を容易に

IAM ベスト プラクティス ガイドを公開

Cloud Dataflow オートスケーリングと Spark Hadoop の比較

12 か月間のトライアル

Labels

Archive

Feed

Company-wide

製品・サービス

デベロッパー

ダウンタイムなしでのオンラインリサイジングに対応した Google Cloud Persistent Disks

Google BigQuery でヒストリカルデータ保存の料金を半分に、クエリの速度を 10 倍に

IAM ベストプラクティスガイドを公開