Google Cloud

分析用データの準備と統合を容易にする GCP の新サービス

2017年3月24日

Google Cloud Japan Team

分析用データの準備機能と統合サービスの新たなサポートにより、データから素早く価値を引き出せるようになります。

データの量や速度、種類に関係なく、そこから価値を引き出すことに、Googleは従来型データウェアハウスの時代から長く取り組んできました。そして今、Google BigQuery への関心が高まり、導入が加速していることは、多くの組織にとって “citizen data science”（いわゆる「データ分析の民主化」の意）文化の構築が手の届くところまで来ていることを示唆しています。

とはいえ、まだやることはあります。お客様やパートナーに話を聞くと、データ分析を阻む課題が依然として存在することがはっきりします。インフラを構築し保守していく時間やコストの確保や、分析に適したデータセットをビジネスユーザーに簡単かつ安全に提供できるかということです。なかでも分析に使用するデータの準備が大変で、一部のお客様は総作業処理時間の最大 80 % をデータ準備に費やしています。

私たちは今回、Google Cloud Next '17 にて、こうした課題に直接対応できる新しい製品やサービスを発表しました。これらにより、さまざまな規模の企業が、基盤となるインフラの構築や統合、管理に多くの時間とリソースを割くのではなく、データによってビジネスの課題を解決することに注力できるようになります。

Cloud Dataprep で分析用データの準備が容易に

Google Cloud Dataprep（現時点ではプライベートベータ）は、Trifacta とのコラボレーションによって生まれた新しいマネージドデータサービスです。このサービスは以下の機能をサポートしており、これらを使用すれば、アナリストやデータサイエンティストは瞬時に分析用データを視覚的に探索し準備することができます。

異常検知 : スキーマ、タイプ、ディストリビューション、値の欠如 / 不一致を自動的に検知します。機械学習を駆使することで、訂正データの変換を提案します。
ドラッグ & ドロップによる開発 : コーディング不要の直感的なユーザーエクスペリエンスにより、分析に集中できます。
Google Cloud Platform（GCP）との独創的な統合 : Google Cloud Storage や BigQuery から生データを安全に読み込んだり、ローカルマシンからデータをアップロードしたり、より詳細な分析のためにクリーンデータを BigQuery に再度書き込んだりすることができます。
フルマネージドインフラストラクチャ : Google が提供する他のマネージドサービスと同様に、ITリソースのプロビジョニングおよび管理が自動的かつ柔軟に処理されます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/A5ORR0BMWVOgGpMBm-QywLWJDHxhUXdHS2sv38YahQHX7HpSnhW_wZ9XlGF2TgMXG07P4R5BOt.GIF

https://storage.googleapis.com/gweb-cloudblog-publish/images/LyufXiHjwLP5BdlSyyYcQde6E3aEjvxTSps50FE5ae.max-1600x1600.PNG

BigQuery の機能強化 : Data Transfer Service とフェデレーテッドクエリ

BigQuery は、分析経験が浅いユーザーでも驚くべきインサイトを発見できる、新しいタイプのクラウドネイティブなエンタープライズデータウェアハウスとして、Hearst や The New York Times といったお客様の間で評価を確立しています。このたび、そうした BigQuery に新しい機能が 2 つ加わり、クラウド全体からデータに簡単にアクセスできるようになったほか、より迅速にインサイトが得られるようになりました。

新しい BigQuery Data Transfer Service により、Google 管理下の広告データセット全体から迅速に価値を引き出すことが容易になります。たとえば数クリックするだけで、マーケティングアナリストは、Google Adwords や DoubleClick Campaign Manager、DoubleClick for Publishers、さらには YouTube Content and Channel Owner Reports からのデータインポートをスケジューリングできるのです。デジタル広告のデータを（POS データや在庫表、顧客サービスのリクエストなど）既存のレポートデータと一元化することで、マーケティング内容をより詳しく全体的に見渡せるようになります。こうしたサービスを、Google Data Studio や可視化ソリューションを提供する Google のパートナー（Tableau、Looker、Zoomdata など）のソリューションと組み合わせれば、インサイトにたどり着くまでの時間をさらに短縮できます。

「Zenith では Google Cloud を活用することで、Google や DoubleClick、Aviva のサイトからインプレッション、クリック、コンバージョンのデータを取り込んでいます。クライアントやその他のデータから得たオフラインでの意見も併せて取り込めば、顧客行動の全体像がつかめます。この全体像は、機械学習によって再度属性別に分けられてから、DoubleClick Bid Manager や DS にフィードバックされ、見積もりを受け入れてもらえそうなメディアでの効率的な広告掲載に結びつけるのです。この閉ループシステムにより、Aviva に対するメディア効率化が 15 % 向上しました。」 ― Ian Liddicoat 氏、Global Head of Data、Technology and Analytics at Zenith

BigQuery がサポートするクエリの対象範囲に Google Cloud Bigtable が加わりました。Cloud Bigtable は、低レイテンシや高スループットを要求する大規模な分析や操作のワークロード（特に一般的な金融サービスや IoT のユースケース）向けに設計された NoSQL データベースサービスです。BigQuery ユーザーはすでに、Google Cloud Storage、Google Drive、Google Sheets 内のデータをクエリすることができます。これに Cloud Bigtable 内のデータが加わったことは、あらゆる種類のデータをシステム間でコピーすることなく BigQuery で便利に分析できることを意味し、シームレスなクラウドプラットフォームへのさらなる一歩となります。

BigQuery で商用データセットを利用

企業はしばしば、社外で提供されている（公用や商用の）データセットを必要とします。商用のデータセットには、Xignite が提供する金融市場データ、HouseCanary の（過去と推定の）住居用不動産評価データ、Remine が予測する家の売却時期データ、AccuWeather による過去の天候データ、Dow Jones のニュースアーカイブなどがあります。

これらのデータはすべて BigQuery で利用可能です（今後新たなパートナーがプログラムに参加する予定で、利用可能なサービスがさらに追加されます）。

データ提供事業者からデータセットを購読すれば、こうしたデータを BigQuery ですぐにクエリできます。これでお客様は、データを収集して保存し、そのバージョンを管理する方法に頭を悩ます必要がなくなり、データから価値を引き出すことに注力することができます。

Google Cloud のおかげで、Dow Jones が有する世界レベルのコンテンツやデータに対して、これまで以上に簡単にアクセスできるようになりました。これにより、アナリストやデベロッパーは最新のデータ分析や機械学習のツールを駆使し、ビジネスクリティカルな情報とワークフローを統合できます。

Clancy Childs 氏、Chief Product & Technology Officer、Dow Jones

この見積もりをツイートする

続いて、GCP データアナリティクススタックに関するその他の発表について紹介します。

Cloud Dataflow 向け Python SDK の正式リリース

Google Cloud Dataflow のサーバーレスなアプローチにより、バッチ処理やストリーミング処理におけるデータ処理の複雑さや運用負荷が大幅に軽減されます。最近までその恩恵を受けられるのは Java デベロッパーのみでしたが、このほど Cloud Dataflow 向けの Python SDK が正式リリースされました。SDK は Apache Beam から直接提供されます。

Cloud Dataflow での SDK の実装は、ETL、大規模画像処理のオーケストレーション、機械学習のためのデータ準備など、Python の一般的なユースケースで高い評価を受けています。

Cloud Dataflow ジョブを監視する Stackdriver Monitoring（ベータ）

Google Stackdriver は、GCP や AWS で稼働しているアプリケーションの監視および診断機能を提供します。この Stackdriver Monitoring を Cloud Dataflow と統合する機能は、お客様から最も多く寄せられた要望の 1 つであり、このほどパブリックベータ版をリリースできたことをうれしく思います。

今回のパブリックベータでは、Cloud Dataflow の測定基準にアクセスして分析を行い、特定の Cloud Dataflow ジョブの条件に応じてアラートを作成できます。たとえば、ストリーミングシステムの遅延を示すダッシュボードを作成し、事前に定義したしきい値を超えた場合のアラートを定義することで、アラートの発生時にメールや SMS で通知を受け取ることが可能です。

Cloud Datalab の正式リリース

インタラクティブなデータサイエンスワークフローツールである Google Cloud Datalab が正式リリースされました。このツールは、標準 SQL、Python、シェルコマンドを使っている Jupyter ノートブックベースの環境において反復モデルやデータ分析を容易にします。BigQuery や Cloud Storage のデータ、さらにはローカルに保存したデータの調査や分析、可視化を行ううえで、デベロッパーやデータサイエンティストの役に立ちます。

Cloud Datalab を使用すれば、機械学習開発プロジェクトのライフサイクル全体を見据えたアプローチをとることができます。最初はローカルに格納されている小規模なデータセットでプロトタイプを作り、次に Cloud Storage のフルデータセットを使ってクラウドで訓練するのです。

今回の正式リリース版では、新たに TensorFlow と Scikit-learn をサポートするとともに、Cloud Dataproc を介して Cloud Dataflow や Apache Spark を利用することで、バッチおよびストリーミング処理にも対応できます。

Cloud Dataproc のアップデート

Google Cloud Dataproc は、Apache Spark や Flink、Hadoop のパイプラインを稼働させるためのフルマネージドサービスです。ストリーミング処理を容易にし、パイプラインの開発を加速させ、お客様がクラスタの管理をより柔軟に行えるようにすることを目指して設計されています。

こうした目標の実現に向け、このほど以下のような改良が加えられました。

失敗したジョブを自動で再始動する新機能により、長期稼働型のジョブやストリーミング関連のジョブの耐久性が向上しました（ベータ）。
ライトウェイトなデータサイエンス、教育、サンドボックス開発のために、単一ノードのクラスタを作成できるようになりました（ベータ）。
ゲノム解析のような計算集約型ジョブを伴うワークロード向けに、Cloud Dataproc のクラスタに GPU を追加できるようになりました（ベータ）。
Cloud Dataproc User Labels が正式リリースされ、Cloud Dataproc のリソース管理がより柔軟になりました。
Regional endpoints が利用可能になり、必要に応じて Cloud Dataproc のリソースをうまく分離でき、パフォーマンスも向上しました。
Java SSL プロバイダーを BoringSSL ベースのプロバイダーに変更したことで SSL が最適化され、Cloud Storage のオペレーションが高速になりました。