コンテンツに移動
Google Cloud

Cloud OnAir 番組レポート : オンプレミスから GCP へのデータの移行

2019年6月6日
Google Cloud Japan Team

Cloud OnAir は、Google Cloud の製品をわかりやすく解説し、最新の情報などをいち早く皆様にお伝えする Online 番組です。

5 月 30 日の放送では、オンプレミスのデータを BigQuery に移行する際のポイントを解説します。オンプレミスにあるデータを効率的に BigQuery に持っていくためには、技術面、運用面、組織面などから最適なアーキテクチャを探っていく必要があります。番組では、オンプレミスにあるデータを BigQuery に持ってくるために必要な技術要素を 3 つに取り上げ、よくあるケースとそれを実現するアーキテクチャについて解説します。

アーキテクチャを選択する

オンプレミスのデータを Google Cloud Storage に効率よく移行するには、ネットワーク、ツール、パイプライン管理の 3 つの観点から、アーキテクチャを探っていくことが重要です。

ネットワーク
オンプレミス環境と GCP を接続するネットワーク構成について紹介します。

大別するとパブリック接続(インターネット経由)とプライベート接続があり、プライベート接続は、VPNPartner InterconnectDedicated Interconnect に分かれます。インターネット経由で Google Cloud Storage を使う場合は、オンプレミス環境と GCP 間は すべて HTTPS の暗号化通信となるため、十分なセキュリティを確保することができます。

一方、セキュリティポリシー等により、VPN または Interconnect での接続が必要となる場合は、VPC 内のプロキシ経由で接続する事も可能です。さらに、DNS とルーティングの設定を追加することで通信経路全体をプライベートにすることができます。

ツール
データ転送に使うツールです。オンプレ側で使うものと、GCP 側で使うツールに大別されます。

  • オンプレ側で使う代表的なものとして、オープンソースのログ転送ツール Fluend があります。ストリーミングでログデータを GCP 側に持っていく際に使います。
  • GCP 側では、Apache Beam のマネージドな実行エンジンである Cloud Dataflow、ノンコーディングで ETL 処理とパイプライン管理が可能な Cloud Data Fusion がよく利用されます。
  • オンプレ側でも GCP 側でも使われるものが、Google Cloud Storage の コマンドラインツールである gsutil、オープンソースのバッチ転送ツールである embulk、GCP クライアントライブラリです。

全体のデータパイプラインの管理
GCP のサービスとして、Cloud Composer と Cloud Data Fusion がパイプライン管理をサポートします。Cloud Composer は Amache Airflow を基に構築された、フルマネージドのワークフロー オーケストレーション サービスです。クラウドとオンプレミス データセンターにまたがるパイプラインの作成、スケジューリング、モニタリングを実現します。Cloud Composer パイプラインは、Python を使用して有向非巡回グラフ(DAG)として構成でき、ユーザーの経験を問わずに簡単にワークフローを作成したり、スケジュールを設定したりできます。タスクの実行を司る Operator も充実していることも特徴です。なお、Airflow 以外のパイプライン管理ツールとしては、Digdag や Luigi というものもあります。

ユースケースとサンプルアーキテクチャ
よくあるケースを例に、どのようなアーキテクチャが考えられるかを紹介します。ここでは、次の 3 つのユースケースを取り上げます。

  1. 初めて BigQuery を使って自社データを分析するという、まずは、何ができるかを試してみたいというケースです。
  2. 1. に加えて、ネットワークをプライベート接続としたいケース。
  3. オンプレミス環境上の DB を定期的にアクセス、データを転送して、分析するケース。日々の売上データを分析するといった場合です。 企業の重要情報を扱うため、DB への接続方式に制限があったり、セキュリティポリシー上、プライベート接続のみという場合もあります。

番組では、それぞれのケースにあった、GCP のサービスの選択と組み合わせ方、またそれらを利用する上での注意点を詳しく解説しています。

Video Thumbnail

2019 年 5 月 30 日放送 

オンプレミスにあるデータを GCP で分析する前に知っておきたいアーキテクチャ

番組で説明した資料はこちらで公開しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/cloud-onair-gcp-2019530-1-638.max-700x700.jpg

オンプレミスにあるデータを GCP で分析する前に知っておきたいアーキテクチャ from Google Cloud Platform - Japan

Cloud OnAir では、各回 Google Cloud のエンジニアがトピックを設け、Google Cloud の最新情報を解説しています。過去の番組、説明資料、さらには視聴者からの質問と回答はこちらよりご覧いただけます。 最新の情報を得るためにもまずはご登録をお願いします。

投稿先