Apache Beam Google Cloud Dataflow
2016 年は、私たち
Google Cloud Dataflow チームにとって非常にエキサイティングな年となっています。6 か月前、私たちは
Cloud Dataflow のプログラミング モデルと SDK を Apache Software Foundation に寄贈する方針を発表しました。これによって
Apache Beam Incubator プロジェクトがスタートしたのです。
Beam のコミュニティは Google の社員と多くの新しい友人たちで構成されており、寄贈されたコードのリファクタリング、新しい寄贈コードの統合、リリースの仕組みの定義などに精力的に取り組んできました。Apache Beam ブログに最近投稿された
この記事では、これまでの進捗状況が一覧できます。
2016 年も後半に入り、私たちは Apache Beam の進捗が
Google Cloud Platform のお客様にとってどのような意味を持つのかを説明したいと考えました。
Cloud Dataflow サービスは今後も進化し、ユニークな処理機能が追加されていきます。私たちは、自動スケーリングやこのサービスならではの UI エクスペリエンス(グラフィカルなモニタリング UI など)、Cloud Platform のモニタリングおよび管理サービス(
Stackdriver Monitoring など)との統合といった分野への投資を継続します。
私たちの目標は、Apache Beam プログラムを実行するうえで最高のクラウド サービスを構築することです。そのために、Cloud Dataflow SDK として Apache Beam コードを対応言語ごとに配布していきます。
こうしたすぐに使えるディストリビューションには、Apache Beam コードの中で Cloud Dataflow での実行に最も役立つ部分がパッケージされます。さらに、これらのディストリビューションは、Cloud Dataflow サービスでの使用にあたって追加テストおよび検証を受けます。Cloud Platform のお客様は、Cloud Dataflow サービスとこれらのディストリビューションでどのようなニーズが発生しても、Google のサポート チャネルで十分な支援を受けられます。
そうした Cloud Dataflow ディストリビューションの第 1 弾となる
Cloud Dataflow SDK for Python v.0.4.0 のベータ版が、7 月下旬にリリースされました。これは、初めて公開された Cloud Dataflow SDK for Python であるだけでなく、初めてリリースされた Apache Beam コードでもあります。新たに広く使われるようになったステートメント “import apache_beam as beam” がその証拠です。
私たちは、Cloud Dataflow の最初にリリースされた SDK である Cloud Dataflow SDK for Java を、Beam コードで再配布することに力を注いでいます。2016 年中に Beam コードで初めて再配布する際には、それに合わせて SDK for Java のバージョンを 2.x に上げる予定です。それまでは、Cloud Dataflow サービスには SDK for Java 1.x を使うことをお勧めします。
1.x から 2.x への移行は、単純な変更(パッケージ名の “com.google.cloud.dataflow” から “org.apache.beam” への変更など)を伴うシンプルなプロセスになるでしょう。詳細は年内にあらためて発表します。
Apache Beam と Cloud Dataflow の組み合わせは非常にエキサイティングな未来をもたらすと私たちは考えており、移行プロジェクトの完了を楽しみにしています。
皆さんは将来的に、各分野の卓越した技術、すなわちコミュニティが所有する、現在のビッグデータ処理ニーズに対応した堅牢なプログラミング モデルと、それを使って構築されるパイプラインを実行するための強力なクラウド サービスの両方から恩恵を受けることになるでしょう。
- Posted by Rafael Fernández, Technical Program Manager and Frances Perry, Software Engineer
0 件のコメント :
コメントを投稿