Google Cloud

Fastly のリアルタイムストリーミングログを BigQuery で分析する方法

2017年8月31日

Google Cloud Japan Team

編集部注 : 今回は Fastly からの寄稿です。Fastly のエッジクラウドプラットフォームは、コンテンツ配信、ストリーミング、セキュリティ、負荷分散などの領域で従来よりも優れたサービスをグローバルに提供するウェブアプリケーションを支えています。また、Google Cloud Platform（GCP）上で構築されたアプリケーションの応答時間を短縮するだけでなく、ログを Cloud Storage と BigQuery にストリーミングして深く分析できるようにしています。本稿では、この統合と、お客様の環境でのセットアップ方法について解説します。

私たち Fastly と Google Cloud のコラボレーションは、GCP のパワーと Fastly エッジクラウドプラットフォームのスピードおよび柔軟性を結びつけました。私たちは全世界 14 の戦略拠点で Google との間にプライベートな相互接続を設けており、GCP と Fastly を併用するお客様の環境では Google サービスとストレージの応答時間が劇的に向上しています。

そしてこのたび、私たちは Google BigQuery との統合を発表しました。これで、Google Cloud Storage と BigQuery に Fastly のログをリアルタイムでストリーミングでき、お客様は無限とも言える膨大なエッジデータを分析することが可能になります。

もしあなたが Fastly のお客様なら、人口統計や地理的な位置などの側面に応じて、ウェブサイトの月単位のページビューや利用状況に関する実用的な知見を獲得できます。このデータがあれば、接続の問題の解決、パフォーマンスチューニングが必要な構成領域の特定、サービス停止の原因の特定、エンドユーザーのエクスペリエンスの向上などを図れるのです。

さらに BigQuery テーブルを使用して、Fastly のログデータと、Google Analytics、Google Ads などのデータやセキュリティ、ファイアウォールログを結合することもできます。Fastly のリアルタイムログを Cloud Storage に保存すれば、冗長性を確保することも可能です。実際、多くのお客様が Fastly から Cloud Storage に直接ログをバックアップしています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/20dwF0hRdvjia7AgZnc59SF-dL-N7M78BRZBIVu74N.max-1100x1100.PNG

Fastly POP は GCP ベースのアプリケーションに直結し、BigQuery にログをストリーミングします

それでは、統合のセットアップ方法と、Cloud Storage および BigQuery による Fastly ログの分析について説明しましょう。

Fastly-BigQuery 統合のセットアップ

Fastly サービスのロギングエンドポイントとして BigQuery を追加する前に、Cloud Storage アカウントを登録して Cloud Storage バケットを作成する必要があります。この準備を済ませたら、以下の手順でセットアップを行ってください。

1. Google Cloud サービスアカウントの作成

BigQuery は、サードパーティアプリケーションの認証のためにサービスアカウントを使用します。サービスアカウントの作成方法については、Google のサービスアカウント認証情報生成のページを参照してください。サービスアカウントを作成するときは、鍵タイプに JSON を指定してください。

2. private_key と client_email の入手

サービスアカウントを作成したら、サービスアカウントの JSON ファイルをダウンロードします。このファイルには、BigQuery サービスアカウントの認証情報が格納されています。ファイルを開き、private_key とclient_email の内容をメモしてください。

3. BigQuery API の有効化（無効にしている場合）

Fastly ログを Cloud Storage バケットに送るには、GCP の API Manager で BigQuery API を有効にする必要があります。

4. BigQuery データセットの作成

BigQuery API を有効にしたら、次の手順で BigQuery データセットを作ってください。

BigQuery にログインします。
サイドバーのアカウント名の横にある矢印をクリックし、Create new dataset を選択します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/SzjfHH0q-FU8Swx_8XpfLQ9kgVuE2prwLJkMx6WMcm2k.max-600x600.PNG

Create Dataset ウィンドウが表示されます。

Dataset ID フィールドにデータセットの名前（たとえばfastly_bigquery）を入力し、OK ボタンをクリックします。

https://storage.googleapis.com/gweb-cloudblog-publish/images/cZB7CCnGpyg9bK6hhSeHlfmQgA5iO5_4fTDI5ibzXchu.max-700x700.PNG

5. BigQuery テーブルの追加

BigQuery データセットを作成したら、BigQuery テーブルの追加が必要です。テーブルスキーマの作成方法には次の 3 つがあります。

BigQuery のウェブインターフェースを使ってスキーマを編集する。
BigQuery のウェブインターフェースのテキストフィールドを使ってスキーマを編集する。
既存のテーブルを利用する。

私たちとしては、新しいテーブルを作り、ユーザーインターフェースを使ってスキーマを作成する方法をお勧めしますが、テーブルスキーマのテキスト表現を編集してもよいでしょう。実際、テキストバージョンとユーザーインターフェースバージョンはいつでも切り替えられます。

なお、Fastly ユーザーインターフェースで使うロギングのフォーマットの例と、それに対応するテキスト形式の BigQuery スキーマを後述していますので、お役立てください。重要なのは、Fastly から送るデータが BigQuery テーブルのスキーマと一致していることです。一致していない場合は、データが壊れたり、エラーメッセージなしで格納されなかったりします。

BigQuery のドキュメントに従い、サイドバーのデータセット名の横にある矢印をクリックし、Create new table を選択します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/6543897.max-600x600.png

Create Table ページが表示されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/684626.max-900x900.png

Source Data セクションで Create empty table を選択します。
Table name フィールドにテーブル名を入力します（たとえば、logs）。
BigQuery ウェブサイトの Schema セクションで、インターフェースを使ってフィールドを追加し、スキーマを完成させます。そして Create Table ボタンをクリックします。

6. ロギングエンドポイントとしての BigQuery の追加

次の手順に従い、ロギングエンドポイントとして BigQuery を追加します。

Fastly の『Setting up remote log streaming』ガイドに目を通してください。
BigQuery のロゴをクリックし、BigQuery エンドポイント作成ページを開きます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/m7mkcpcZm76yrsH1-WKmGokvlsDvwykb8uxKUdcOe_0z.max-700x700.PNG

Create a BigQuery endpoint の各フィールドを次のように指定してください。

■ Name フィールドには人間が読めるエンドポイント名を入力します。
■ Log format フィールドには BigQuery に送るデータを入力します。詳細は『Log streaming : Google BigQuery』ガイドの Example format セクションをご覧ください。
■ Email フィールドには BigQuery アカウントの client_email アドレスを入力します。
■ Secret key フィールドには BigQuery アカウントの秘密鍵を入力します。
■ Project ID フィールドには GCP プロジェクトの ID を入力します。
■ Dataset フィールドには BigQuery データセットの名前を入力します。
■ Table フィールドには BigQuery テーブルの名前を入力します。
■ Template フィールドには、テーブルのテンプレートサフィックスとして使う strftime 互換文字列を入力します（オプション）。