Google Cloud Platform Japan Blog
最新情報や使い方、チュートリアル、国内外の事例やイベントについてお伝えします。
Google BigQuery でヒストリカルデータ保存の料金を半分に、 クエリの速度を 10 倍に
2016年4月5日火曜日
* この投稿は米国時間 3 月 24 日、BigQuery Technical Program Manager の Tino Tereshko によって投稿されたもの(
投稿はこちら
)の抄訳です。
Google BigQuery が処理を、早く、安く、使いやすくし続け、次世代のフルマネージド zero-Ops アナリティクスデータウェアハウスを定義し続けてます。
既に BigQuery の新しい機能のリリースに関する発表を Google Cloud Platform Blog でご覧になっているかもしれませんが、ここではもう少し詳細にお話をしたいと思います。
長期保存の料金
Long Term Storage (長期保存) は、 BigQueryに長期間データを保存する場合に適用される自動割引です。データが 90 日を過ぎて BigQuery に保存する場合、料金が 1 GB あたり月 $0.02 から自動的に $0.01 に引き下げられます。
2016 年 2 月 1 日にエディットされたデータから追跡を始めているので、長期保存割引は 90 日後の 2016 年 3 月 1 日から適用になっているはずです。
長期保存前の料金体系:
長期保存後の料金体系:
長期保存の料金体系によって、古いデータを削除したり、データのアーカイブプロセスを設計したりしなくても良くなります。古いデータが BigQuery に残っていることによるメリットには、古いデータへのクエリを同じインターフェース、同じコストレベル、同等のパフォーマンス特性で処理ができるということもあります:
この割引は自動的に適用されます
パフォーマンスや耐久性、あるいはいかなる機能の劣化もありません
クエリのコストは標準のストレージと同じです
割引はテーブルごと、パーティションごとに計算されます
もし、あるテーブルのデータを変更した場合には 90 日のカウントはリセットされます
もし、テーブルが時間ごと(例えば 1 日ごと)のパーティションに分かれていた場合、 90 日以上経過したパーティションには長期保存の料金が適用されます。これは、仮に新しいパーティションを作っても同じことです。下でご説明する通り、このプロセスは自動化されることになっており、長期保存のメリットをより受けやすくなります。
Capacitor Storage Engine
私たちは、数年間の開発を経て社内で Capacitor と呼んでいる新しいストレージエンジンの運用を開始しました。Capacitor は、 BigQuery の、業界をリードするパフォーマンス特性に大きな役割を担っている、現在の最適化カラムナストレージフォーマット ColumnIO を置き換えるものです。表面上の変化やダウンタイム無く、顧客は Capacitor のメリットを自動的に享受できます。単純なアグリゲーションやポイントルックアップといった多くのクエリのパフォーマンスは、最大で 10 倍、場合によっては 1000 倍も改善します!
これまでの圧縮データの処理では先ず解凍が必要でしたが、 Capacitor では圧縮データを直接扱うことができる点が、多くの改善の中でも特筆すべき点です。このことによりデータ処理の効率が大きく高まりました。
Poseidon - クエリのパフォーマンスに影響しない、より高速のインポート/エクスポート
インポートとエクスポートのパイプラインを、クエリが基盤として活用しているのと同じ Dremel インフラストラクチャを使って再構築しました。これにより、高速で、クエリのパフォーマンスには全く影響しないフリーなインポートなど、当然期待されるメリットばかりではなく、より高いパフォーマンスやスケーラビリティとプレディクタビリティ、インジェスト時間の約 5 倍の改善ももたらします。
さらに、インポートとクエリを対称に作ったことで、 BigQuery ストレージにはないデータのクエリを、より簡単にしています。Google Cloud Storage からインポートできるものは、全て直接クエリすることが可能です。
良い例としては、 AVRO のサポートの追加があげられますが、 AVROは標準のフリーバッチプロセス経由のインポートと直接のクエリの両方が可能です。
Table Partitions v1 - アルファ
(この機能は、限られた数の顧客向けにアルファ版として数週間のうちに提供いたします)
現在は、データを日ごとに分割し TABLE_DATE_RANGE オペレーションによりデータを 1 つにまとめるのが最善のやり方ですが、 Table Partitions の最初のバージョンにより、データを 1 つのテーブルに保存しておくことができるようになります。自動パーティションのサポートで、データ処理がより安く、より早く、そしてより簡単になります。そのうえ、パーティションは一般的なユーザーが伝統的なデータベースソフトで慣れ親しんでいるテーブルマネジメントの操作性を受け継いでいます。
このバージョンのテーブルパーティションはデフォルトで、データが BigQuery にインジェストされた時に設定されます。将来提供されるバージョンの Table Partitions ではカスタムの日時をもったパーティションや、一般的なカスタム値を持ったパーティションの設定が可能になります。
Table Partitions 無し:日付で分割(カスタマ・マネージド)+ TABLE_DATE_RANGE (クエリ時)
Table Partitions 有り:日付でパーティション作成(BigQuery により自動管理) + パーティションの選択(クエリ時)
パーティションにサフィックスを付け加えることで、各パーティションを直接処理することも可能です。例えば、次のようなクエリを実行することができます:
SELECT … FROM sales$20160101
これは次のクエリと同等となります
SELECT … FROM sales WHERE _PARTITION_LOAD_TIME = TIMESTAMP(“20160101”)
仮に、カラム c1 と c3 のデータの中で 2016 年 1 月 3 日と 2016 年 1 月 4 日のデータのみを処理するクエリがあったとします。Table Partitions が無ければ、 BigQuery はこの二つのカラム全体をスキャンするため、実際に必要なのはその一部のデータだけなのにもかかわらず、ユーザーには二つのカラム分の金額が請求されます:
Table Partitions では、どのパーティションからデータを読み出すかという指示を追加することができます。この例では、 BigQuery はカラム c1 と c3 の 20160103 と 20160104 のパーティションからのみデータを読み出します。このため、パフォーマンスが向上しますし、コストも目に見えて安くなります。
AVRO フォーマットサポート
CSV や JSON に加え、人気の AVRO フォーマットも BigQuery へデータをインポートする時と Federated Data Sources からデータをクエリする時の両方で利用することができるようになりました。
Google Cloud Storage から AVRO ファイルをクエリする場合:
bq query --external_table_definition=foo::AVRO=gs://test/avrotest.avro* "SELECT * FROM foo"
Google Cloud Storage から AVRO ファイルを BigQuery にロードする場合:
bq load --source_format=AVRO project:dataset.dest_table gs:://test/avrotest.avro
自動スキーマ検出
現在の BigQuery がリリースされる前は、 CSV ファイルや JSON ファイル用にテーブルスキーマを定義する必要がありました。今では、 BigQuery はスキーマを自動的に検出しようとします。
これはロード時に CSV、 JSON、 AVRO ファイルに対して機能します:
bq load --source_format=CSV project:dataset.dest_table gs:://test/csvtest.csv
Google Cloud Storage から直接このデータをクエリする場合には次のようになります:
bq query --external_table_definition=foo::CSV=gs://test/test.csv* "SELECT * FROM foo"
新しい Table Create UX
BigQuery では、スムーズでシンプルな BigQuery UI のテーブル作成のユーザー体験を提供します。
自動スキーマ推理が数週間のうちに UI に提供される予定になっていることをご承知おきください。
目に見えない改善
私たちは、データをより早く、より簡単に、より信頼性高くクエリする、多くのトランスペアレントで目に見えない改善をリリースしています。これらの改善のうちの一つは、分析関数とセミ結合 (semi-JOINs) のダイナミックマテリアライゼーションです。
私たちの顧客は、卓越した信頼性とパフォーマンスを求めています。いつものことですが、私たちはこれらの機能を貴社にシームレスに、全くダウンタイムなしで、ユーザーの手を煩わせることなくご提供します。フルマネージドな方法ということです!
- Tino Tereshko, BigQuery Technical Program Manager
0 件のコメント :
コメントを投稿
12 か月間のトライアル
300 ドル相当が無料になるトライアルで、あらゆる GCP プロダクトをお試しいただけます。
Labels
.NET
.NET Core
.NET Core ランタイム
.NET Foundation
#gc_inside
#gc-inside
#GoogleCloudSummit
#GoogleNext18
#GoogleNext19
#inevitableja
Access Management
Access Transparency
Advanced Solutions Lab
AI
AI Hub
AlphaGo
Ansible
Anthos
Anvato
Apache Beam
Apache Maven
Apache Spark
API
Apigee
APIs Explore
App Engine
App Engine Flex
App Engine flexible
AppArmor
AppEngine
AppScale
AprilFool
AR
Artifactory
ASL
ASP.NET
ASP.NET Core
Attunity
AutoML Vision
AWS
Big Data
Big Data NoSQL
BigQuery
BigQuery Data Transfer Service
BigQuery GIS
Billing Alerts
Bime by Zendesk
Bitbucket
Borg
BOSH Google CPI
Bower
bq_sushi
BreezoMeter
BYOSL
Capacitor
Chromium OS
Client Libraries
Cloud API
Cloud Armor
Cloud Audit Logging
Cloud AutoML
Cloud Bigtable
Cloud Billing Catalog API
Cloud Billing reports
Cloud CDN
Cloud Client Libraries
Cloud Console
Cloud Consoleアプリ
Cloud Container Builder
Cloud Dataflow
Cloud Dataflow SDK
Cloud Datalab
Cloud Dataprep
Cloud Dataproc
Cloud Datastore
Cloud Debugger
Cloud Deployment Manager
Cloud Endpoints
Cloud Firestore
Cloud Foundry
Cloud Foundry Foundation
Cloud Functions
Cloud Healthcare API
Cloud HSM
Cloud IAM
Cloud IAP
Cloud Identity
Cloud IoT Core
Cloud Jobs API
Cloud KMS
Cloud Launcher
Cloud Load Balancing
Cloud Machine Learning
Cloud Memorystore
Cloud Memorystore for Redis
Cloud monitoring
Cloud NAT
Cloud Natural Language API
Cloud Networking
Cloud OnAir
Cloud OnBoard
cloud Pub/Sub
Cloud Resource Manager
Cloud Resource Manager API
Cloud SCC
Cloud SDK
Cloud SDK for Windows
Cloud Security Command Center
Cloud Services Platform
Cloud Source Repositories
Cloud Spanner
Cloud Speech API
Cloud Speech-to-Text
Cloud SQL
Cloud Storage
Cloud Storage FUSE
Cloud Tools for PowerShell
Cloud Tools PowerShell
Cloud TPU
Cloud Translation
Cloud Translation API
Cloud Virtual Network
Cloud Vision
Cloud VPC
CloudBerry Backup
CloudBerry Lab
CloudConnect
CloudEndure
Cloudflare
Cloudian
CloudML
Cluster Federation
Codefresh
Codelabs
Cohesity
Coldline
Colossus
Compute Engine
Compute user Accounts
Container Engine
Container Registry
Container-Optimized OS
Container-VM Image
Couchbase
Coursera
CRE
CSEK
Customer Reliability Engineering
Data Studio
Databases
Dbvisit
DDoS
Debugger
Dedicated Interconnect
deep learning
Deployment Manager
Developer Console
Developers
DevOps
Dialogflow
Disney
DLP API
Docker
Dockerfile
Drain
Dreamel
Eclipse
Eclipse Orion
Education Grants
Elasticsearch
Elastifile
Energy Sciences Network
Error Reporting
ESNet
Evernote
FASTER
Fastly
Firebase
Firebase Analytics
Firebase Authentication
Flexible Environment
Forseti Security
G Suite
Gartner
gcloud
GCP
GCP Census
GCP 移行ガイド
GCP 認定資格チャレンジ
GCPUG
GCP導入事例
gcsfuse
GEO
GitHub
GitLab
GKE
Go
Go 言語
Google App Engine
Google Apps
Google Certified Professional - Data Engineer
Google Cloud
Google Cloud Certification Program
Google Cloud Client Libraries
Google Cloud Console
Google Cloud Dataflow
Google Cloud Datalab
Google Cloud Datastore
Google Cloud Endpoints
Google Cloud Explorer
Google Cloud Identity and Access Management
Google Cloud INSIDE
Google Cloud INSIDE Digital
Google Cloud INSIDE FinTech
Google Cloud Interconnect
Google Cloud Launcher
Google Cloud Logging
Google Cloud Next '18 in Tokyo
Google Cloud Next '19 in Tokyo
Google Cloud Platform
Google Cloud Resource Manager
Google Cloud Security Scanner
Google Cloud Shell
Google Cloud SQL
Google Cloud Storage
Google Cloud Storage Nearline
Google Cloud Summit '18
Google Cloud Summit ’18
Google Cloud Tools for IntelliJ
Google Code
Google Compute Engine
Google Container Engine
Google Data Analytics
Google Data Studio
Google Date Studio
Google Deployment Manager
Google Drive
Google Earth Engine
Google Genomics
Google Kubernetes Engine
Google maps
google maps api
Google Maps APIs
Google Maps Platform
Google SafeSearch
Google Service Control
Google Sheets
Google Slides
Google Translate
Google Trust Services
Google VPC
Google マップ
Google 公認プロフェッショナル
GoogleNext18
GPU
Gradle
Grafeas
GroupBy
gRPC
HA / DR
Haskell
HEPCloud
HIPAA
Horizon
HTCondor
IaaS
IAM
IBM
IBM POWER9
icon
IERS
Improbable
INEVITABLE ja night
inevitableja
InShorts
Intel
IntelliJ
Internal Load Balancing
Internet2
IoT
Issue Tracker
Java
Jenkins
JFrog
JFrog Artifactory SaaS
Jupiter
Jupyter
Kaggle
Kayenta
Khan Academy
Knative
Komprise
kubefed
Kubeflow Pipelines
Kubernetes
KVM
Landsat
load shedding
Local SSD
Logging
Looker
Machine Learning
Magenta
Managed Instance Group
Managed Instance Group Updater
Maps API
Maps-sensei
Mapsコーナー
Maven
Maxon Cinema 4D
MightyTV
Mission Control
MongoDB
MQTT
Multiplay
MySQL
Nearline
Network Time Protocol
Networking
neural networks
Next
Node
NoSQL
NTP
NuGet パッケージ
OCP
OLDISM
Open Compute Project
OpenCAPI
OpenCAPI Consortium
OpenShift Dedicated
Orbitera
Organization
Orion
Osaka
Paas
Panda
Particle
Partner Interconnect
Percona
Pete's Dragon
Pivotal
Pivotal Cloud Foundry
PLCN
Podcast
Pokemon GO
Pokémon GO
Poseidon
Postgre
PowerPoint
PowerShell
Professional Cloud Network Engineer
Protocol Buffers
Puppet
Pythian
Python
Qwiklabs
Rails
Raspberry Pi
Red Hat
Redis
Regional Managed Instance Groups
Ruby
Rust
SAP
SAP Cloud Platform
SC16
ScaleArc
Secure LDAP
Security & Identity
Sentinel-2
Service Broker
Serving Websites
Shared VPC
SideFX Houdini
SIGOPS Hall of Fame Award
Sinatra
Site Reliability Engineering
Skaffold
SLA
Slack
SLI
SLO
Slurm
Snap
Spaceknow
SpatialOS
Spinnaker
Spring
SQL Server
SRE
SSL policies
Stack Overflow
Stackdriver
Stackdriver Agent
Stackdriver APM
Stackdriver Debugger
Stackdriver Diagnostics
Stackdriver Error Reporting
Stackdriver Logging
Stackdriver Monitoring
Stackdriver Trace
Stanford
Startups
StatefulSets
Storage & Databases
StorReduce
Streak
Sureline
Sysbench
Tableau
Talend
Tensor Flow
Tensor Processing Unit
TensorFlow
Terraform
The Carousel
TPU
Trace
Transfer Appliance
Transfer Service
Translate API
Uber
Velostrata
Veritas
Video Intelligence API
Vision API
Visual Studio
Visualization
Vitess
VM
VM Image
VPC Flow Logs
VR
VSS
Waze
Weave Cloud
Web Risk AP
Webyog
Wide and Deep
Windows Server
Windows ワークロード
Wix
Worlds Adrift
Xplenty
Yellowfin
YouTube
Zaius
Zaius P9 Server
Zipkin
ZYNC Render
アーキテクチャ図
イベント
エラーバジェット
エンティティ
オンライン教育
クラウド アーキテクト
クラウド移行
グローバル ネットワーク
ゲーム
コードラボ
コミュニティ
コンテスト
コンピューティング
サーバーレス
サービス アカウント
サポート
ジッター
ショート動画シリーズ
スタートガイド
ストレージ
セキュリティ
セミナー
ソリューション ガイド
ソリューション: メディア
データ エンジニア
データセンター
デベロッパー
パートナーシップ
ビッグデータ
ファジング
プリエンプティブル GPU
プリエンプティブル VM
フルマネージド
ヘルスケア
ホワイトペーパー
マイクロサービス
まっぷす先生
マルチクラウド
リージョン
ロード シェディング
運用管理
可用性
海底ケーブル
機械学習
金融
継続的デリバリ
月刊ニュース
資格、認定
新機能、アップデート
深層学習
深層強化学習
人気記事ランキング
内部負荷分散
認定試験
認定資格
料金
Archive
2019
8月
7月
6月
5月
4月
3月
2月
1月
2018
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2017
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2016
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2015
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2014
12月
11月
10月
9月
8月
6月
5月
4月
3月
2月
Feed
月刊ニュースレターに
登録
新着ポストをメールで受け取る
Follow @GoogleCloud_jp
0 件のコメント :
コメントを投稿