Google Cloud Platform Japan Blog
最新情報や使い方、チュートリアル、国内外の事例やイベントについてお伝えします。
Google Cloud Datastoreでのデータ整理の考え方
2015年8月6日木曜日
* この投稿は、米国時間 8 月 5 日、Google Cloud Platform Developer Programs Engineer の
Jon Wayne Parrott によって投稿されたもの
の抄訳です。
Google Cloud Datastore
のような非リレーショナル データベースにおけるデータのモデリングや保存には、固有の難しさがあります。結合や正規化など、リレーショナル データベースの有益な機能の多くは、非リレーショナル データについては、スケーラビリティに欠けるという理由で適用されません。リレーショナル データベースを「オブジェクトと関係」としてとらえるという一般的なアプローチも、非リレーショナル データベースに当てはめるのは困難です。
ここでは、非リレーショナル データをモデリングする別の方法を探ってみましょう。関連性について考える代わりに、パスとエンティティについて考えてみましょう。これらは概念的にファイル システムに似ています。このメタファーは、データモデリングの一般的な問題の興味深い解決策を提示しています。
以下では、次の 2 つの例を取り上げ、データをパスとして整理する方法を説明します。
マルチユーザー ブログ
Wiki
これらの例では、パスとファイル システムを使ってデータを表現するというアイデアが使われています。このようにデータを表現するのは、Cloud Datastore のデータ設計を理解するためです。思考実験として実際のファイルシステムを実装することや、Datastore を使って汎用ファイルシステムを実装すること(これは可能ですが)を目的としているわけではありません。スケーラブルなファイルストレージ ソリューションに興味がおありなら、
Google Cloud Storage
を参照してください。
マルチユーザー ブログ
マルチユーザー ブログのデータ モデルを考えてみましょう。このアプリケーションは数百万人のユーザーに対応でき、各ユーザーが数千件の短いの投稿を作成できるとします。
従来のリレーショナル データベースのように、このデータを「User」(ユーザー)および「Post」(投稿)オブジェクトとしてモデリングしてみます。
User
Id
Username
Name
1
tonystark
Tony Stark
2
dianaprince
Diana Prince
Post
id
user_id
content
1
1
Hello, world!
2
2
Another post
リレーショナル データベースであれば、以下の SQL 文を使えば、特定のユーザーが書き込んだ全ての投稿を検索できるでしょう。
SELECT * FROM Posts WHERE user_id = {user_id}
Cloud Datastore ではテーブルがなく、代わりに、データ
エンティティ
が特定の
カインド
を持ちます。テーブルを 2 つのカインド(PostとUser)に直接変換すると、Cloud Datastore のデータは次のようになります。
Key
Data
(Post, 1)
{"user": Key(User, tonystark), "content": "Hello, World!"}
(Post, 2)
{"user": Key(User, dianaprince), "content": "Another post"}
(User, tonystark)
{"name": "Tony Stark"}
(User, dianaprince)
{"name": "Diana Prince"}
今度は post カインド全体を username でフィルタリングすることで、特定のユーザーが書き込んだ全ての投稿を検索できます。
datastore.Query(kind='Post', filters=[('user', '=', Key('User', username))])
上のようなグローバル クエリは、Cloud Datastore では結果整合性を持ちます。
ほとんどの非リレーショナル データベースは、高いスケーラビリティと可用性を提供するように最適化されています。そのパフォーマンスの代償は、一部の種類のクエリが結果的整合性を持つようになるということです。
これは、データベースでデータが追加または更新されてから、それがクエリで返されるまでのタイムラグがある可能性があるということです。リレーショナル データベースでおなじみの強い整合性とは対照的です。リレーショナル データベースでは、更新されたデータは直ちに利用可能になります。
この例では、結果整合性とは、ユーザーが新しい投稿を作成しても、自分のホームページにすぐには表示されないかもしれないということを意味します。結果整合性を許容するアプリケーションもありますが、マルチユーザー ブログでは、ユーザーは自分の新しい投稿をすぐに見て、確認したいと考えます。
Cloud Datastore では、ユーザーは自分のデータ整理方法に応じて、
強い整合性と結果整合性のどちらかを選択できます
。
カインドをテーブルと、キー名をプライマリ キーと考えたくなるかもしれません。しかし、キーは
祖先
を持つことができ、そのためにキーパスが存在します。非リレーショナル データをテーブルやキーの観点からとらえるのではなく、ファイル システムとして考えてみましょう。
非リレーショナル データをファイル システムとして表現すると、次のようになります。
/1.post
/2.post
/tonystark.user
/
dianaprince
.user
このデータは、ユーザー別にグループ化して再整理できます。
/tonystark.user
/1.post
/dianaprince.user
/2.post
このモデルでは、最初の投稿の概念パスは、
/tonystark.user/1.post
となります。Cloud Datastore では、データは次のように整理されています。
Key
Data
(User, tonystark)
{"name": "Tony Stark"}
(User, tonystark, Post, 1)
{"content": "Hello, World!"}
(User, dianaprince)
{"name": "Diana Prince"}
(User, dianaprince, Post, 2)
{"content": "Another post"}
投稿をユーザー別に整理すると、エンティティ グループが作成されます。その中にはユーザーのプロフィールとすべての投稿が含まれます。Cloud Datastore では、1つのエンティティ グループに対するクエリは強い整合性を持ちます。このため、ユーザーは投稿を作成すると、すぐに見ることができます。祖先をキーに指定してクエリを行うことも可能です。
datastore.Query(kind='Post', ancestor=Key('User', username))
しかし、ユーザーのプロフィールと投稿を 1 つのエンティティ グループにまとめると、整合性と書き込みスループットがトレードオフになります。Cloud Datastore では、各エンティティ グループは、約 1 秒間に 1 回しか更新できませんが、すべての読み取りが強い整合性を持ちます。つまり、個々のユーザーは 1 秒間に 1 回しか投稿できないものの、すべてのユーザーの投稿のビューに強い整合性が確保されるのです。
注:
1 秒間 1 回の制限は、シングル ユーザーにのみ適用されます。複数のユーザーが同時に投稿することは可能です。それぞれが別々のエンティティ グループを更新するからです。
また、この設計から、すべてのユーザーがアップロードしたすべての投稿を返すクエリは、結果整合性を持つことになります。この種のクエリを利用して、例えば、新しい投稿のストリームを表示するといったことができます。
datastore.Query(kind='Post')
このユース ケースでは通常、結果整合性が許容されます。ユーザーは「すべての投稿」のクエリでは、自分の投稿をすぐには見られないかもしれません。しかし、「自分の投稿」のクエリでは、自分の投稿をすぐに確認できます。また、ユーザーが 1 秒間に複数の投稿をすることもないでしょう。
このアプリケーションでは、ユーザーごとに投稿を別々のエンティティ グループに整理することで、自然な境界が形成されます。多くのアプリケーションで、こうした自然な境界を利用してエンティティ グループを作成できるようになっています。書き込みスループットと読み取りの整合性のトレードオフは、Cloud Datastore でデータをどう整理するかの重要な判断材料の 1 つです。
Wiki
ファイル パスのメタファーを使って、シンプルな Wiki をモデリングすることもできます。Wiki では、ページを保存するたびに新しいリビジョンが作成されます。ユーザーは任意のリビジョンからページをリストアできます。
このデータをファイル システムとして表現すると、次のようになります。
/home.page
/ current.revision
/ 05-29-2015-10-30-27.revision
/ 05-20-2015-06-33-11.revision
/another.page
/ current.revision
/ 04-10-2015-11-23-10.revision
この構造は、各ページのすべてのリビジョンを別々のエンティティ グループに保存します。
注:
キーパスには、別のエンティティとして存在しない祖先を参照するキーが含まれることもあります。この例では、これはリビジョン エンティティが、自身が参照するページ エンティティが存在しなくても、存在できることを意味します。これは、削除されたページの以前のバージョンに戻るときに便利です。
アプリケーションはページを保存する場合、現在のページ データを新しいリビジョンにコピーし、current.revision を新しいコンテンツで上書きします。Cloud Datastore のトランザクションを使用することで、ページ保存のすべてのステップが成功するか、あるいはそのプロセス全体が失敗するかのいずれかになり、これによってデータの整合性が保証されます。
最大 25 のエンティティ グループにまたがるトランザクションを作成できます。ただし、トランザクションに関わるエンティティグループが増えるほど、トランザクションが競合によって失敗する可能性が高くなります。Wiki の例では、1 つのエンティティグループを更新する必要があるのは、ページを保存する場合に限られます。
以下の Python コードは、トランザクションを使用してページを保存し、トランザクションが何らかの理由で(例えば、1 秒間に複数回、ページを保存しようとしたなどの理由で)、失敗した場合はエラーを通知します。
def
save_page
(ds, page, content):
with
ds.transaction():
now
=
datetime.datetime.utcnow()
current_key
=
path_to_key(ds,
'{}.page/current.revision'
.format(page))
revision_key
=
path_to_key(ds,
'{}.page/{}.revision'
.format(page, now))
if
ds.get(revision_key):
raise
AssertionError
(
"Revision %s already exists"
%
revision_key)
current
=
ds.get(current_key)
if
current:
revision
=
datastore.Entity(key
=
revision_key)
revision.update(current)
ds.put(revision)
else
:
current
=
datastore.Entity(key
=
current_key)
current[
'content'
]
=
content
ds.put(current)
ブログに関しては、祖先をキーに指定してクエリを行うことで、ページに関連するすべてのリビジョンをリスト表示できます。
datastore.Query(kind='revision', ancestor=Key('page', home))
リビジョンのリストアは、ページ保存とほぼ同じです。ただし、新しく投稿されたコンテンツを使うのではなく、目的のリビジョンのコンテンツで current. revision を更新します。リビジョン プロセスのために新しいリビジョンを作成することもできます。
以下の Python コードは、リビジョンのリストア方法を示しています。
def
restore_revision
(ds, page, revision):
save_page(ds, page, revision[
'content'
])
前述のブログの例でユーザー間の自然な境界が使用されていたように、Wiki でもページ間に自然な境界があります。
この設計が、次のような特徴につながっています。
ページは 1 秒間に 1 回まで更新できる。
ページ上のクエリとそのリビジョンは強い整合性を持つ。
保存操作では、強い整合性を持つクエリが使用されるため、ページの保存やリビジョンのリストアは、トランザクションとして実行できる。
ページ数が膨大でも、ページの読み書きは高速。
コラボレーティブ オーサリング アプリケーションでは、トランザクションは、リビジョン作成時のデータ損失や、複数ユーザーが作成するリビジョン間の競合を防ぐうえで重要です。
まとめ
以上をまとめると、Cloud Datastore へのデータ保存については、多くの場合、モデリングの課題としてよりも、組織の課題として取り組むほうが簡単です。ファイルシステムの観点から考えることで、非リレーショナルデータの整理方法や操作方法について洞察が得られます。自然な境界を探し、これを用いてデータを整理して、強い整合性とトランザクション性を確保しましょう。
本ブログポストで用いたサンプルコードはこちら
Datastore のエンティティ、プロパティとキーについて
強い整合性とデータの構成について
Datastore のトランザクション
- Posted by Jon Wayne Parrott, Developer Programs Engineer, Google Cloud Platform
0 件のコメント :
コメントを投稿
12 か月間のトライアル
300 ドル相当が無料になるトライアルで、あらゆる GCP プロダクトをお試しいただけます。
Labels
.NET
.NET Core
.NET Core ランタイム
.NET Foundation
#gc_inside
#gc-inside
#GoogleCloudSummit
#GoogleNext18
#GoogleNext19
#inevitableja
Access Management
Access Transparency
Advanced Solutions Lab
AI
AI Hub
AlphaGo
Ansible
Anthos
Anvato
Apache Beam
Apache Maven
Apache Spark
API
Apigee
APIs Explore
App Engine
App Engine Flex
App Engine flexible
AppArmor
AppEngine
AppScale
AprilFool
AR
Artifactory
ASL
ASP.NET
ASP.NET Core
Attunity
AutoML Vision
AWS
Big Data
Big Data NoSQL
BigQuery
BigQuery Data Transfer Service
BigQuery GIS
Billing Alerts
Bime by Zendesk
Bitbucket
Borg
BOSH Google CPI
Bower
bq_sushi
BreezoMeter
BYOSL
Capacitor
Chromium OS
Client Libraries
Cloud API
Cloud Armor
Cloud Audit Logging
Cloud AutoML
Cloud Bigtable
Cloud Billing Catalog API
Cloud Billing reports
Cloud CDN
Cloud Client Libraries
Cloud Console
Cloud Consoleアプリ
Cloud Container Builder
Cloud Dataflow
Cloud Dataflow SDK
Cloud Datalab
Cloud Dataprep
Cloud Dataproc
Cloud Datastore
Cloud Debugger
Cloud Deployment Manager
Cloud Endpoints
Cloud Firestore
Cloud Foundry
Cloud Foundry Foundation
Cloud Functions
Cloud Healthcare API
Cloud HSM
Cloud IAM
Cloud IAP
Cloud Identity
Cloud IoT Core
Cloud Jobs API
Cloud KMS
Cloud Launcher
Cloud Load Balancing
Cloud Machine Learning
Cloud Memorystore
Cloud Memorystore for Redis
Cloud monitoring
Cloud NAT
Cloud Natural Language API
Cloud Networking
Cloud OnAir
Cloud OnBoard
cloud Pub/Sub
Cloud Resource Manager
Cloud Resource Manager API
Cloud SCC
Cloud SDK
Cloud SDK for Windows
Cloud Security Command Center
Cloud Services Platform
Cloud Source Repositories
Cloud Spanner
Cloud Speech API
Cloud Speech-to-Text
Cloud SQL
Cloud Storage
Cloud Storage FUSE
Cloud Tools for PowerShell
Cloud Tools PowerShell
Cloud TPU
Cloud Translation
Cloud Translation API
Cloud Virtual Network
Cloud Vision
Cloud VPC
CloudBerry Backup
CloudBerry Lab
CloudConnect
CloudEndure
Cloudflare
Cloudian
CloudML
Cluster Federation
Codefresh
Codelabs
Cohesity
Coldline
Colossus
Compute Engine
Compute user Accounts
Container Engine
Container Registry
Container-Optimized OS
Container-VM Image
Couchbase
Coursera
CRE
CSEK
Customer Reliability Engineering
Data Studio
Databases
Dbvisit
DDoS
Debugger
Dedicated Interconnect
deep learning
Deployment Manager
Developer Console
Developers
DevOps
Dialogflow
Disney
DLP API
Docker
Dockerfile
Drain
Dreamel
Eclipse
Eclipse Orion
Education Grants
Elasticsearch
Elastifile
Energy Sciences Network
Error Reporting
ESNet
Evernote
FASTER
Fastly
Firebase
Firebase Analytics
Firebase Authentication
Flexible Environment
Forseti Security
G Suite
Gartner
gcloud
GCP
GCP Census
GCP 移行ガイド
GCP 認定資格チャレンジ
GCPUG
GCP導入事例
gcsfuse
GEO
GitHub
GitLab
GKE
Go
Go 言語
Google App Engine
Google Apps
Google Certified Professional - Data Engineer
Google Cloud
Google Cloud Certification Program
Google Cloud Client Libraries
Google Cloud Console
Google Cloud Dataflow
Google Cloud Datalab
Google Cloud Datastore
Google Cloud Endpoints
Google Cloud Explorer
Google Cloud Identity and Access Management
Google Cloud INSIDE
Google Cloud INSIDE Digital
Google Cloud INSIDE FinTech
Google Cloud Interconnect
Google Cloud Launcher
Google Cloud Logging
Google Cloud Next '18 in Tokyo
Google Cloud Next '19 in Tokyo
Google Cloud Platform
Google Cloud Resource Manager
Google Cloud Security Scanner
Google Cloud Shell
Google Cloud SQL
Google Cloud Storage
Google Cloud Storage Nearline
Google Cloud Summit '18
Google Cloud Summit ’18
Google Cloud Tools for IntelliJ
Google Code
Google Compute Engine
Google Container Engine
Google Data Analytics
Google Data Studio
Google Date Studio
Google Deployment Manager
Google Drive
Google Earth Engine
Google Genomics
Google Kubernetes Engine
Google maps
google maps api
Google Maps APIs
Google Maps Platform
Google SafeSearch
Google Service Control
Google Sheets
Google Slides
Google Translate
Google Trust Services
Google VPC
Google マップ
Google 公認プロフェッショナル
GoogleNext18
GPU
Gradle
Grafeas
GroupBy
gRPC
HA / DR
Haskell
HEPCloud
HIPAA
Horizon
HTCondor
IaaS
IAM
IBM
IBM POWER9
icon
IERS
Improbable
INEVITABLE ja night
inevitableja
InShorts
Intel
IntelliJ
Internal Load Balancing
Internet2
IoT
Issue Tracker
Java
Jenkins
JFrog
JFrog Artifactory SaaS
Jupiter
Jupyter
Kaggle
Kayenta
Khan Academy
Knative
Komprise
kubefed
Kubeflow Pipelines
Kubernetes
KVM
Landsat
load shedding
Local SSD
Logging
Looker
Machine Learning
Magenta
Managed Instance Group
Managed Instance Group Updater
Maps API
Maps-sensei
Mapsコーナー
Maven
Maxon Cinema 4D
MightyTV
Mission Control
MongoDB
MQTT
Multiplay
MySQL
Nearline
Network Time Protocol
Networking
neural networks
Next
Node
NoSQL
NTP
NuGet パッケージ
OCP
OLDISM
Open Compute Project
OpenCAPI
OpenCAPI Consortium
OpenShift Dedicated
Orbitera
Organization
Orion
Osaka
Paas
Panda
Particle
Partner Interconnect
Percona
Pete's Dragon
Pivotal
Pivotal Cloud Foundry
PLCN
Podcast
Pokemon GO
Pokémon GO
Poseidon
Postgre
PowerPoint
PowerShell
Professional Cloud Network Engineer
Protocol Buffers
Puppet
Pythian
Python
Qwiklabs
Rails
Raspberry Pi
Red Hat
Redis
Regional Managed Instance Groups
Ruby
Rust
SAP
SAP Cloud Platform
SC16
ScaleArc
Secure LDAP
Security & Identity
Sentinel-2
Service Broker
Serving Websites
Shared VPC
SideFX Houdini
SIGOPS Hall of Fame Award
Sinatra
Site Reliability Engineering
Skaffold
SLA
Slack
SLI
SLO
Slurm
Snap
Spaceknow
SpatialOS
Spinnaker
Spring
SQL Server
SRE
SSL policies
Stack Overflow
Stackdriver
Stackdriver Agent
Stackdriver APM
Stackdriver Debugger
Stackdriver Diagnostics
Stackdriver Error Reporting
Stackdriver Logging
Stackdriver Monitoring
Stackdriver Trace
Stanford
Startups
StatefulSets
Storage & Databases
StorReduce
Streak
Sureline
Sysbench
Tableau
Talend
Tensor Flow
Tensor Processing Unit
TensorFlow
Terraform
The Carousel
TPU
Trace
Transfer Appliance
Transfer Service
Translate API
Uber
Velostrata
Veritas
Video Intelligence API
Vision API
Visual Studio
Visualization
Vitess
VM
VM Image
VPC Flow Logs
VR
VSS
Waze
Weave Cloud
Web Risk AP
Webyog
Wide and Deep
Windows Server
Windows ワークロード
Wix
Worlds Adrift
Xplenty
Yellowfin
YouTube
Zaius
Zaius P9 Server
Zipkin
ZYNC Render
アーキテクチャ図
イベント
エラーバジェット
エンティティ
オンライン教育
クラウド アーキテクト
クラウド移行
グローバル ネットワーク
ゲーム
コードラボ
コミュニティ
コンテスト
コンピューティング
サーバーレス
サービス アカウント
サポート
ジッター
ショート動画シリーズ
スタートガイド
ストレージ
セキュリティ
セミナー
ソリューション ガイド
ソリューション: メディア
データ エンジニア
データセンター
デベロッパー
パートナーシップ
ビッグデータ
ファジング
プリエンプティブル GPU
プリエンプティブル VM
フルマネージド
ヘルスケア
ホワイトペーパー
マイクロサービス
まっぷす先生
マルチクラウド
リージョン
ロード シェディング
運用管理
可用性
海底ケーブル
機械学習
金融
継続的デリバリ
月刊ニュース
資格、認定
新機能、アップデート
深層学習
深層強化学習
人気記事ランキング
内部負荷分散
認定試験
認定資格
料金
Archive
2019
8月
7月
6月
5月
4月
3月
2月
1月
2018
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2017
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2016
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2015
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2014
12月
11月
10月
9月
8月
6月
5月
4月
3月
2月
Feed
月刊ニュースレターに
登録
新着ポストをメールで受け取る
Follow @GoogleCloud_jp
0 件のコメント :
コメントを投稿