Google Cloud

ラーメン二郎とブランド品で AutoML Vision の認識性能を試す

2018年3月27日

Google Cloud Japan Team

この投稿は米国時間 3 月 26 日に投稿されたもの（投稿はこちら）の抄訳です。

Posted by Google Cloud デベロッパーアドボケイト佐藤一憲

この 3 つのラーメンは、41 店舗あるラーメン二郎のうち 3 店舗で作られたものです。それぞれ、どの店舗で出されたものか分かりますか？　データサイエンティストの土井賢治さんが作成した機械学習（ML）によるラーメン識別器を使えば、それぞれの微妙な盛り付けの違いを見分けることで、95% の精度で店舗を特定できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/dqBXGjd9rLkuyn-Uhh5dU6c3ns2hbrO4Q_l-YLf14q.max-1300x1300.PNG

ラーメン二郎の 3 つの店舗で作られたラーメン

この写真を見ても分かるとおり、ラーメン二郎の相当コアなファンでもなければ、ラーメン画像から 41 店舗のどこで作られたかを見分けることは簡単ではありません。テーブルやどんぶりの色、形にあまり違いのない場合が多いのです。

土井さんは、ディープラーニングを使ってこの問題を解けるか興味を持ち、インターネット上から 48,244 枚のラーメン二郎画像を集めました。ML モデルの学習に合わない画像（重複したもの、どんぶりが写ってないもの等）を取り除いたあと、1,170 枚 × 41 店舗 = 約 48,000 枚の画像とそれぞれの店舗ラベルを用意しました。

AutoML Vision で 94.5% の精度を達成

そして土井さんは、今年 1 月、Google が AutoML Vision のアルファ版を公開したことを知りました。

AutoML Vision は、ML の知識のない方でも、任意の画像を用いて ML モデルの学習を簡単に行えるサービスです。学習用の画像ファイルとラベルをアップロードするだけで、学習を開始できます。学習が終わったら、その ML モデルをスケーラブルなプラットフォーム上で簡単に運用できます。このすべての手順を、データサイエンティストや ML 専門家の知識なしで進められます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/083xx5AHkC9gkgjNL7p1D9o1RgM5nOBPWZFNT20k_s.max-1600x1600.PNG

AutoML Vision によるカスタム ML モデルの学習、デプロイ、運用

土井さんは AutoML Vision のアルファ版に申し込み、さっそくラーメン二郎画像でその性能を試してみました。上述の 48,000 枚の画像で学習したところ、94.5% の精度（94.8% precision、94.5% recall）がすぐさま得られました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3VEIQhHN_dM55W5_kC1bjyKQg4qSVun7IJC74TIELM.max-1600x1600.PNG

AutoML Vision（Advanced モード）によるラーメン二郎店舗識別の混同行列
（各行は実際の店舗、各列は予測された店舗）

上記の混同行列を見ると、AutoML Vision がそれぞれのテストケースでごくわずかな間違いししか起こしていないことがわかります。

なぜディープラーニングはここまで高い精度で店舗を見分けられるのでしょうか？　個々の写真にどのような違いがあるのでしょう？　土井さんは当初、テーブルやどんぶりの色や形の違いを ML モデルが見ているのでは、と考えました。しかし冒頭の写真例のように、テーブルとどんぶりがまったく同じ場合でも高精度で識別できます。おそらくは、店舗ごとの盛り付け方や肉の切り方の微妙な違いを見分けているのでは、と彼は考えています。

データサイエンティストの技を自動化

AutoML Vision を試すまで、土井さんは自分で設計した ML モデルを用いてラーメン識別器を開発していました。様々な試行錯誤の結果、Inception、ResNet、そして SE-ResNeXt を組み合わせたアンサンブルモデルを作成し、精度を上げるためのデータオーギュメンテーションの仕組みを作り、そして時間と手間のかかるハイパーパラメータチューニングを実施するなど、データサイエンティストとしてのノウハウを投入して開発してきました。

一方、AutoML Vision の場合は、画像とラベルをアップロードして、Train ボタンをクリックするだけです。学習にともなう面倒な試行錯誤や開発工程は不要でした。

https://storage.googleapis.com/gweb-cloudblog-publish/images/gwKjLgtg84FuR2Pp5WFl-6jFHd7eli34EEDOLFyEP5jA.max-400x400.PNG

AutoML Vision では画像とラベルをアップロードするだけで学習できる

AutoML Vision では、Base と Advanced の 2 種類の学習モードを選択できます。Base モードでは、土井さんの画像データの場合、18 分で学習が終わります。Advanced モードでは、およそ 24 時間を要します。いずれの場合も、さまざまな ML モデルを試したり、データオーギュメンテーションやハイパーパラメータチューニングに時間を費やしたりする必要はありません。データサイエンティストの「技」が自動化されています。

この AutoML Vision が現場に与えるインパクトについて、土井さんは次のように説明します。「Base モードでは、そこそこの精度をとても短時間で得られます。一方、Advanced モードでは、最先端レベルの精度をデータサイエンティストの知識なしに達成できます。このサービスを使えば、データサイエンティストの仕事の生産性はぐんと上がるはずです。いま企業のデータサイエンティストのもとにはたくさんの AI 案件が舞い込んでおり、それぞれの PoC でのディープラーニング適用を迅速にこなしていく必要があります。AutoML Vision があれば、学習や最適化に長い時間をとられることはありません。つまり、わずかな人数のデータサイエンティストでも、より多くの案件をこなせるようになります」

また土井さんは、AutoML Vision が備える認識機能も高く評価しています。「学習したすぐ後に、その ML モデルを使ってスケーラブルなオンライン認識サービスを利用できる点も、とても便利です。通常、こうした実運用向けのサービスインフラの構築と運用は、データサイエンティストにとってもうひとつの頭痛のタネなのです」

メルカリのブランド品を 91% の精度で分類

そして AutoML Vision は、まったく別の用途でもその威力を発揮しています。メルカリでのブランド品識別です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Dq5mt4G2Z_pKlQcBt-isTxxNEMaNUqXsctE_lcR186.max-1100x1100.PNG

メルカリ

メルカリでは、ブランド品向けの新しいアプリ、メルカリメゾンズを提供開始しました。このアプリでの導入に向けて、12 種類の主要なブランド品を画像から識別できる ML モデルの開発を進めてきました。このモデルでは、 TensorFlow 上で VGG16 による転移学習を用いることで 75% の精度を得ていました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/pnWKYMbuZxwqYVOXaogR_5t356IOI7XNSo5es3w5kBlf.max-900x900.PNG

アップロードした製品のブランド名を ML モデルでサジェスト

一方、メルカリのデータサイエンティストが 50,000 枚の画像を用いて AutoML Vision の Advanced モードを試したところ、91.3% の精度（precisionスコア）を達成。既存モデルより 15 ポイント高い成果が得られました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/4pAXaiG3UAz9BmhxrilKeMYNcPg3LHMw8tZhbHk7X-.max-1200x1200.PNG

メルカリが作成した AutoML Vision モデル（Advanced モード）の精度

https://storage.googleapis.com/gweb-cloudblog-publish/images/PqbnZcbTzgArS7VwF3hiogxTAkDRak9u4usEZuct_p.max-1600x1600.PNG

メルカリが作成した AutoML Vision モデル（Advanced モード）の混同行列

AutoML Vision の高精度の理由

メルカリのデータサイエンティスト藤原秀平さんは、この結果を見て「Google はどんな仕組みを使ってこんな精度を出しているのか！」と驚いたそうです。

AutoML Vision の Advanced モードの裏側では何が行われているのでしょうか。Advanced モードでは、一般的な転移学習だけでなく、NASNet と呼ばれる Google 最新の learning2learn 技術が投入されています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/9WUAHS3Prh2vGZmD4Gt_C4Hl62IIrJ6B00CGOgOVgQx_.max-700x700.PNG

AutoML for large scale image classification and object detection より引用

NASNet では、ML で ML の最適化を行います。つまり、個々の学習画像について最適なディープラーニングモデルの設計を行う、メタレベルの ML モデルを使用します。これが Advanced モードの高精度のカギであり、Google が掲げる「AI の民主化」を象徴する技術と言えます。最先端のディープラーニング技術の習得に何年もの時間をかけずとも、その恩恵を多くのユーザーが得られます。

また藤原さんは、AutoML Vision の UI の使いやすさも評価しています。「とても使いやすい UI が気に入っています。ハイパーパラメータチューニングも不要で、学習後の精度も混同行列ですぐに確認できるのが便利です。また、Google 側での手作業によるラベル付け作業もこの UI から依頼できるので、画像認識の開発でいちばん時間のかかるラベル付けを自前でやらずに済むのも助かります。AutoML Vision の公開ベータ版のローンチが待ち遠しいです」

メルカリの急成長を支えた要因のひとつに、そのスマホアプリのユーザエクスペリエンス品質の高さがあります。ブランド名検出の精度が高まれば、その価値はさらに引き上げられると期待されます。