これはどういう意味なのでしょうか。「語らせる」ときには一度に 30 くらいの話が聞こえてくるような気がします。信号もノイズも多いということです。
この言葉の意味を明らかにするとともに、その実践を試みるため、私は
Google Cloud Dataflow でデータを変換し、
Google BigQuery でデータを蓄積、検索し、
Google Cloud Datalab でデータを加工してビジュアライズしようと考えました。
というのも、野球のデータ、特にプレーごとの高精度データは、ETL と対話的分析のさまざまな課題を鮮明に示すからです。まさに、GCP ツールがあらゆる規模のデータの分析に特に優れていることを示す分野だと言えます。
Google は先ごろ、メジャー リーグ ベースボール(MLB)の 2016 年レギュラー シーズンとポスト シーズンの全試合における全打席、全投球の内容が記録された、新しい
パブリック データセットを BigQuery で公開しました。このデータは私が
Sportradar の生の試合記録を加工して作ったもので、Google は寛大にも、このテーマのために私がデータを非正規化し充実化することを許可してくれました。
このオープンなデータセットは、投球の詳細な情報(球種、コース、球速)と塁上の走者、守備についている選手などの状況的要素を提供します。つまり、このデータセットを使えば、各ゲームで起きたことを投球レベルで再現できるわけです。
Harry Doyle メソッド
私はワールド シリーズの期間中、投手が投球ごとに状況から感じるプレッシャー、カウント管理、コントロール、結果から計算される各投球のスコアの分析を行うつもりです。
この分析は映画『
メジャーリーグ』からヒントを得ました。私は楽しさを追求したいと思っていますが、ミスター ベースボール、すなわちこの映画で
Harry Doyle を演じた Bob Uecker 氏より楽しい人はいません。そういうわけで、この手法に Harry Doyle メソッドという名前を付けました。
Harry Doyle メソッドの解釈は、Vaughn スコアと Haywood スコアを基礎としています。前者が情緒抜きで投手の成績を実際的に示すのに対し、後者は投手がどれだけのプレッシャーにさらされているかを示します。スコアは投球レベルで調整され、それに基づいて打席レベルでも調整されます。
この 2 つのスコアと両者の関係を見れば、プレッシャーが成績にどのような影響を与えるかがわかります。さらに、スコアに含まれるさまざまな要素を駆使して、深い洞察を得ようというわけです。
このデータと分析テクニックを活用すれば、Vaughn スコアの要素である投手の「カウントを整える能力」といった面白いデータを抽出し、比較できます。
たとえば次のグラフは、レギュラー シーズンの最新 30 試合において、Indians(クリーブランド・インディアンス)の Corey Kluber 投手と、Cubs(シカゴ・カブス)の Jon Lester 投手の投球を比較したものです(赤 : Kluber、青 : Lester)。
このカウント管理はカウントの推移に基づくもので(単にカウントだけを見ているわけではありません)、Vaughn スコアの計算に使われます。Vaughn スコアには、打席の結果(アウトか出塁か)、失点数などの関連要素も加味されます。
たとえば、3 ボール 1 ストライクよりも 0 ボール 2 ストライクのほうが、カウント管理のスコアが高くなり、スコアが高ければ高いほど、その投手は有利なカウントで試合を進めていることを意味します。1 試合を通じてストライクが先行している投手のほうが、与四球とヒットが少なくなり、失点を防ぎやすくなる傾向があるからです。
上図は傾向を示す数値ですが、Kluber 投手の第 9 試合と第 16 試合のような外れ値を取り除くためにも役に立ちます。そして単純な適合線を引くと、全体としての差と傾向がわかります。
各打席の各投球からオッズを計算し、バッターの “hot” ゾーン(ヒットを打つ確率が高いゾーン)を割り出すこともできます。この値は投手が感じるプレッシャー、すなわち Haywood スコアの計算にも使われます。危険を感じている投手なら、そのゾーンには投げたくないところです。
次のグラフはホーム プレート上のストライク ゾーンを示しており、(0,0)がど真ん中になるようにしてあります。ドットの大きさ(過去の成績)が大きいほど、打者がそのゾーンへの投球をヒットにする確率が高くなります。
このグラフの打者は右打ちなので、真ん中ならどこでも、特にインサイドの(1,0)に投げると投手には不利です。さらに、カウントが投手にとって不利な 3 ボール 1 ストライクになっていると、このゾーンを外しながら四球も避けたいということで、投手には余分にプレッシャーがかかります。しかし、投手が自信満々なら、打者に真っ向勝負を挑んで、ど真ん中に 164 km の速球を投げ込むかもしれません。
私たちは、ワールド シリーズの各試合の進行に合わせて、トレンドや外れ値、目の前のリスクを分析し、「この投手はベストの状態か?」「トリプル プレーの確率はどれくらいか?」「Indians のブルペンに残っている投手陣はどれくらい強力か?」といった
@googlecloud のフォロワーの質問に答えながら、「試合から聞こえてくること」の一端をお知らせする予定です。また、試合中に
Medium を通じて数値を公表し、ツイート以上の情報を提供します。
さらに私は、どのようにして GCP 上に Harry Doyle メソッドを構築したかを細かく説明したホワイト ペーパーを書きました。そこにはコードの一部や詳細なステップ バイ ステップの説明が含まれており、皆さんが独自の Harry Doyle メソッドを構築するときに役立つはずです。
こちらからご覧になることができます。
2016 年シーズン以外のデータも手に入れたいなら、Sportradar の API ページの無料トライアルを検討してみてください。また、
Retrosheet や
MLB の Baseball Savant など、優れた野球データ ソースも他にあります。
これらのデータと GCP ツールがあれば、皆さんも自分の周りの野球ファンをなるほどとうならせる不思議な宝物をきっと見つけられるでしょう。いや、今シーズンの勝者を予測することさえできるかもしれません。
0 件のコメント :
コメントを投稿