Subscribe Bookmark
Sig

Community Member

Joined:

Jan 28, 2017

野球シーズン到来!

 

MMP3.jpg春になり、プロ野球選手達が開幕に向けてトレーニングに取り組んでいるこの時期に、野球に関する数学の話を紹介しましょう。多くの皆さんと同様に、私の業界の多くの人は、他の人が理解し、使用できるような予測モデルを作成しています。シンプルさと正確性を両立したいのですが、大抵はこの2つは矛盾します。しばしば、この関係は単調(狭義単調増加か狭義単調減少)でなければならないのです。たとえば、野球界の例を挙げると、勝利数は多いほどよく、地区で優勝してプレーオフに進出するする可能性を高めるにはチームの勝利数を1つでも増やさなければなりません。しかし、チームの勝利数とプレーオフへの進出可能性が、線形関係にあるのか非線形関係にあるのかは分かりません。ですが、後者の場合は、それを把握するのに最も良い相関関係があります。物事を単純に把握したい私にとって、モデルを線形で維持することは魅力的です。しかし、私は正確性も求めています。非線形の方が良い側面があるなら、それを見逃したくはありません。これは難しい課題です。

 

JMPの節点スプライン機能が役立ちます。野球を例にして、あるチームが地区で優勝してプレーオフに進出する可能性を推定するとしましょう。チームの能力と地区内の他のチームの能力がこの問題に大きな役割を果たすのは、明らかです。レッドソックスとヤンキースのどちらが強いかを議論するのではなく、あるチームの能力のデータを得るために、少し変わった情報源、ラスベガスに目を向けてみましょう。

 

毎年、ラスベガスでは各チームの翌年の勝利数の予想が行われます。これは完璧なデータではないかもしれませんが、シーズン前にチームの能力を評価するにはかなり優れた方法です。幸いにも、私はこれらの予想値を過去数年間にわたり記録してきました。

 

私は2004年から毎年、各チームの予測年間勝利数を調べています。これが各チームの能力を測る尺度となりました。繰り返しますが、予想される勝利数が多いほどチームが優勝する可能性は増え、少なければ可能性は減ります。ですが、勝利数と優勝可能性の関係がどういうものなのかはわかりません。勝利数が非常に多くなると、収穫逓減が示されるのでしょうか?おそらく、戦績の悪いチームには「床効果」が表れます。しかし私たちは、90勝が89勝よりも良くて、89勝が88勝よりも良いことを知っています。単調でなければならないことは分かっています。チームの予想勝利数は、地区優勝を考えるための良い予測因子であるはずです。また、地区で突出したチーム(今年のカブスのような)がいるかどうかで、大きな違いが生まれます。シンプルに考えるために、地区における強さの判断基準として、すべての地区の対戦相手に最多勝利合計を使用しました。もちろん、もっと複雑な基準を用いることもできますが、今回の例ではこれで十分です。

 

2004年から、全チームを対象に、予想される勝利数と地区で最も厳しい対戦相手の予想される勝利数、そして地区シリーズで勝利したかどうかの記録を付けてきました。どの予測因子も単調であることは分かっていますが、その曲線がどのように見えるかは分かりません。これらの2つの予測因子は正規回帰のフィットモデルに適合させることができます。予測因子を選択し、[属性]で[節点スプライン効果]を選択します。

 

baseball_Fitmodel.png

 

ターゲットを線形でフィッティングする代わりに、JMPは理想的な節点スプラインに適合します。スプラインは平滑化された多項式関数です。私たちは、勝利数と地区でのチャンスの関係を自由に垣間見ることができます。そこから、線形、ロジスティックなどを使用するかどうかを決めることができます。節点スプライン効果プルダウンから、使用するスプラインの数を要求されます。ここでは初期設定の 5 で良いでしょう。

この曲線であらゆる種類の方法が曲線化されるとは思っていません。おそらくは偏平や収穫逓減があちこちに見られるでしょう。予測因子を節点スプラインとして逓減し、数式の結果を列に保存します。

 

baseball_SaveColumns.png

 

 

この数式は複雑で、wins_expectedがどのような相関関係にあるかは不明です。[列のプロパティをコピー]を使用して2つの新しい列に貼り付けることで、簡単に確認できます。そして、各列の数式を調べ、重要なスプライン以外のすべてを削除します。Wins_expectedでこれを行うと、次のようになります。

 

Fit_Curve_Baseball.png

 

私たちが仮定した収穫逓減はあまりありませんでした。Wins_expected が多いほど、チームのチャンスは増えます。いつまで続くかは見当がつきません。しかし、もう一方の端には、わずかに床効果があることがわかります。これを線形にモデル化することもできますが、これを見てからでは、多くの人はその選択をしないでしょう。私もその1人であり、JMP 非線形モデリングで、これをうまく適合させる単調関数を選択します。私は4pロジスティックを選びましたが、この効果をうまく説明していることがわかります。Wins_expect_division_oppoの効果を見ると、次のようになります。

 

Fit_Curve2_Baseball.png

 

繰り返しますが、これを線形にモデル化していくこともできますし、シグモイド曲線を使用したり、キュービックを使用して偏平を組み込んだりして、線形よりも多くの相関関係を捉えていると自信を持つこともできます。私はこれらの非線形適合を両方とも独自の列として保存します。これらは、予測因子データのスマートな変換であると考えています。それらを任意に二乗したり、それらのログを取ったりはしませんでした。代わりに、どのように曲線化するべきか知るためにデータを使います。これらの近似を使って、単純な線形回帰(または実際に負の値を持たないロジスティック回帰)の入力として使用して、地区シリーズで優勝する可能性を予測することができます。線形回帰でシンプルにしておくと、次のようになります。

 

3.180 + 0.979 * :wins_expect_transformed + 1.06 *:wins_expect_division_transformed

私はヒューストン・アストロズを特別に応援しています。この球団は私の雇用主ですし、今年のチームはとてもエキサイティングです。ラスベガスでは、アストロズが87.5勝で地区優勝すると予想されています。これより高い値を持つチームは同地区にはいません(地区で最も推定値が高いライバルはテキサス・レンジャーズで86.5)。この方法を使うと、アストロズが地区シリーズに進出する確率は32%です。悪くありません。どうやら興奮できる瞬間が来るのは保証されているようです。 JMPのTabulate機能を使用して、すべてのチームの期待される勝利とその地区でのチャンスが以下にリストされています。皆さんが応援するチームにはどれくらいのチャンスがあるでしょうか。

 


Tabulate_Baseball.png

 

Note: This is a translated version of a blog post that was published in the JMP Blog on March 6, 2017.