cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
  • Register to attend Discovery Summit 2025 Online: Early Users Edition, Sept. 24-25.
  • New JMP features coming to desktops everywhere this September. Sign up to learn more at jmp.com/launch.
Choose Language Hide Translation Bar
パーティション(ディシジョンツリー)でオーバーフィティングを避けるために、ツリーの分割をいつ停止するかをどのように決定すればよいですか?

JMPでは、停止ルールを用いることはできません。
現在プラットフォームは単純な対話式になっています。ただし、(分岐の停止を)手助けできるいくつかの別の方法があります。

 

パーティションのノードで分岐に対するp値を利用する

JMP 5.1以降で、パーティションのノードでの分岐に対するp値が導入されました。
[有意度を最大化]を選択すると、候補のレポートに対数価値(LogWorth)という名前の新しい列が追加されます。
※ JMP 9以上では分岐はすべてこの方法で行われます。

 

この方法の詳細は、 ホワイトペーパーと関連書籍の抜粋:Monte Carlo Calibration of Distributions of Partition Statistics に記載されています。

 

K分割交差検証を使用する

K分割交差検証を用います。
この方法は、ランダムに全ての(除外されていない)行をk個のグループに割り当て、交差検証統計量を計算します。

 

取り出されたサンプルを用いる

取り出されたサンプル(Hold out samples)を用います。
学習/検証テストのアプローチは、Bishop (1995, p. 372)によって説明されています。学習のデータセットは、ツリーを作るために用いられます。

 

このツリーのパフォーマンスは、(学習用データセットとは)独立な検証用のデータセットを用いて誤差を測定し、誤差が最小となるツリーが選択されます。このツリーはテストセットと呼ばれる第3の独立なデータセットのパフォーマンスを測定することによって確かめられます。

C. M. Bishop. Neural Networks for Pattern Recognition. Oxford University Press, 1995.

 

補足 1
上記の「取り出されたサンプルを用いる」をJMPで直接できる分析メニューはありません。
この操作を行うには、データテーブルで除外する行を選択し、[行]→[除外する/除外しない]をクリックしてそれらの行を除外します。 除外する行を選択するには、通常、[行]→[行の選択]→[無作為に選択]を使います。 この方法では、無作為に選択する行のパーセントや個数を指定できます ※1
※1:JMP 15からは行を除外した場合でも検証データとして扱われなくなったため、この方法は使用できません。



補足 2
JMP 8以上では、レポートの赤い三角ボタンから[k分割交差検証] ※2 を選択する、または起動ウィンドウで検証データの割合を指定したときに、パーティションのレポート画面に[実行]ボタンが追加されます。
[実行]ボタンを押すと、交差検証のR2乗または除外した行に対するR2乗が改善されなくなるまで分岐を自動的に行います。
※2:JMP 16から[k分割交差検証]オプションは削除されています。ただし、JMPの環境設定からこのオプションを指定することが可能です。

 

stat2098_01.jpg

FAQ # 2098



 

 

Details

Recommended Articles