パーティション（ディシジョンツリー）でオーバーフィティングを避けるために、ツリーの分割をいつ停止するかをどのように決定すればよいですか？

JMPでは、停止ルールを用いることはできません。
現在プラットフォームは単純な対話式になっています。ただし、（分岐の停止を）手助けできるいくつかの別の方法があります。

パーティションのノードで分岐に対するp値を利用する

JMP 5.1以降で、パーティションのノードでの分岐に対するp値が導入されました。
［有意度を最大化］を選択すると、候補のレポートに対数価値（LogWorth）という名前の新しい列が追加されます。
※ JMP 9以上では分岐はすべてこの方法で行われます。

この方法の詳細は、ホワイトペーパーと関連書籍の抜粋：Monte Carlo Calibration of Distributions of Partition Statistics に記載されています。

K分割交差検証を使用する

K分割交差検証を用います。
この方法は、ランダムに全ての（除外されていない）行をk個のグループに割り当て、交差検証統計量を計算します。

取り出されたサンプルを用いる

取り出されたサンプル（Hold out samples）を用います。
学習／検証テストのアプローチは、Bishop (1995, p. 372)によって説明されています。学習のデータセットは、ツリーを作るために用いられます。

このツリーのパフォーマンスは、（学習用データセットとは）独立な検証用のデータセットを用いて誤差を測定し、誤差が最小となるツリーが選択されます。このツリーはテストセットと呼ばれる第3の独立なデータセットのパフォーマンスを測定することによって確かめられます。

C. M. Bishop. Neural Networks for Pattern Recognition. Oxford University Press, 1995.

補足 1
上記の「取り出されたサンプルを用いる」をJMPで直接できる分析メニューはありません。
この操作を行うには、データテーブルで除外する行を選択し、［行］→［除外する/除外しない］をクリックしてそれらの行を除外します。除外する行を選択するには、通常、［行］→［行の選択］→［無作為に選択］を使います。この方法では、無作為に選択する行のパーセントや個数を指定できます ^※1 。
※1：JMP 15からは行を除外した場合でも検証データとして扱われなくなったため、この方法は使用できません。

補足 2
［k分割交差検証］オプション ^※2を使用する、または起動ウィンドウで検証データの割合を指定したときに、パーティションのレポート画面に［実行］ボタンが追加されます。
［実行］ボタンを押すと、交差検証のR2乗または除外した行に対するR2乗が改善されなくなるまで分岐を自動的に行います。
※2：このオプションはJMPの環境設定から指定することが可能です。

FAQ # 2098

JMP Knowledge Base

パーティションのノードで分岐に対するp値を利用する

K分割交差検証を使用する

取り出されたサンプルを用いる

Recommended Articles