cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
The Discovery Summit 2025 Call for Content is open! Submit an abstract today to present at our premier analytics conference.
See how to use JMP Live to centralize and share reports within groups. Webinar with Q&A April 4, 2pm ET.
Choose Language Hide Translation Bar
View Original Published Thread

変数選択とブートストラップ フォレスト

Lu
Lu
Level IV

こんにちは、

230 個の特徴を含むカテゴリカルな結果を使用してブートストラップ フォレスト分析を実行しましたが、その多くは高度に相関しています。 私のトレーニング (AUC 0.98) と検証セット (0.68) の間には、パフォーマンスに大きな違いがあります。 データは高次元であり、多くの変数が相関しているため、変数の削減が必要です。 この目的で、GenReg を Lasso または他の罰則のあるテクニックとともに使用できますか? 私のデータは実際には正規分布していません。 これが、私がツリー モデルを使用することを選んだ理由の 1 つです。

前もって感謝します、

ルー

 

 

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

1 ACCEPTED SOLUTION

Accepted Solutions

Re: 変数選択とブートストラップフォレスト

Predictor Screening プラットフォームを使用することもできます。 ブートストラップ フォレストを使用して変数の寄与を収集し、これをモデルの変数の選択に使用できます。 ブートストラップ フォレストは、ほとんどの場合、共線性を回避する必要があります。

5 REPLIES 5
P_Bartell
Level VIII

Re: 変数選択とブートストラップフォレスト

Lasso メソッドと Elastic Net メソッドは、予測変数間に多重共線性がある場合に役立ちます。 私にとって 100% 明確ではないのは、「...230 個の機能...」と言った場合、これらは応答のカテゴリレベルですか? それとも予測変数セットでしょうか?

 

これらの方法については、JMP Pro のドキュメントを参照してください。

 

https://www.jmp.com/support/help/en/15.2/#page/jmp/overview-of-the-generalized-regression-personality.shtml#ww349714

 

部分最小二乗法を試してみることもできます。

 

データセットのサイズについては言及していません。 カテゴリカルな応答では、小規模なデータセットがトレーニング、検証、およびオプションでテスト データ セットの構造に非常に敏感になる場合があります。 それぞれを反応のレベルによって階層化しましたか? これは、トレーニング、検証、テストのデータセットを作成するための一般的に認識されているベスト プラクティスです。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

Lu
Lu
Level IV

Re: 変数選択とブートストラップフォレスト

ご返答ありがとうございます。

データセットのサイズは、1 つのカテゴリ Y (わずかに不均衡な 45/55) を含む 1050 ケースです。私が言及した 230 個の特徴は変数 (X) であり、応答ではありません。 それらの中にはカテゴリ的なものもありますが、そのほとんどは数値的なものです。 モデルのトレーニングと検証には、階層化されたトレーニング/検証/テスト方法 (60/20/20) メソッドを使用しました。

Lasso や Elastic Net と比較した PLS の利点は何ですか?

 

よろしくお願いします。

 

ルー

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

P_Bartell
Level VIII

Re: 変数選択とブートストラップフォレスト

@ルー: カテゴリ応答のレベル全体で応答を層別化することについて話したとき、トレーニング、検証、テストのデータ セットのサイズに対する % 分割については言及していませんでした。 私がお勧めするのは、層別列として応答列を選択し、[方法の選択] ウィンドウで [層別検証列] を選択することです。 これにより、トレーニング、検証、およびオプションのテスト セット内のカテゴリ応答の各レベルが可能な限り同じ割合に近づくように強制されます。 場合によっては、純粋なランダム選択のグレムリンにより、応答全体のレベルに重大な不均衡が生じ、モデルの検証がより困難になる可能性があります。 その他のドキュメントは次のとおりです。

 

https://www.jmp.com/support/help/en/15.2/#page/jmp/launch-the-make-validation-column-platform.shtml

 

部分最小二乗法の利点に関しては、明確な利点があるかどうかはわかりません。 しかし、PLS が非常に得意なことの 1 つは、多重共線性予測変数の潜在変数を作成し、それをモデリング目的に使用できることです。 したがって、これは、Lasso、Elastic Net、またはその他のツリーベースの方法と比較して、予測子の数学的処理が異なるだけです。 このアプローチについては、JMP ドキュメントを参照してください。

 

https://www.jmp.com/support/help/en/15.2/#page/jmp/partial-least-squares-models.shtml

 

私の一般的な推奨事項は、線形タイプと非線形タイプの両方のさまざまなモデリング方法を試してみることです。 @Mark_Bailey 、各モデルの結果をフォーミュラ デポ プラットフォームまたはモデル比較プラットフォームにエクスポートし、どのモデルが最適に機能するかを確認します。

 

すべての問題に適合する単一の方法はありません。 たくさん試してみて、うまくいくものが見つかることを願っています。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

dale_lehman
Level VII

Re: 変数選択とブートストラップフォレスト

私にとって、1050 個のケースと 230 個の特徴があることは、過剰適合を招きます。トレーニング データと検証データのパフォーマンスの劇的な違いは、過剰適合から予想されるものと一致しています。私の経験では、JMP のモデル プラットフォームのデフォルト設定は通常、問題を回避するのにうまく機能しますが、おそらくあなたのデータは極端なケースです。過剰適合を避ける方法でツリー モデルを強制的に試してみることもできます (たとえば、最小分割サイズを大きくして、より単純なツリーを強制することができます)。最終的には、何らかの方法で機能セットを減らす必要があると思います。重要なのは、最も重要と思われる機能を見つけることです。そして、適切なセット (機能間の相関関係) があるというある程度の自信をもつことです。 230 個の機能があるため、それが困難になる可能性があります)。特徴の数を減らすために主成分分析を試すこともできます。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

Re: 変数選択とブートストラップフォレスト

Predictor Screening プラットフォームを使用することもできます。 ブートストラップ フォレストを使用して変数の寄与を収集し、これをモデルの変数の選択に使用できます。 ブートストラップ フォレストは、ほとんどの場合、共線性を回避する必要があります。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。