キャンセル
次の結果を表示 
表示  限定  | 次の代わりに検索 
もしかして: 
The Discovery Summit 2025 Call for Content is open! Submit an abstract today to present at our premier analytics conference.
言語を選択 翻訳バーを非表示
最初に公開されたスレッドを表示

適合度の分析 - Shapiro-Wilk と Anderson-Darling の p 値

ACraig
Level I

こんにちは、

気になることがあります。分布の適合度を「適合正規分布」->「適合度検定」で調べていたのですが、結果を解釈する際に読んだところ、p 値が小さい場合は帰無仮説を棄却し、データが正規分布していないと結論付けることができるとわかりました。そのため、最初に列を見たときは、正規分布していないことは明らかでした (予想通りでした)。

undefined

undefinedそこで、Johnson Normalize を使用して正規化を試み、再度実行してみましたが、うまくいきませんでした。

undefinedそこで、正規分位法を試して、再度実行しました。一見するとうまくいったように思いましたが、その後、Shapiro-Wilk の p 値 = 0.0027 (帰無仮説を棄却する根拠となる) であるのに対し、Anderson-Darling の p 値 = 0.1672 ではそうではないことに気付きました。


質問 1: このように意見が対立した場合、どうしますか? 両者とも同じ結論を出す必要がありますか?

質問 2: このようにさまざまな正規化方法を試すのは悪いことでしょうか? もしそうなら、最適な方法を選択するのに役立つドキュメントやビデオの提案はありますか?



この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

1 件の受理された解決策

受理された解決策
awelsh
Level III

Re: 適合度の分析 - Shapiro-Wilk と Anderson-Darling の p 値

1: 異なる計算を使用しているため、これらが矛盾しています。アンダーソン・ダーリングは、裾の偏差に対してより敏感です。あなたの画像では、通常のプロット全体がかなり「波打っている」ように見えます。したがって、シャピロ・ウィルクは、裾の外側にある非正規の信号を拾っている可能性があります。


2: 悪いですか? 分かりません。状況に応じてどのデータ変換が最も効果的かを探ることは、受け入れられている戦略です。悪いと言えるかどうかはわかりません。ただし、非正規性を解決する場合、私はボックス コックス変換を他のどの変換よりも気に入っています。


ただし、全体的な設定は、より学術的な会話であると思います。これが何であっても、なぜ正規性検定が重要なのか。これに費やされる時間は、おそらく余分な処理にすぎず、ビジネス上の決定のコンテキストには必要ではないと思います。データは財務数値のように見えます。しかも非常に大きな数値です。したがって、非正規であることはそれほど驚くべきことではありません。


コンテキストが多ければ、より多くの返信が得られる可能性があります。

5件の返信5
awelsh
Level III

Re: 適合度の分析 - Shapiro-Wilk と Anderson-Darling の p 値

1: 異なる計算を使用しているため、これらが矛盾しています。アンダーソン・ダーリングは、裾の偏差に対してより敏感です。あなたの画像では、通常のプロット全体がかなり「波打っている」ように見えます。したがって、シャピロ・ウィルクは、裾の外側にある非正規の信号を拾っている可能性があります。


2: 悪いですか? 分かりません。状況に応じてどのデータ変換が最も効果的かを探ることは、受け入れられている戦略です。悪いと言えるかどうかはわかりません。ただし、非正規性を解決する場合、私はボックス コックス変換を他のどの変換よりも気に入っています。


ただし、全体的な設定は、より学術的な会話であると思います。これが何であっても、なぜ正規性検定が重要なのか。これに費やされる時間は、おそらく余分な処理にすぎず、ビジネス上の決定のコンテキストには必要ではないと思います。データは財務数値のように見えます。しかも非常に大きな数値です。したがって、非正規であることはそれほど驚くべきことではありません。


コンテキストが多ければ、より多くの返信が得られる可能性があります。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

MRB3855
Super User

Re: 適合度の分析 - Shapiro-Wilk および Anderson-Darling p 値

こんにちは@ACraig : 正規分位「変換」についての注意。親分布が何であっても、正規分位「変換」は定義により常に正規分布になります。これはランクの関数であり、生データの関数ではありません。したがって、これは正規性への適切な変換ではありません。


フォローが言ったように、ここではコンテキストが重要です。なぜ正規性をテストするのですか?

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

ACraig
Level I

Re: 適合度の分析 - Shapiro-Wilk と Anderson-Darling の p 値

こんにちは。フィードバックを本当に感謝しています。ご質問の件ですが、ANOVA テストをいくつか実行したいと考えていました。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

awelsh
Level III

Re: 適合度の分析 - Shapiro-Wilk および Anderson-Darling p 値

上記の例では、データセット全体を結合していますか? 結合されたデータセットの非正規性の原因は、サブグループの平均間の差異である可能性があります。その場合は、結合されていないサブグループを個別に確認して、正規性を確認してください。


あるいは、X バー チャートや R チャートなどの代替手段を使用することもできます。または、ウェルチの ANOVA を使用することもできます。これが財務データである場合は、平均値ではなく、マン ホイットニーを使用して中央値をテストすることをお勧めします。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

MRB3855
Super User

Re: 適合度の分析 - Shapiro-Wilk と Anderson-Darling の p 値

こんにちは@ACraig : ちなみに、 フォローの非常に良いコメントに加えて、一定の分散 (各グループの SD が類似している) は正規性よりも重要です。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。