- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ダイレクトリンクを取得
- 印刷
- 不適切なコンテンツを報告
(Japanese ) N=400万以上の場合の、2群間の比較解析につきまして
JMP テクニカルサポート ご担当先生
お世話になります。JMPを愛用しているものです。あるがん統計のサイトで統計した内容から統計解析を行いと考えております。
ある希少がんが、それ以外のがんと比べて、重複がんになりやすいかどうかを統計し、以下の症例数となりました。
重複
Yes No
ある希少がん 827 12204
ある希少がん以外 129634 4490934
( 合計 130461 4503138 )
質問が2点ございます。
質問①
"ある希少がん"の群と、"ある希少がん以外"の2群とで解析を行う予定です。
以前ご教示いただいた、カイ二乗解析をJMPで行う場合、列を450万以上作らないといけなくなるようです。そのため、JMPでのフィッシャーの正確確率検定 もしくは、2標本のコルモゴロフ・スミルノフ検定 をJMPで行いたいと考えております。450万以上の症例でJMPで解析できますでしょうか。
質問②
2群で年齢のバイアスがないかどうかをみたいのですが、がん統計のサイトでは、年齢は数字ではなく、15-19歳、といったようにブロックでわけられています(添付のエクセル資料2点をご高覧ください)。
その場合も、年齢の偏りがないことをJMPで解析できるものなのでしょうか。
以上2点となります。まことに恐縮ではございますが、可能な範囲で構いませんので、ご教示くださいますと幸甚です。
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ダイレクトリンクを取得
- 印刷
- 不適切なコンテンツを報告
Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして
こんにちはてっしょん0730さん、
コミュニティへようこそ!
あなたの投稿を読んで最初に浮かんだ疑問は、代表的なサブセットを選択するのではなく、なぜすべてのデータを使用したいのかということです。
数百万行の処理は、どのコンピュータやソフトウェアにとっても非常に困難/複雑であり、これほど多くの行がもたらす付加価値についてはよくわかりません。代表的なサブセットを選択すると、分析がより簡単かつ迅速になり、同じ結果が得られる可能性があり、残りの行/選択されていない行の一部を分析の検証として使用できる可能性があります。一方、目的によっては、これほど多くの行を使用すると、統計テストの結果に非常に「偏り」が生じる可能性があります。サンプル サイズが非常に大きいため、信頼区間が非常に小さくなる可能性があり、テストの結果はほぼ常に統計的に有意になる可能性があります (検出する効果サイズ/差異と p 値/統計的有意性しきい値の設定によって異なります)。
仮説検定のためのパワーエクスプローラーを使用して、分析の目的や必要なサンプル サイズ (リスク/アルファ/タイプ I エラー レベル、および検出する差異/効果サイズによって異なります) について、時間をかけて検討することをお勧めします。
年齢に関しては、これは問題ではないと思います。人口データのサンプルを選択するときは、サブセット/サンプルと人口の間で、年齢ブロックによる個人の再分割/割合が同じであることを確認してください。
統計的検定とサンプルサイズに関する参考資料:
タイプ I およびタイプ II のエラーと統計的検出力 - StatPearls - NCBI ブックシェルフ
統計分析: サンプルサイズと検出力の推定 | BJA Education | Oxford Academic
この回答がお役に立てば幸いです。
この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ダイレクトリンクを取得
- 印刷
- 不適切なコンテンツを報告
Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして
質問1についてですが、以下のようなデータの入力をすることで分析することができるかと思います。
分析>二変量の関係(Fit Y by X)でY、X、度数に列を指定します。
ただし、VIctorさんが述べているようにデータ数が多いため、割合の違いが小さくてもP値は小さくなりますので、解釈に注意する必要があります。
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ダイレクトリンクを取得
- 印刷
- 不適切なコンテンツを報告
Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして
この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。