- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ダイレクトリンクを取得
- 印刷
- 不適切なコンテンツを報告
(Japanese ) N=400万以上の場合の、2群間の比較解析につきまして
JMP テクニカルサポート ご担当先生
お世話になります。JMPを愛用しているものです。あるがん統計のサイトで統計した内容から統計解析を行いと考えております。
ある希少がんが、それ以外のがんと比べて、重複がんになりやすいかどうかを統計し、以下の症例数となりました。
重複
Yes No
ある希少がん 827 12204
ある希少がん以外 129634 4490934
( 合計 130461 4503138 )
質問が2点ございます。
質問①
"ある希少がん"の群と、"ある希少がん以外"の2群とで解析を行う予定です。
以前ご教示いただいた、カイ二乗解析をJMPで行う場合、列を450万以上作らないといけなくなるようです。そのため、JMPでのフィッシャーの正確確率検定 もしくは、2標本のコルモゴロフ・スミルノフ検定 をJMPで行いたいと考えております。450万以上の症例でJMPで解析できますでしょうか。
質問②
2群で年齢のバイアスがないかどうかをみたいのですが、がん統計のサイトでは、年齢は数字ではなく、15-19歳、といったようにブロックでわけられています(添付のエクセル資料2点をご高覧ください)。
その場合も、年齢の偏りがないことをJMPで解析できるものなのでしょうか。
以上2点となります。まことに恐縮ではございますが、可能な範囲で構いませんので、ご教示くださいますと幸甚です。
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ダイレクトリンクを取得
- 印刷
- 不適切なコンテンツを報告
Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして
Hi @ChenShu07733,
Welcome in the Community !
The first question I have in mind when reading your post is why you would like to use all data, instead of selecting a representative subset ?
Processing millions of rows is quite hard/complex for any computer and software, and I'm not sure about the added value so many rows can bring. Selecting a representative subset can make the analysis easier, quicker, and with the same outcome, and you can possibly use some of the remaining/non-selected rows as validation for your analysis. On another hand, depending on your objectives, using so many rows can highly "bias" the outcomes of a statistical test : due to the very high sample size, the confidence intervals might be extremely small, so the tests might result in statistically significant outcomes almost always (depending on the effect size/difference to detect and the p-value/statistical significance threshold set).
I would recommend giving extra time to think about your objectives, the required sample size needed for your analysis (depending on the risk/alpha/Type I error level, and the difference/effect size you want to detect) using Power Explorers for Hypothesis Tests.
Concerning the age, I don't think this is a problem : when selecting a sample of the population data, make sure to have the same repartition/proportion of individuals by age blocks between your subset/sample and the population.
Some readings about statistical testing and sample size :
Type I and Type II Errors and Statistical Power - StatPearls - NCBI Bookshelf
Statistical analysis: sample size and power estimations | BJA Education | Oxford Academic
Hope this answer may help you,
"It is not unusual for a well-designed experiment to analyze itself" (Box, Hunter and Hunter)
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ダイレクトリンクを取得
- 印刷
- 不適切なコンテンツを報告
Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして
質問1についてですが、以下のようなデータの入力をすることで分析することができるかと思います。
分析>二変量の関係(Fit Y by X)でY、X、度数に列を指定します。
ただし、VIctorさんが述べているようにデータ数が多いため、割合の違いが小さくてもP値は小さくなりますので、解釈に注意する必要があります。
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ダイレクトリンクを取得
- 印刷
- 不適切なコンテンツを報告