キャンセル
次の結果を表示 
表示  限定  | 次の代わりに検索 
もしかして: 
The Discovery Summit 2025 Call for Content is open! Submit an abstract today to present at our premier analytics conference.
言語を選択 翻訳バーを非表示
最初に公開されたスレッドを表示

(Japanese ) N=400万以上の場合の、2群間の比較解析につきまして

ChenShu07733
Level I

JMP テクニカルサポート ご担当先生

 お世話になります。JMPを愛用しているものです。あるがん統計のサイトで統計した内容から統計解析を行いと考えております。
ある希少がんが、それ以外のがんと比べて、重複がんになりやすいかどうかを統計し、以下の症例数となりました。


                                              重複
                                         Yes             No
ある希少がん       827            12204
ある希少がん以外       129634        4490934
( 合計                           130461       4503138 )


質問が2点ございます。
質問①
"ある希少がん"の群と、"ある希少がん以外"の2群とで解析を行う予定です。
以前ご教示いただいた、カイ二乗解析をJMPで行う場合、列を450万以上作らないといけなくなるようです。そのため、JMPでのフィッシャーの正確確率検定 もしくは、2標本のコルモゴロフ・スミルノフ検定 をJMPで行いたいと考えております。450万以上の症例でJMPで解析できますでしょうか。

質問②
2群で年齢のバイアスがないかどうかをみたいのですが、がん統計のサイトでは、年齢は数字ではなく、15-19歳、といったようにブロックでわけられています(添付のエクセル資料2点をご高覧ください)。
その場合も、年齢の偏りがないことをJMPで解析できるものなのでしょうか。

 以上2点となります。まことに恐縮ではございますが、可能な範囲で構いませんので、ご教示くださいますと幸甚です。

3件の返信3
Victor_G
Super User

Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして

こんにちはてっしょん0730さん、


コミュニティへようこそ!


あなたの投稿を読んで最初に浮かんだ疑問は、代表的なサブセットを選択するのではなく、なぜすべてのデータを使用したいのかということです。
数百万行の処理は、どのコンピュータやソフトウェアにとっても非常に困難/複雑であり、これほど多くの行がもたらす付加価値についてはよくわかりません。代表的なサブセットを選択すると、分析がより簡単かつ迅速になり、同じ結果が得られる可能性があり、残りの行/選択されていない行の一部を分析の検証として使用できる可能性があります。一方、目的によっては、これほど多くの行を使用すると、統計テストの結果に非常に「偏り」が生じる可能性があります。サンプル サイズが非常に大きいため、信頼区間が非常に小さくなる可能性があり、テストの結果はほぼ常に統計的に有意になる可能性があります (検出する効果サイズ/差異と p 値/統計的有意性しきい値の設定によって異なります)。


仮説検定のためのパワーエクスプローラーを使用して、分析の目的や必要なサンプル サイズ (リスク/アルファ/タイプ I エラー レベル、および検出する差異/効果サイズによって異なります) について、時間をかけて検討することをお勧めします。

年齢に関しては、これは問題ではないと思います。人口データのサンプルを選択するときは、サブセット/サンプルと人口の間で、年齢ブロックによる個人の再分割/割合が同じであることを確認してください。


統計的検定とサンプルサイズに関する参考資料:

タイプ I およびタイプ II のエラーと統計的検出力 - StatPearls - NCBI ブックシェルフ

統計分析: サンプルサイズと検出力の推定 | BJA Education | Oxford Academic


この回答がお役に立てば幸いです。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。


Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして

@ChenShu07733 

質問1についてですが、以下のようなデータの入力をすることで分析することができるかと思います。

分析>二変量の関係(Fit Y by X)でY、X、度数に列を指定します。

ただし、VIctorさんが述べているようにデータ数が多いため、割合の違いが小さくてもP値は小さくなりますので、解釈に注意する必要があります。

2025-02-19 181827.png

 

Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして

SAS Institute Japan株式会社のJMPジャパン事業部でシニアテスターを行っています小野裕亮と申します。
■(1) Fisher正確検定の計算量が爆発するのは、2×2分割表よりも大きい場合(たとえば、5×5分割表)です。
2×2分割表では、計算量が爆発することはありません。2×2分割表よりも大きいm×n分割表でどれぐらいの大きさの時にどれぐらいのスペックのマシンでFisher正確検定の計算が終わらなくなるのかは、何かしらの先行研究での言及があるのかもしれませんが、計算量を求める近似式はなく、実質的には「やってみないと計算が終わるかどうかが分からない」という状態になっています。
(2) 「2群間の比較を行う検定をしたい」という意味であれば、JMPでもいくつかの群間比較の検定(や信頼区間)を算出できます。
■以下は、私個人の考えです。所属組織の考えではなく、すべての責任は私だけに帰します。
話は質問から大きくそれますが、(JMPに限らず)一般的に、群間比較の統計的検定は、大別すると次のように分類できるのではないかと個人的に思っています。
(a) モデルベースの検定
 t検定、ロジスティック単回帰、Cox比例ハザード単回帰
(b) デザインベースの検定
 Wilcoxon検定、Cochran-Mantel-Heanzel検定,並べ替え検定、ログランク検定
なお、(a)と(b)の検定結果は、特に標本サイズが大きい場合、似たようなものになることがあります。たとえば、元データをスコアとした並べ替え検定(=元のデータ値をスコアとしたCMH検定)は、標本サイズが大きい場合、t検定と似た結果になります。
(a)の手法は、多変量に発展させやすいという利点があると思います。たとえば、t検定は重回帰に、ロジスティック単回帰はロジスティック重回帰などに発展しやすいです。
■研究疑問が「ある希少がんが、それ以外のがんと比べて、重複がんをなりやすくしているのか?」だとして、かつ、次のようなDAG(有向非巡回グラフ; Directed Acyclic Graph)が成立しているとします。
+---------- 年齢 -----------------------+
| |
  +---> 希少がん -----> 重複がん <---+
年齢だけが、このDAGの方向だけの因果しかなく、かつ、希少がん→重複がんの交絡因子となっているとします(つまり、重複がん→希少がんの逆向きのパスはないものとし、さらに、(そのようなことがあるかどうかは私は全く知りませんが)たとえば経済的地位が高い人のほうが、がん検診を受けていて、そのため、希少がんおよび重複がんが発見されれる確率が高くなっている、など、年齢以外の交絡因子がないものとします)。
もし、そうであるならば、年齢→希少の関係をデータでみて、それが統計的に有意でなかったからとして、年齢を無視して希少がん→ 重複がんの関係を見るのは、あまりよろしくないのではなかと個人的に思います。
■話はさらにそれてしまいますが、どのような情報が有益なのかが私はまったく分かりませんが、年齢によって希少がんや重複がんの割合が異なっているのに、集団全体で集約してデータを眺めるのに個人的に少し抵抗があります。(二値的な意思決定に主眼を置いた統計的検定ではなく、)あくまで記述的な意味合いが強くなりますが、モザイク図を描いたり、ロジスティック回帰の説明変数にスプライン曲線を用いて、割合予測値を求めてみて、それをプロットしてみるなど、まずは、現状としてどうなっているかを年齢(およびその他の属性)で層別に見るのが第一歩ではないかと個人的には思います。いくつかのデータ加工の後、添付のようなグラフであれば、JMPでも作成することがあります(ご興味がある場合は、ご返信ください)。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。