topic Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして in Discussions

(Japanese ) N=400万以上の場合の、2群間の比較解析につきまして

ChenShu07733 — Wed, 19 Feb 2025 07:08:13 GMT

JMP テクニカルサポートご担当先生

　お世話になります。JMPを愛用しているものです。あるがん統計のサイトで統計した内容から統計解析を行いと考えております。
ある希少がんが、それ以外のがんと比べて、重複がんになりやすいかどうかを統計し、以下の症例数となりました。

重複
Yes No
ある希少がん　　　　　 827 12204
ある希少がん以外 129634 4490934
( 合計 130461 4503138 )

質問が２点ございます。
質問①
"ある希少がん"の群と、"ある希少がん以外"の２群とで解析を行う予定です。
以前ご教示いただいた、カイ二乗解析をJMPで行う場合、列を450万以上作らないといけなくなるようです。そのため、JMPでのフィッシャーの正確確率検定　もしくは、2標本のコルモゴロフ・スミルノフ検定　をJMPで行いたいと考えております。450万以上の症例でJMPで解析できますでしょうか。

質問②
２群で年齢のバイアスがないかどうかをみたいのですが、がん統計のサイトでは、年齢は数字ではなく、15-19歳、といったようにブロックでわけられています(添付のエクセル資料2点をご高覧ください)。
その場合も、年齢の偏りがないことをJMPで解析できるものなのでしょうか。

　以上２点となります。まことに恐縮ではございますが、可能な範囲で構いませんので、ご教示くださいますと幸甚です。

Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして

Victor_G — Wed, 19 Feb 2025 08:32:44 GMT

Hi @ChenShu07733,

Welcome in the Community !

The first question I have in mind when reading your post is why you would like to use all data, instead of selecting a representative subset ?
Processing millions of rows is quite hard/complex for any computer and software, and I'm not sure about the added value so many rows can bring. Selecting a representative subset can make the analysis easier, quicker, and with the same outcome, and you can possibly use some of the remaining/non-selected rows as validation for your analysis. On another hand, depending on your objectives, using so many rows can highly "bias" the outcomes of a statistical test : due to the very high sample size, the confidence intervals might be extremely small, so the tests might result in statistically significant outcomes almost always (depending on the effect size/difference to detect and the p-value/statistical significance threshold set).

I would recommend giving extra time to think about your objectives, the required sample size needed for your analysis (depending on the risk/alpha/Type I error level, and the difference/effect size you want to detect) using Power Explorers for Hypothesis Tests.

Concerning the age, I don't think this is a problem : when selecting a sample of the population data, make sure to have the same repartition/proportion of individuals by age blocks between your subset/sample and the population.

Some readings about statistical testing and sample size :

Type I and Type II Errors and Statistical Power - StatPearls - NCBI Bookshelf

Statistical analysis: sample size and power estimations | BJA Education | Oxford Academic

Hope this answer may help you,

Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして

yuichi_katsumur — Wed, 19 Feb 2025 09:23:22 GMT

@ChenShu07733

質問1についてですが、以下のようなデータの入力をすることで分析することができるかと思います。

分析＞二変量の関係(Fit Y by X）でY、X、度数に列を指定します。

ただし、VIctorさんが述べているようにデータ数が多いため、割合の違いが小さくてもP値は小さくなりますので、解釈に注意する必要があります。

Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして

yusuke_ono — Wed, 19 Feb 2025 23:57:02 GMT

SAS Institute Japan株式会社のJMPジャパン事業部でシニアテスターを行っています小野裕亮と申します。

■(1) Fisher正確検定の計算量が爆発するのは、2×2分割表よりも大きい場合（たとえば、5×5分割表）です。

2×2分割表では、計算量が爆発することはありません。2×2分割表よりも大きいm×n分割表でどれぐらいの大きさの時にどれぐらいのスペックのマシンでFisher正確検定の計算が終わらなくなるのかは、何かしらの先行研究での言及があるのかもしれませんが、計算量を求める近似式はなく、実質的には「やってみないと計算が終わるかどうかが分からない」という状態になっています。

(2) 「2群間の比較を行う検定をしたい」という意味であれば、JMPでもいくつかの群間比較の検定（や信頼区間）を算出できます。

■以下は、私個人の考えです。所属組織の考えではなく、すべての責任は私だけに帰します。

話は質問から大きくそれますが、(JMPに限らず）一般的に、群間比較の統計的検定は、大別すると次のように分類できるのではないかと個人的に思っています。

(a) モデルベースの検定

　t検定、ロジスティック単回帰、Cox比例ハザード単回帰

(b) デザインベースの検定

　Wilcoxon検定、Cochran-Mantel-Heanzel検定，並べ替え検定、ログランク検定

なお、(a)と(b)の検定結果は、特に標本サイズが大きい場合、似たようなものになることがあります。たとえば、元データをスコアとした並べ替え検定（＝元のデータ値をスコアとしたCMH検定）は、標本サイズが大きい場合、t検定と似た結果になります。

(a)の手法は、多変量に発展させやすいという利点があると思います。たとえば、t検定は重回帰に、ロジスティック単回帰はロジスティック重回帰などに発展しやすいです。

■研究疑問が「ある希少がんが、それ以外のがんと比べて、重複がんをなりやすくしているのか？」だとして、かつ、次のようなDAG（有向非巡回グラフ; Directed Acyclic Graph）が成立しているとします。

+---------- 年齢 -----------------------+

| 　　　 |

　　+---> 希少がん -----> 重複がん <---+

年齢だけが、このDAGの方向だけの因果しかなく、かつ、希少がん→重複がんの交絡因子となっているとします（つまり、重複がん→希少がんの逆向きのパスはないものとし、さらに、（そのようなことがあるかどうかは私は全く知りませんが）たとえば経済的地位が高い人のほうが、がん検診を受けていて、そのため、希少がんおよび重複がんが発見されれる確率が高くなっている、など、年齢以外の交絡因子がないものとします）。

もし、そうであるならば、年齢→希少の関係をデータでみて、それが統計的に有意でなかったからとして、年齢を無視して希少がん→ 重複がんの関係を見るのは、あまりよろしくないのではなかと個人的に思います。

■話はさらにそれてしまいますが、どのような情報が有益なのかが私はまったく分かりませんが、年齢によって希少がんや重複がんの割合が異なっているのに、集団全体で集約してデータを眺めるのに個人的に少し抵抗があります。（二値的な意思決定に主眼を置いた統計的検定ではなく、）あくまで記述的な意味合いが強くなりますが、モザイク図を描いたり、ロジスティック回帰の説明変数にスプライン曲線を用いて、割合予測値を求めてみて、それをプロットしてみるなど、まずは、現状としてどうなっているかを年齢（およびその他の属性）で層別に見るのが第一歩ではないかと個人的には思います。いくつかのデータ加工の後、添付のようなグラフであれば、JMPでも作成することがあります（ご興味がある場合は、ご返信ください）。