cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
The Discovery Summit 2025 Call for Content is open! Submit an abstract today to present at our premier analytics conference.
Choose Language Hide Translation Bar
View Original Published Thread

(English) Comparative analysis between two groups when N=4 million or more

ChenShu07733
Level I

JMP Technical Support Teacher

Thank you for your help. I am a JMP user. I am thinking of performing a statistical analysis on the data collected on a cancer statistics website.
We conducted statistics to determine whether certain rare cancers are more likely to cause secondary cancers than other cancers, and found the following number of cases.


Duplicates
Yes No
Certain rare cancers 827 12204
Other than certain rare cancers 129634 4490934
( Total 130461 4503138 )


I have two questions.
Question 1
We plan to conduct analysis on two groups: one with a certain rare cancer and one with other than a certain rare cancer.
When I use JMP to perform the chi-square analysis that you previously instructed me to perform, it seems that I need to create more than 4.5 million columns. Therefore, I would like to perform Fisher's exact test or two-sample Kolmogorov-Smirnov test in JMP. Can I perform an analysis with more than 4.5 million cases in JMP?

Question 2
I would like to see if there is any age bias in the two groups, but on the cancer statistics website, age is not shown as a number, but is divided into blocks such as 15-19 years old (please see the two attached Excel documents).
In that case, is it possible to analyze using JMP to ensure that there is no age bias?

Those are the two points. I am very sorry, but I would appreciate it if you could give me some information to the extent possible.

This post originally written in Japanese and has been translated for your convenience. When you reply, it will also be translated back to Japanese.

3 REPLIES 3
Victor_G
Super User


Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして

Hi @ChenShu07733,

 

Welcome in the Community !

 

The first question I have in mind when reading your post is why you would like to use all data, instead of selecting a representative subset ?
Processing millions of rows is quite hard/complex for any computer and software, and I'm not sure about the added value so many rows can bring. Selecting a representative subset can make the analysis easier, quicker, and with the same outcome, and you can possibly use some of the remaining/non-selected rows as validation for your analysis. On another hand, depending on your objectives, using so many rows can highly "bias" the outcomes of a statistical test : due to the very high sample size, the confidence intervals might be extremely small, so the tests might result in statistically significant outcomes almost always (depending on the effect size/difference to detect and the p-value/statistical significance threshold set).

 

I would recommend giving extra time to think about your objectives, the required sample size needed for your analysis (depending on the risk/alpha/Type I error level, and the difference/effect size you want to detect) using Power Explorers for Hypothesis Tests.

Concerning the age, I don't think this is a problem : when selecting a sample of the population data, make sure to have the same repartition/proportion of individuals by age blocks between your subset/sample and the population.  

 

Some readings about statistical testing and sample size :

Type I and Type II Errors and Statistical Power - StatPearls - NCBI Bookshelf

Statistical analysis: sample size and power estimations | BJA Education | Oxford Academic

 

Hope this answer may help you,

Victor GUILLER

"It is not unusual for a well-designed experiment to analyze itself" (Box, Hunter and Hunter)

Re: (Japanese) Comparative analysis between two groups when N=4 million or more

@Tessho0730

Regarding question 1, I think you can analyze it by entering the following data:

Select Analyze > Fit Y by X and specify columns for Y, X, and frequency.

However, as VIctor mentioned, because the amount of data is large, even if the difference in proportion is small, the P value will be small, so care must be taken in interpreting it.

undefined


This post originally written in Japanese and has been translated for your convenience. When you reply, it will also be translated back to Japanese.


Re: (Japanese ) N=400万以上の場合の、2群間の比較解析につきまして

SAS Institute Japan株式会社のJMPジャパン事業部でシニアテスターを行っています小野裕亮と申します。
 
■(1) Fisher正確検定の計算量が爆発するのは、2×2分割表よりも大きい場合(たとえば、5×5分割表)です。
2×2分割表では、計算量が爆発することはありません。2×2分割表よりも大きいm×n分割表でどれぐらいの大きさの時にどれぐらいのスペックのマシンでFisher正確検定の計算が終わらなくなるのかは、何かしらの先行研究での言及があるのかもしれませんが、計算量を求める近似式はなく、実質的には「やってみないと計算が終わるかどうかが分からない」という状態になっています。
 
(2) 「2群間の比較を行う検定をしたい」という意味であれば、JMPでもいくつかの群間比較の検定(や信頼区間)を算出できます。
 
■以下は、私個人の考えです。所属組織の考えではなく、すべての責任は私だけに帰します。
話は質問から大きくそれますが、(JMPに限らず)一般的に、群間比較の統計的検定は、大別すると次のように分類できるのではないかと個人的に思っています。
 
(a) モデルベースの検定
 t検定、ロジスティック単回帰、Cox比例ハザード単回帰
(b) デザインベースの検定
 Wilcoxon検定、Cochran-Mantel-Heanzel検定,並べ替え検定、ログランク検定
 
なお、(a)と(b)の検定結果は、特に標本サイズが大きい場合、似たようなものになることがあります。たとえば、元データをスコアとした並べ替え検定(=元のデータ値をスコアとしたCMH検定)は、標本サイズが大きい場合、t検定と似た結果になります。
 
(a)の手法は、多変量に発展させやすいという利点があると思います。たとえば、t検定は重回帰に、ロジスティック単回帰はロジスティック重回帰などに発展しやすいです。
 
■研究疑問が「ある希少がんが、それ以外のがんと比べて、重複がんをなりやすくしているのか?」だとして、かつ、次のようなDAG(有向非巡回グラフ; Directed Acyclic Graph)が成立しているとします。
 
        +----------  年齢  -----------------------+
        |                                             |
  +---> 希少がん -----> 重複がん <---+ 
      
年齢だけが、このDAGの方向だけの因果しかなく、かつ、希少がん→重複がんの交絡因子となっているとします(つまり、重複がん→希少がんの逆向きのパスはないものとし、さらに、(そのようなことがあるかどうかは私は全く知りませんが)たとえば経済的地位が高い人のほうが、がん検診を受けていて、そのため、希少がんおよび重複がんが発見されれる確率が高くなっている、など、年齢以外の交絡因子がないものとします)。
 
もし、そうであるならば、年齢→希少の関係をデータでみて、それが統計的に有意でなかったからとして、年齢を無視して希少がん→ 重複がんの関係を見るのは、あまりよろしくないのではなかと個人的に思います。
 
■話はさらにそれてしまいますが、どのような情報が有益なのかが私はまったく分かりませんが、年齢によって希少がんや重複がんの割合が異なっているのに、集団全体で集約してデータを眺めるのに個人的に少し抵抗があります。(二値的な意思決定に主眼を置いた統計的検定ではなく、)あくまで記述的な意味合いが強くなりますが、モザイク図を描いたり、ロジスティック回帰の説明変数にスプライン曲線を用いて、割合予測値を求めてみて、それをプロットしてみるなど、まずは、現状としてどうなっているかを年齢(およびその他の属性)で層別に見るのが第一歩ではないかと個人的には思います。いくつかのデータ加工の後、添付のようなグラフであれば、JMPでも作成することがあります(ご興味がある場合は、ご返信ください)。