取消
显示结果 
显示  仅  | 搜索替代 
您的意思是: 
The Discovery Summit 2025 Call for Content is open! Submit an abstract today to present at our premier analytics conference.
Get the free JMP Student Edition for qualified students and instructors at degree granting institutions.
选择语言 隐藏翻译栏
查看原发布的话题

(英文) N=4百万以上时两组间的比较分析

ChenShu07733
Level I

JMP技术支持老师

感谢您的帮助。我是 JMP 的忠实粉丝。我想根据癌症统计网站收集的统计数据进行统计分析。
我们进行了统计,以确定某些罕见癌症是否比其他癌症更容易引起继发性癌症,并发现了以下病例数。


重复项
是 否
某些罕见癌症 827 12204
除某些罕见癌症外 129634 4490934
( 总计 130461 4503138 )


我有两个问题。
问题 1
我们计划对两组进行分析:一组患有某种罕见癌症,另一组患有除某种罕见癌症之外的其他癌症。
如果我想使用 JMP 执行您之前指示我进行的卡方分析,看来我将需要创建超过 450 万个列。因此,我想在 JMP 中执行 Fisher 精确检验或双样本 Kolmogorov-Smirnov 检验。 JMP能用来分析超过450万个案例吗?

问题 2
我想看看这两组之间是否存在年龄偏差,但在癌症统计网站上,年龄并不以数字显示,而是分为15-19岁等块(请参阅附加的两个Excel文档)。
那么,是否可以使用JMP进行分析以确保没有年龄偏见?

就这两点。非常抱歉,如果您能提供尽可能多的信息我将不胜感激。

这篇帖子最初是用 Japanese 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 Japanese。

3 条回复3
Victor_G
Super User

回复:(日语)N=400 万或更多时两组之间的比较分析

你好@Tessho0730


欢迎加入社区!


阅读您的帖子时我想到的第一个问题是,为什么您想使用所有数据,而不是选择一个有代表性的子集?
对于任何计算机和软件来说,处理数百万行数据都是相当困难/复杂的,我不确定这么多行数据能带来什么附加值。选择一个有代表性的子集可以使分析更容易、更快,并且得到相同的结果,并且您可以使用一些剩余/未选择的行作为分析的验证。另一方面,根据您的目标,使用这么多行可能会严重“偏向”统计测试的结果:由于样本量非常大,置信区间可能非常小,因此测试几乎总是会产生具有统计意义的结果(取决于要检测的效应大小/差异和设置的 p 值/统计显著性阈值)。


我建议花更多的时间来思考你的目标、分析所需的样本量(取决于风险/alpha/I 型错误水平,以及你想要检测的差异/效应大小),使用Power Explorer 进行假设检验

至于年龄,我不认为这是一个问题:当选择人口数据样本时,确保在子集/样本和总体之间按年龄段对个体进行相同的分配/比例。


关于统计测试和样本量的一些阅读材料:

I 类和 II 类错误以及统计功效 - StatPearls - NCBI Bookshelf

统计分析:样本量和功效估计 | BJA 教育 | Oxford Academic


希望这个答案能帮到你,

这篇帖子最初是用 English (US) 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 English (US)。

回复:(日语)关于 N=400 万或更多时两组之间的比较分析

@Tessho0730

对于问题1,我认为你可以通过输入以下数据来进行分析:

选择分析 > 以 X 拟合 Y,然后指定 Y、X 和频率的列。

但是正如VIctor所提到的,由于数据量很大,即使比例差异很小,P值也会很小,因此在解释时必须小心。

undefined


这篇帖子最初是用 Japanese 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 Japanese。

回复:(日语)关于 N=400 万或以上时两组之间的比较分析

我叫小野宏明,在 SAS Institute Japan Co., Ltd. 的 JMP 日本分部担任高级测试员。
■(1) 当表格大于2 x 2 列联表(例如5 x 5 列联表)时,Fisher 精确检验的计算复杂度会激增。
2x2 列联表不会引起计算爆炸。虽然之前的一些研究可能会提到需要多大的m×n列联表(比2×2列联表大)以及什么样的机器规格,Fisher精确检验法才会无法完成计算,但是并没有给出计算量的近似公式,本质上就是“不试一下怎么知道计算能不能完成”。
(2)如果您的意思是“我想进行一项检验来比较两个组”,JMP 可以计算几项用于比较组的检验(和置信区间)。
■以下是我个人的想法。所有责任均由我承担,而不由我工作的组织承担。
这和你的问题有点偏离主题,但我个人认为,一般来说(不仅仅是在 JMP 中)组间比较的统计检验可以大致分为以下几类:
(a)基于模型的测试
t 检验、逻辑回归、Cox 比例风险回归
(b)基于设计的测试
Wilcoxon 检验、Cochran-Mantel-Heanzel 检验、排列检验、对数秩检验
请注意,检验 (a) 和 (b) 的结果可能相似,尤其是在样本量较大时。例如,使用原始数据作为分数的排列检验(=使用原始数据值作为分数的CMH检验)在样本量较大时会产生类似于t检验的结果。
我认为方法(a)的优点是可以轻松扩展到多个变量。例如,t检验可以很容易地发展成多元回归,逻辑简单回归可以很容易地发展成逻辑多元回归,等等。
■假设研究问题是“与其他癌症相比,罕见癌症是否会增加患其他癌症的可能性?”,以下DAG(有向无环图)成立:
+---------- 年龄 -----------------------+
| |
+---> 罕见癌症 -----> 多种癌症 <---+
假设年龄是这个 DAG 方向上的唯一因果因素,并且是从罕见癌症到多种癌症的混杂因素(换句话说,不存在从多种癌症到罕见癌症的反向路径,而且除了年龄之外也没有其他混杂因素,比如经济状况越好的人越有可能接受癌症筛查(虽然我不知道是否存在这样的事情),从而有更大的概率发现罕见癌症和多种癌症)。
如果是这样的话,我个人认为,查看年龄和罕见性之间的关系的数据,然后忽略年龄并仅仅因为它在统计学上不显著而查看罕见癌症和多种癌症之间的关系,这并不是一个好主意。
■离题一下,我不知道什么样的信息是有用的,但我个人对于查看整个人口的汇总数据持保留态度,因为罕见癌症和多种癌症的发病率随年龄而异。虽然这主要是一个描述性测试(而不是专注于二元决策的统计测试),但我个人认为第一步是通过按年龄(和其他属性)对人群进行分层来查看当前情况,例如通过绘制马赛克图或使用样条曲线作为逻辑回归的解释变量来找到预测百分比值并绘制它们。经过一些数据处理后,我可能能够创建一个类似于 JMP 中附加的图表(如果您有兴趣,请回复)。

这篇帖子最初是用 English (US) 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 English (US)。

推荐文章

未找到推荐