JMP技术支持老师
感谢您的帮助。我是 JMP 的忠实粉丝。我想根据癌症统计网站收集的统计数据进行统计分析。
我们进行了统计,以确定某些罕见癌症是否比其他癌症更容易引起继发性癌症,并发现了以下病例数。
重复项
是 否
某些罕见癌症 827 12204
除某些罕见癌症外 129634 4490934
( 总计 130461 4503138 )
我有两个问题。
问题 1
我们计划对两组进行分析:一组患有某种罕见癌症,另一组患有除某种罕见癌症之外的其他癌症。
如果我想使用 JMP 执行您之前指示我进行的卡方分析,看来我将需要创建超过 450 万个列。因此,我想在 JMP 中执行 Fisher 精确检验或双样本 Kolmogorov-Smirnov 检验。 JMP能用来分析超过450万个案例吗?
问题 2
我想看看这两组之间是否存在年龄偏差,但在癌症统计网站上,年龄并不以数字显示,而是分为15-19岁等块(请参阅附加的两个Excel文档)。
那么,是否可以使用JMP进行分析以确保没有年龄偏见?
就这两点。非常抱歉,如果您能提供尽可能多的信息我将不胜感激。
这篇帖子最初是用 Japanese 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 Japanese。
你好@Tessho0730 ,
欢迎加入社区!
阅读您的帖子时我想到的第一个问题是,为什么您想使用所有数据,而不是选择一个有代表性的子集?
对于任何计算机和软件来说,处理数百万行数据都是相当困难/复杂的,我不确定这么多行数据能带来什么附加值。选择一个有代表性的子集可以使分析更容易、更快,并且得到相同的结果,并且您可以使用一些剩余/未选择的行作为分析的验证。另一方面,根据您的目标,使用这么多行可能会严重“偏向”统计测试的结果:由于样本量非常大,置信区间可能非常小,因此测试几乎总是会产生具有统计意义的结果(取决于要检测的效应大小/差异和设置的 p 值/统计显著性阈值)。
我建议花更多的时间来思考你的目标、分析所需的样本量(取决于风险/alpha/I 型错误水平,以及你想要检测的差异/效应大小),使用Power Explorer 进行假设检验。
至于年龄,我不认为这是一个问题:当选择人口数据样本时,确保在子集/样本和总体之间按年龄段对个体进行相同的分配/比例。
关于统计测试和样本量的一些阅读材料:
I 类和 II 类错误以及统计功效 - StatPearls - NCBI Bookshelf
统计分析:样本量和功效估计 | BJA 教育 | Oxford Academic
希望这个答案能帮到你,
这篇帖子最初是用 English (US) 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 English (US)。
这篇帖子最初是用 English (US) 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 English (US)。