取消
显示结果 
显示  仅  | 搜索替代 
您的意思是: 
The Discovery Summit 2025 Call for Content is open! Submit an abstract today to present at our premier analytics conference.
选择语言 隐藏翻译栏
查看原发布的话题

在分析中包括预定义的误差

lloyd_tripp
Level II

大家好,

我想要分析的数据集有限(双变量或拟合模型)。问题是我想在先前的值中包含错误,以免高估给定有限数据集的各个数据点的重要性。

我知道如何包含预定义错误的列并将其报告在图形生成器上,但我不确定如何在分析平台中进行此操作。

这篇帖子最初是用 English (US) 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 English (US)。

1 个已接受解答

已接受的解答
P_Bartell
Level VIII

回复:在分析中包括预定义错误

感谢您的补充说明。

 

这是我的看法……当您写道:“我担心 p 值会被缩小,因为我们没有捕获测量误差……”。 您正在做某事……但请记住测量系统的任何观测值与其方差的两个分量之间的关系。 您确实在“捕获”数据中的测量误差,因为任何时候您观察某事物的测量值时,它都有两个叠加的变化来源。 产品的方差 + 测量系统的方差 = 观察到的方差。 所以我认为你正在尝试做的是想出一种方法,从产品的方差中减去测量系统的方差,并以某种方式估计每个响应的平均值。 仅通过单一测量这是不可能的,因为您无法通过简单地减去方差来估计产品的均值。

 

您已经发现了统计思维和推理的基本挑战之一,因为有时测量系统的变化会淹没产品/过程的变化,从而使关于产品/过程的统计推断更加成问题,因为测量系统的变化与测量系统的变化之间存在差异产品/过程的方差增加……通俗地说,信号(感兴趣的产品/过程)更难高于噪声(测量系统)。

 

那么你从这里去哪里? 一个明显的建议是硬着头皮从系统中获取重复测量值,并将每个响应的平均值用于建模目的……这将有助于降低测量系统的变化,以估计每个响应的平均值。 但这听起来不太可行? 下一个后备位置可能是使用您拥有的数据构建模型……然后在 JMP 中使用引导程序从实际角度检查参数估计及其分布。 最后一个想法是在 JMP 预测刻画器和模拟功能的构造中花一些时间模拟系统的行为。 有一种能力可以在因子变化指令之上向模拟结果“添加”变化,因此这可以替代将测量系统变化添加到每个响应的平均值。

 

希望这个对你有帮助?

7 条回复7
peng_liu
Staff

回复:在分析中包括预定义错误

根据你的描述,这是我的理解:你有一个小样本,你看到一些观察结果有点极端,你怀疑极端观察结果是由于某种随机性造成的,你想将这种随机性引入现有的观察。

我不确定这是否会帮助您“抑制”极端观察的影响。 但这里有一些处理极端观察的方法。

  1. 考虑降低极端观测值的等级,即对它们使用较低的权重。 如果您的所有观察值都被赋予权重 1,则将极端值赋予一的分数。
  2. 根据您的情况考虑使用不同的分布,例如 t 分布、对数正态分布。
  3. 考虑分数加权引导程序(右键单击您感兴趣的统计信息,选择引导程序菜单,然后进行相应操作),它允许您模拟重复采样并查看结果如何变化。
  4. 考虑使用模拟(右键单击您感兴趣的统计信息,选择“模拟”菜单,然后进行相应操作)。 这可能是最接近您的想法的。 您根据自己的观察模拟样本,添加任何不确定性,然后查看结果如何变化。 但是,您对引入的不确定性的假设是新的影响源。 我不确定这将如何影响您的分析和结论。

这篇帖子最初是用 English (US) 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 English (US)。

P_Bartell
Level VIII

回复:在分析中包括预定义错误

也许我没有按照你想要的方式解释你原来的帖子,但这就是我理解你的想法的方式......你有一个响应和/或自变量的值并且你想撒一些量化的这些值中的每一个都出现“错误”,然后完成您的分析? 有效地将值更改为某个后续值。 在我提供实现此目的的途径之前,我想确保我在分析之前了解您要尝试做什么。 不确定为什么要这样做? 也许你可以分享你的想法,而不是“......以免高估个别数据点的重要性......”。 本质上是在编造新数据? 除了数学之外……在您尝试做的事情的背景下,这是否合乎道德?

这篇帖子最初是用 English (US) 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 English (US)。

lloyd_tripp
Level II

回复:在分析中包括预定义错误

我想我没有很好地解释我想做什么。

 

我们有一个仪器,我们之前已经对其进行了表征,可以为我们提供 1sigma +-x 误差单位的值。 我们很难用这个仪器收集数据,所以我们的样本量有限。 虽然每组的几个点可能显示出差异,但我担心 p 值会被缩小,因为我们没有在这个有限的数据集中捕获测量误差。

 

有没有办法在数据集中加入先验测量误差? 我不应该尝试合并这个错误吗?

 

这篇帖子最初是用 English (US) 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 English (US)。

P_Bartell
Level VIII

回复:在分析中包括预定义错误

感谢您的补充说明。

 

这是我的看法……当您写道:“我担心 p 值会被缩小,因为我们没有捕获测量误差……”。 您正在做某事……但请记住测量系统的任何观测值与其方差的两个分量之间的关系。 您确实在“捕获”数据中的测量误差,因为任何时候您观察某事物的测量值时,它都有两个叠加的变化来源。 产品的方差 + 测量系统的方差 = 观察到的方差。 所以我认为你正在尝试做的是想出一种方法,从产品的方差中减去测量系统的方差,并以某种方式估计每个响应的平均值。 仅通过单一测量这是不可能的,因为您无法通过简单地减去方差来估计产品的均值。

 

您已经发现了统计思维和推理的基本挑战之一,因为有时测量系统的变化会淹没产品/过程的变化,从而使关于产品/过程的统计推断更加成问题,因为测量系统的变化与测量系统的变化之间存在差异产品/过程的方差增加……通俗地说,信号(感兴趣的产品/过程)更难高于噪声(测量系统)。

 

那么你从这里去哪里? 一个明显的建议是硬着头皮从系统中获取重复测量值,并将每个响应的平均值用于建模目的……这将有助于降低测量系统的变化,以估计每个响应的平均值。 但这听起来不太可行? 下一个后备位置可能是使用您拥有的数据构建模型……然后在 JMP 中使用引导程序从实际角度检查参数估计及其分布。 最后一个想法是在 JMP 预测刻画器和模拟功能的构造中花一些时间模拟系统的行为。 有一种能力可以在因子变化指令之上向模拟结果“添加”变化,因此这可以替代将测量系统变化添加到每个响应的平均值。

 

希望这个对你有帮助?

这篇帖子最初是用 English (US) 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 English (US)。

statman
Super User

回复:在分析中包括预定义错误

嗯,在阅读困境时,我对这个问题有了完全不同的理解(尽管我也可能是误解)。 这是我的想法:

Lloyd 的情况是,他正在收集的数据来自狭窄的推理空间因此不包含对真实可变性的合理估计(不具有代表性)。 由于研究中的变异估计(均方误差,MSE)可能会缩小,因此相应的 F 或 t 值将被夸大,并且 p 值将显得比实际情况更重要。 我要为你理解这种潜在的危险而鼓掌。 现在对于您可以通过 JMP 做什么,我没有很好的建议。 我一直认为将样本数据集的 MSE 与来自同一过程的其他样本的估计值进行比较是个好主意(尤其是如果这些样本来自更具代表性的样本)。 我总是用自己的计算来做到这一点。 我想有一种方法可以用您自己的值替换方差分析中的 MSE,但我个人不知道如何在 JMP 中执行此操作。 您能否将值添加到样本数据集,从而使 MSE 膨胀以匹配更具代表性的误差估计? 您真的需要使用 p 值吗? 我可能会建议您继续使用图形技术而忽略定量方法。

这篇帖子最初是用 English (US) 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 English (US)。

回复:在分析中包括预定义错误

数据的问题是您并不总能得到测量结果还是测量结果有限? 如果是后一个问题,那么您的数据将被审查。 您知道实际值超出了限制。 这种情况下的测量可能是下限或上限。 如果此描述听起来像您的问题,那么我们可以帮助您使用 JMP 分析删失数据。 也就是说,您可以包括所有数据,而不仅仅是范围内的值。

这篇帖子最初是用 English (US) 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 English (US)。

lloyd_tripp
Level II

回复:在分析中包括预定义错误

我们总是得到一个测量,并且我们在仪器的测量范围内。 问题是即使是收集单个数据点也非常昂贵。 我们之前没有进行 MSA 研究,因此我们一直使用 +-0.3 单位作为我们收集的任何数据点的餐巾纸背面误差。 我想知道是否有更严格的方法将此错误包含在任何分析中。

这篇帖子最初是用 English (US) 书写的,已做计算机翻译处理。当您回复时,文字也会被翻译成 English (US)。