- Mark as New
- Bookmark
- Subscribe
- Mute
- Subscribe to RSS Feed
- Get Direct Link
- Report Inappropriate Content
需要多变量模型的帮助
你好,
我有两个连续变量和一个分类变量。在 JMP Pro 16 上运行它(附上运行的输出文件),作为输入,我提供 Y 作为分类变量(是/否),并将模型效果构建为两个连续变量变量,个性:名义后勤,目标水平:是
- 首先,想知道运行名义逻辑回归模型是一个不错的选择。
- 其次,如何找到依赖性,意味着两个连续变量与分类变量独立相关,还是存在相互依赖性?
- 第三,如何在不失去显着性的情况下判断两个连续变量是否共线。
This post originally written in English (US) has been computer translated for you. When you reply, it will also be translated back to English (US).
1 REPLY 1
- Mark as New
- Bookmark
- Subscribe
- Mute
- Subscribe to RSS Feed
- Get Direct Link
- Report Inappropriate Content
回复:需要多变量模型的帮助
Created:
Jan 8, 2024 04:10 AM
| Last Modified: Jan 8, 2024 8:58 AM
(1138 views)
| Posted in reply to message from Kumar_Amar 01-06-2024
你好@库马尔_阿马尔,
欢迎来到社区!
我会尽力回答您的问题:
- 没有正确或错误的选择。 然而,当尝试解释/理解或预测分类响应时,名义逻辑回归可能是一个很好的起点,并且可能有助于提供简单的模型基线以与其他建模选项进行比较。 此外,由于您只有两个可能的变量来解释/预测您的分类响应,因此从简单的模型开始是一个好主意。 模型的选择与各种参数相关联,这些参数可以帮助您定义什么是适合您的“正确”选择。 以下是一些可以帮助您完善问题和目标的问题:
- 问题和目标:是否更多地关注基于这两个因素的分类的预测(基于树的模型,如决策树/增强树或随机森林可能会有所帮助)或解释(统计模型和显着性评估)?
- 用户:您在建模方面的经验和“背景”是什么,以及您对想要实现的性能的期望(统计频率论、贝叶斯、机器学习……心态)?
- 数据:数据是“固定的”还是您将来会获取更多想要分类的数据? 数据是否代表您的系统/研究案例? 您有多少样本/观察结果? 数据是来自设计实验 (DoE) 还是在没有任何预定义计划的情况下收集的? 是/否类别之间的数据平衡程度如何?
- 性能:您如何衡量此用例的性能? 指标上的任何偏好(精确度、召回率、F1 分数等)或错误预测之间的任何差异:也许误报代表比误报更大的成本(或相反)? 查看完整的混淆矩阵可能有助于确定模型在分类中出错的位置,并且可以根据数据不平衡和错误的相对成本告知在哪里设置决策阈值。
- 和 3. 您可以通过不同的方式查看变量之间的依赖性,但最简单的选择可能是使用图形生成器绘制 X1 与 X2 的图,看看是否有任何相关性,或者使用多元平台检查每对连续变量之间的相关性。 您还可以使用以下命令检查分类响应与每个连续变量之间的个体关系:通过 X 拟合 Y平台。
最后,在涉及更多变量的情况下,您还可以检查 VIF 分数。 以下讨论中列出了几个不错的选择:
共线性检验 - JMP 用户社区
已解决:检查序数逻辑回归中的多重共线性 - JMP 用户社区
我希望这个答案能帮助你:)
This post originally written in English (US) has been computer translated for you. When you reply, it will also be translated back to English (US).