相關分析,是常見的統計分析方法,目的是在研究兩個或多個變量之間是否存在某種相關性,該如何判斷變量之間的相關性為正還是負?如何使用JMP中進行相關分析?今天的文章我們就來一起探索相關分析,包含Pearson相關、Spearman相關以及偏相關。
要認識相關分析,首先需要知道2個名詞 – 相關係數(r)、相關性
相關係數r是指Pearson相關係數,其數值範圍為-1~1之間,r=0代表無線性相關,實際上除了線性相關,還存在大量的非線性相關,如對數相關、拋物線相關等。一般|r|>0.7認爲相關性高;0.5-0.7爲中等相關;0.3-0.5爲弱相關,不過相關性高低並沒有強制的分法,不同領域各有側重,例如社會學現象能達到0.7的非常少,而醫學實驗室指標達到0.9以上的比比皆是。
所以在進行相關分析前,最好先繪製散佈圖 (scatter plot),初步探索數據的相關性,只有數據呈現線性相關時,才考慮用Pearson相關係數。如果散佈圖顯示兩個變量之間可能是非線性關係,可以考慮對其中某一變量進行變量變換,然後再計算相關係數。
此外,需要注意的是:相關不代表因果關係,例如游泳死亡人數與冰糕銷售量呈現正相關,我們不能推斷吃冰糕會增加游泳死亡風險。
變量A和B具有相關性,除了A和B具有因果關係外,另一個原因可能是有另一變量C同時對A和B産生影響,導致A和B呈現出表面上的虛假相關。比如冰糕銷售量與游泳死亡風險的例子中,天氣炎熱就是變量C,同時導致了游泳死亡人數和冰糕銷售量的上升。
根據 (圖1) 資料,探索BMI與軀體健康評分的相關性,以及校正年齡後BMI與軀體健康評分之間的偏相關係數。
圖1 示例數據
Pearson相關和Spearman相關均可通過JMP菜單「分析」→「多元方法」→「多元」來實現,如圖2。
圖2 相關分析操作——菜單選擇
在「多元與相關性」界面中,將BMI與軀體健康評分放到「Y,列」(圖3)。
圖3 相關分析操作——變量選擇
默認結果輸出Pearson相關係數矩陣(圖4)和散佈圖矩陣(圖5),可以看出兩個變量的Pearson相關係數爲0.1479。
圖4 相關分析操作——相關係數矩陣
圖5 相關分析操作——散點圖矩陣
>> 使用 JMP進行統計、預測建模以及資料探勘 <<
由於BMI與軀體健康評分均不符合常態分布,因此需要輸出Spearman相關係數,可點擊「非參數相關性→Spearman ρ」(圖6)。
圖6非參數相關性操作 –選單操作
結果如圖7所示,Spearman 相關係數爲0.1739。
圖7非參數相關性操作——結果輸出
想顯示其它結果均可通過點擊「多元」左側的紅色三角形按鈕來輸出(圖6),如想輸出相應的P值,可點擊相關性概率;想輸出相關係數的置信區間,可點擊相關性置信區間。
在瞭解了BMI與軀體健康評分的相關性後,我們還想探索在校正年齡後BMI與軀體健康評分之間的偏相關係數。
偏相關也是通過JMP 菜單「分析」→「多元方法」→「多元」來實現。同時將年齡、BMI與軀體健康評分三個變量拖入圖2中的「Y,列」。
在結果界面中,點擊「多元」左側的紅色三角形按鈕,在下拉菜單中點擊「偏相關性」和「偏相關性概率」(圖8),即可輸出偏相關係數及其P值。
圖8 偏相關操作——菜單選擇
輸出結果見圖9,校正年齡的影響後,BMI和軀體健康評分之間的相關性略有提高,從0.1479提升到0.1940,說明年齡對這兩個變量之間的關係具有一定影響,但影響有限。
圖9 偏相關操作——結果輸出
以上就是針對相關分析的介紹,歡迎免費試用JMP開始你的第一個分析。
>> 輕鬆學統計知識 <<
推薦閱讀:
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.