什麼是多元線性迴歸?
多元線性迴歸是用來探討多個自變數和依變數之間的關係,並且用來模擬反映變數及兩個以上的依變數之間的關係。
使用JMP進行多元線性迴歸
以圖1的數據為例,探索軀體健康評分的可能影響因子。

圖1
在JMP中依次點擊「分析」菜單→「擬合模型」(圖2),在彈出的對話框中將軀體健康評分導入「Y」,將預計要進行多因子分析的變數導入「構造模型效應」中(圖3)。

圖2

圖3「擬合模型」的操作示意圖第二步
圖3中我們可以看到,對話框的右側上方有兩個選項框,分別為「特質」和「重點」。
- 當依變數為連續變數(此時變數名左側顯示為藍色三角形狀)時,「特質」自動設置為「標準最小二乘法」,即採用線性迴歸方法。
- 「重點」默認為效應杠杆率,可以選擇其它,對結果並不影響,只是結果中的展示內容不同,有的展示多一些,有的展示少一些,而且都可以在結果中自行調整擬展示的內容,因此「重點」這一選項默認即可。

02輸入結果解讀
線性迴歸默認輸出結果包括幾個不同部分的結果,接下來僅對重要結果部分進行介紹。
Part 1 槓桿圖
第一部分為槓桿圖,槓桿圖也稱為偏迴歸殘差槓桿圖,或增加變數圖,它反映的是扣除了其他因子影響後某個自變數與依變數的關係。
本例中多因子分析納入了6個自變數,因此結果中分別呈現了6個自變數在校正了其他5個自變數後與結局的偏殘差圖。由於篇幅有限,本文僅呈現前3個自變數的槓桿圖(圖4)。

圖4 槓桿圖結果(部分展示)
連續變數和分類變數的槓桿圖並不相同。
- 連續變數容易理解,如年齡的槓桿圖顯示,在校正其它因子後,與軀體健康評分呈負相關;
- 分類變數的結果可通過「最小二乘均值」來觀察兩類或多類的差異情況。如飲酒的表中顯示,在校正其它因子後,飲酒和不飲酒的軀體健康評分的最小二乘均值分別為48.1和45.4,這一均值不等同於常規均值。
Part 2 「預測值-實際值」圖
第二部分為「預測值-實際值」圖(圖5),該圖反映的是模型預測值與實際觀測值的吻合程度,橫坐標是預測值,縱坐標是實際值,二者越接近45度線,越說明模型擬合效果好。
本例中R2=0.42,在醫學領域中可以認為是擬合不錯的迴歸模型了。

圖5「預測值-實際值」圖
Part 3 效應匯總結果
第三部分為效應匯總結果(圖6),該部分反映的是各自變數的貢獻值大小,主要通過LogWorth值來反映,LogWorth值等於 -log10P。
從圖6中可以看出,6個自變數中貢獻最大的是心功能分級和呼吸困難,而年齡、BMI、飲酒和吸煙的影響較小。該結果可以直觀反映出自變數的貢獻大小,也可以作為後續進一步進行變數篩選的參考依據。

圖6 效應匯總
Part 4 「預測值-殘差」圖
第四部分為「預測值-殘差」圖(圖7),該圖是以依變數預測值為橫坐標,以殘差為縱坐標繪製的散點圖。
殘差圖可以提示模型擬合是否合理,如果殘差隨機分佈在y=0的上下兩側,提示模型擬合較好,如果是非隨機分佈(如呈現某種特定的變化趨勢),則說明模型可能存在問題,需要重新考慮模型構建的前提條件是否滿足。
本例結果顯示,殘差分佈較為均勻,並未發現明顯的變化趨勢,可以認為模型對數據的擬合效果較好。

圖7 「預測值-殘差」圖
Part 5 參數估計值
第五部分為參數估計值(圖8),這部分往往是我們較為關心的結果,給出了每一自變數對應的參數估計值、標準誤差、t值和P值(即結果中的「概率>|t|」)。
對於連續變數而言,其參數估計值僅為1行結果;對於分類變數而言,其呈現的結果行數為類別數-1,顯示了與參照類相比的結果,如「心功能分級」是4分類,因此顯示4-1=3行結果,分別為心功能分級1、2、3級與4級(結果中未出現的類別)比較的結果。

圖8 參數估計值
不過要注意的是,JMP中默認的分類變數中的參數估計值是「效應編碼」,而不是虛擬變數編碼。在一般情況下,我們在看分類變數,預期會看到虛擬變數編碼,在這個例子中則是相反。
效應編碼與虛擬變數編碼兩者的差別在於:虛擬變數反映的是其它類分別與參照類的差值;效應編碼反映的是每一類與均值的差值。所以當自變數中有分類變數時,不要採用參數估計值結果,而要選擇指標參數化估計值的結果。
為了輸出我們更為習慣的虛擬變數編碼,需要在響應「軀體健康評分」左側的紅色向下箭頭點擊「估計值」→「指標參數化估計值」(圖9)。

圖9 「指標參數化估計值「操作步驟
此時結果會給出指標函數參數化的結果,此時分類變數對應的參數估計結果才是我們真正希望得到的結果(圖10)。

圖10 指標參數化估計值
圖10的指標函數參數化結果顯示(以心功能分級為例),與心功能分級4(結果中未顯示的類別為參照類)相比,心功能分級1比心功能分級4的軀體健康評分平均高36.29,心功能分級2比心功能分級4平均高22.22,心功能分級3比心功能分級4平均高11.54。
對比圖10和圖8結果,可以看出,兩個結果的連續變數相同,分類變數不同。因此再次強調,如果自變數有分類變數,必須選擇指標函數參數化結果。以上就是今天分享的如何使用JMP進行線性迴歸的多因子分析。
>>>觀看多元線性迴歸教學影片<<<
原文:https://mp.weixin.qq.com/s/cfFuM9zrTgB_yr0pmgvoBQ

推薦閱讀:
如何在JMP中進行相關分析(Correlation Analysis) ?
7個Table整理工具,無須使用Excel就能完成數據清洗
樣本數愈多愈好嗎?樣本數與power值的計算
認識卡方檢定:分類資料組間比較的分析神器
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.