JMP Blog

JMP_Taiwan · Sep 5, 2022 10:15 PM

什麼是多元線性迴歸?

多元線性迴歸是用來探討多個自變數和依變數之間的關係，並且用來模擬反映變數及兩個以上的依變數之間的關係。

以圖1的數據為例，探索軀體健康評分的可能影響因子。

圖1

在JMP中依次點擊「分析」菜單→「擬合模型」（圖2），在彈出的對話框中將軀體健康評分導入「Y」，將預計要進行多因子分析的變數導入「構造模型效應」中（圖3）。

圖2

圖3「擬合模型」的操作示意圖第二步

圖3中我們可以看到，對話框的右側上方有兩個選項框，分別為「特質」和「重點」。

「重點」默認為效應杠杆率，可以選擇其它，對結果並不影響，只是結果中的展示內容不同，有的展示多一些，有的展示少一些，而且都可以在結果中自行調整擬展示的內容，因此「重點」這一選項默認即可。

線性迴歸默認輸出結果包括幾個不同部分的結果，接下來僅對重要結果部分進行介紹。

第一部分為槓桿圖，槓桿圖也稱為偏迴歸殘差槓桿圖，或增加變數圖，它反映的是扣除了其他因子影響後某個自變數與依變數的關係。

本例中多因子分析納入了6個自變數，因此結果中分別呈現了6個自變數在校正了其他5個自變數後與結局的偏殘差圖。由於篇幅有限，本文僅呈現前3個自變數的槓桿圖（圖4）。

圖4 槓桿圖結果（部分展示）

連續變數和分類變數的槓桿圖並不相同。

連續變數容易理解，如年齡的槓桿圖顯示，在校正其它因子後，與軀體健康評分呈負相關；
分類變數的結果可通過「最小二乘均值」來觀察兩類或多類的差異情況。如飲酒的表中顯示，在校正其它因子後，飲酒和不飲酒的軀體健康評分的最小二乘均值分別為48.1和45.4，這一均值不等同於常規均值。

第二部分為「預測值-實際值」圖（圖5），該圖反映的是模型預測值與實際觀測值的吻合程度，橫坐標是預測值，縱坐標是實際值，二者越接近45度線，越說明模型擬合效果好。

本例中R²=0.42，在醫學領域中可以認為是擬合不錯的迴歸模型了。

圖5「預測值-實際值」圖

第三部分為效應匯總結果（圖6），該部分反映的是各自變數的貢獻值大小，主要通過LogWorth值來反映，LogWorth值等於 -log₁₀P。

從圖6中可以看出，6個自變數中貢獻最大的是心功能分級和呼吸困難，而年齡、BMI、飲酒和吸煙的影響較小。該結果可以直觀反映出自變數的貢獻大小，也可以作為後續進一步進行變數篩選的參考依據。

圖6 效應匯總

第四部分為「預測值-殘差」圖（圖7），該圖是以依變數預測值為橫坐標，以殘差為縱坐標繪製的散點圖。

殘差圖可以提示模型擬合是否合理，如果殘差隨機分佈在y=0的上下兩側，提示模型擬合較好，如果是非隨機分佈（如呈現某種特定的變化趨勢），則說明模型可能存在問題，需要重新考慮模型構建的前提條件是否滿足。

本例結果顯示，殘差分佈較為均勻，並未發現明顯的變化趨勢，可以認為模型對數據的擬合效果較好。

圖7 「預測值-殘差」圖

第五部分為參數估計值（圖8），這部分往往是我們較為關心的結果，給出了每一自變數對應的參數估計值、標準誤差、t值和P值（即結果中的「概率>|t|」）。

對於連續變數而言，其參數估計值僅為1行結果；對於分類變數而言，其呈現的結果行數為類別數-1，顯示了與參照類相比的結果，如「心功能分級」是4分類，因此顯示4-1=3行結果，分別為心功能分級1、2、3級與4級（結果中未出現的類別）比較的結果。

圖8 參數估計值

不過要注意的是，JMP中默認的分類變數中的參數估計值是「效應編碼」，而不是虛擬變數編碼。在一般情況下，我們在看分類變數，預期會看到虛擬變數編碼，在這個例子中則是相反。

效應編碼與虛擬變數編碼兩者的差別在於：虛擬變數反映的是其它類分別與參照類的差值；效應編碼反映的是每一類與均值的差值。所以當自變數中有分類變數時，不要採用參數估計值結果，而要選擇指標參數化估計值的結果。

為了輸出我們更為習慣的虛擬變數編碼，需要在響應「軀體健康評分」左側的紅色向下箭頭點擊「估計值」→「指標參數化估計值」（圖9）。

圖9 「指標參數化估計值「操作步驟

此時結果會給出指標函數參數化的結果，此時分類變數對應的參數估計結果才是我們真正希望得到的結果（圖10）。

圖10 指標參數化估計值

圖10的指標函數參數化結果顯示（以心功能分級為例），與心功能分級4（結果中未顯示的類別為參照類）相比，心功能分級1比心功能分級4的軀體健康評分平均高36.29，心功能分級2比心功能分級4平均高22.22，心功能分級3比心功能分級4平均高11.54。

對比圖10和圖8結果，可以看出，兩個結果的連續變數相同，分類變數不同。因此再次強調，如果自變數有分類變數，必須選擇指標函數參數化結果。以上就是今天分享的如何使用JMP進行線性迴歸的多因子分析。