玩轉JMP變量類型——於平淡處見多彩結果

Ritalv · Oct 26, 2020 11:39 PM

上一篇文章我們給大家介紹了Excel資料導入JMP的三種常用方式：複製和黏貼，直接導入，以及Excel中JMP選項卡直接生成資料表。

本文繼續為大家帶來JMP軟體的基礎知識與操作—變數的類型，以及變數標籤的設置。

變數類型本身不難，但是在JMP中，如果真的能夠靈活運用變數類型的設置，你會發現一個豐富多彩的結果天地。所以，仔細看一下本文，你會發現，原來JMP中的變數類型設置有隱藏著這麼多的技巧和秘密。

我們以一個名為“Diabetes”的資料集為例，導入資料後呈現圖1狀態。

图1 new.png

圖1 示例數據

01從變數名稱說起

如果你想改變某個變數的名稱，例如將“性別”改為“Gender”，有兩種方式可以做到。

第一種，在想改變名稱的變數名上點擊滑鼠右鍵，左鍵選擇“行資訊”，快顯視窗在框裡填入想更改的變數名稱點擊確定即可，如圖2。

图2.gif

圖2 更改變數名方法1

另一種方式，是在視窗左側的變數行表中選中你想更改名稱的變數，再按一次變成可編輯模式（如圖3），填入新的變數名，點擊空白處或按回車即可。

图3.gif

圖3 更改變數名方法2

02 變數類型

“行資訊”視窗不僅能更改變數名稱，還能還能更改變數類型。

在導入資料時，JMP為每個變數確定兩種類型，如圖4，分別是“資料類型”和“建模類型”。

图4 变量类型示意图.png

圖4 變數類型示意圖

“資料類型”決定了變數在JMP中的存儲格式，其下拉式功能表有四種類型，如圖5，一般情況下，我們的資料只會涉及到數值型和字元型兩種：數值型變數均為數位，可進行運算，而字元型變數可以包含字母、數位或是字母和數位的組合，且不能進行運算。

這裡我們可以更改“資料類型”，但有一點需要特別注意：如果你將字元型變數更改成數值型，那麼變數中所有的字元值將變為缺失值，且不能復原。所以，如果沒有必要，不要輕易嘗試修改系統預設的設置。

图5 数据类型示意图.png

圖5 資料類型示意圖

“建模類型”決定了JMP在進行資料分析時如何處理該變數，其下拉式功能表中包括多個選項，一般情況下，我們只會用到前三種：連續型、有序型以及名義型，見圖7。

明確了變數類型後，下面我們看看變數類型的設置到底對JMP作圖、製表和統計分析有什麼影響，以及如何變換變數類型。

03 變數類型決定了JMP將如何呈現你的表和圖

圖6和圖8展示了當“年齡”作為“連續型”變數時，JMP呈現的表和圖的狀態；圖7和圖9展示了當“年齡”作為“名義型”變數時，JMP呈現的表和圖的狀態。

在製表時，將年齡拖入製表的橫標目，“連續型”年齡的縱坐標自動出現“總和”，你還可以自己添加均值、標準差等用來描述連續型變數的指標（圖6）；

图6 连续变量制表展示的统计量.png

圖6 連續變數製表展示的統計量

“名義型”年齡的縱坐標自動出現每一個年齡值的數目（因為年齡此時作為多分類變數），你還可以自己添加行百分比等用來描述分類變數的指標（圖7）。

图7 分类变量制表展示的统计量.png

圖7 分類變數製表展示的統計量

在作圖時，當我們將年齡拖入圖形生成器的X軸並點擊上方的橫條圖按鈕，“連續型”年齡即出現年齡分佈的分佈圖，每個柱子代表在一定的年齡區間內的觀測數（圖8）；

图8 连续变量展示的分布图.png

圖8 連續變數展示的分佈圖

而“名義型”年齡的每一條柱子代表該年齡值（代表多分類變數中的一個類）的觀測數（圖9）。

图9 分类变量展示的频数图.png

圖9 分類變數展示的頻數圖

可能大家對剛才舉例中的圖表做法還不是很清楚，別著急，我們會在後文中有詳盡的介紹。

04 JMP可根據變數類型自動選取適當模型

在第一篇《5個理由告訴你，為什麼JMP軟體更適合你？》中已經提到，JMP是個半智慧化的軟體，可以自動根據變數類型做出一些基本方法的選擇。這裡再詳細說一下。

以廣義回歸模型為例，在頂部功能表列選擇分析→擬合模型，彈出對話方塊的右側在特質框內選擇廣義線性。我們在示例資料裡分別設置了連續型、有序型以及名義型的Y作為因變數。

當我們將連續型的Y放入Y（因變數）的框中後，JMP默認給出的分佈為正態，下拉清單可選擇的分佈顯示如圖10，注意此時Logistic回歸為灰色，無法選擇。

图10 连续变量默认的方法.png

圖10 連續變數預設的方法

當我們將名義型的Y放入Y（因變數）的框中後，JMP默認給出的分佈為二項（圖11），且下拉清單其他的選項為灰色（不可選擇）。

图11 分类变量默认的方法.png

圖11 分類變數預設的方法

當我們將有序型的Y放入Y（因變數）的框中後，JMP默認給出的分佈為有序型Logistic（圖12），其下拉式功能表中除了“多項式”，其他的選項均為灰色（不可選擇）。

图12 有序变量默认的方法.png

圖12 有序變數預設的方法

05 不同類型變數做引數時參數估計結果不同

仍然以廣義回歸為例，我們將年齡（連續型）生成按照年齡段分組的新變數，分別設定其為名義型和有序型，以Y（連續型）為因變數，分別以年齡（連續型）、年齡（名義型）以及年齡（有序型）作為引數，構建廣義回歸模型，結果見圖13-圖15。

當引數為連續型變數時，變數的參數估計值只有一個（圖13），其含義是年齡每增加1歲，因變數的平均改變情況。

图13 连续自变量的参数估计结果.png

圖13 連續引數的參數估計結果

當年齡作為多分類變數進入模型時，模型預設將排在最後一位的類別作為參照，其餘每一類與參照的比較均產生一個參數估計值（圖14）。比如這個例子中，我們將年齡分為3個年齡段：<50、50-59、>=60。以>=60作為參照，其餘2個年齡段與該類進行比較。其含義分別顯示了<50與>=60相比、50-59與>=60相比的結果。

图14 分类变量的参数估计结果.png

圖14 分類變數的參數估計結果

當然，也可以設其它類作為參照組，具體可通過值順序進行調整，詳見後面介紹的“值順序”操作。

當年齡作為有序變數進入模型時，其結果顯示的是相鄰兩個類別的比較（圖15）。其含義分別顯示了50-59與<50、>=60與50-59相比的結果。

图15 有序变量的参数估计结果.png

圖15 有序變數的參數估計結果

對比一下圖14和圖15，不難理解作為名義型（無序分類）和有序型的結果的區別在哪裡。

06 怎樣更改變數類型？

更改變數類型有兩種方式：

一種方式是在行資訊中進行修改（圖16）；

图16.gif

圖16 更改變數類型方法一

另一種方式是在資料表左側變數行表中點擊變數前的圖示即可更改（圖17）。

图17.gif

圖17 更改變數類型方法二

在更改變數類型時，有以下幾個需要注意的地方：

（1）“建模類型”為連續型的變數，其“資料類型”只能是數值型；

（2）“建模類型”為名義型變數，其“資料類型”既可以是數值也可以是字元，在建模時，JMP將其作為沒有順序的離散型變數；

（3）“建模類型”為有序型，和名義型一樣，其變數的“資料類型”可以是數值或字元，在建模時，JMP將其作為有順序的離散型變數。

瞭解完變數類型對作圖、報表和分析的影響後，我們再看看如何調整值順序。這也是大家常常關注的一個話題。

07 如何調整名義型和有序型的值順序？

對於名義型和有序型，學會如何調整變數值的順序比較重要。

如果變數值是1、2、3…等數位，這種情況下不用擔心順序問題，軟體將按照數位大小認定變數的順序。如圖形展示時，座標會根據這些數位依次排序。

但如果你的值用的是類似“high”、“medium”、“low”等字母或其它字元， JMP預設按照字母表順序認定該變數的順序，即“high”、“low”、“medium”的順序。

對於變數值是字母或其它字元的變數，有時它們的順序並不是我們期望的。如上述例子中，JMP的預設順序（字母順序）其實是“high”、“low”、“medium”，這種情況下，無論在圖表中，還是統計分析結果中，都是按這一順序顯示，顯然這不符合我們的期望。我們期望看到的是“high”、“medium”、“low”這種順序。這就需要學會如何修改變數值的順序。

修改變數值順序有兩種方式：

（1）選中想要修改的行，右鍵功能表行屬性→值順序（圖18）；

图18.gif

圖18 調整名義型和有序型的值順序方法一

（2）在行資訊視窗點擊行屬性→值順序（圖19）；

图19.gif

圖19 調整名義型和有序型的值順序方法二

08 變數標籤

對於分類變數，儘管我們可以在錄入時直接以字元的形式錄入，如前面提到的high、medium、low，但絕大多數情況下，我們在錄入資料時都是數位形式（如將high、medium、low分別錄成1、2、3），這是為了分析方便，而且資料表看起來整潔。

但從結果展示角度，其實我們更希望看到每一類所代表的含義（如在圖中直接顯示“high”、“medium”、“low”，而不是1、2、3）。這種情況下，就需要用到資料標籤功能了。

下面就給大家介紹JMP的“值標籤”功能，一經設置，可在生成圖表中直接使用標籤，既節省時間又增加了結果的可讀性。

同樣，有兩種方式設置值標籤：

一是在行資訊視窗點擊行屬性→值標籤（圖20）；

图20.gif

圖20 設置變數標籤方法一

二是選中行之後，右鍵功能表行屬性→值標籤（圖21）；

图21.gif

圖21 設置變數標籤方法二

如果將來你突然不想看標籤了，想看原始資料，那也很簡單，無需刪除已設置好的值標籤，只需在變數上點擊右鍵，出現的功能表中，把“使用值標籤”前面的對號勾選掉就可以了（圖22）。

图22.gif

圖22 取消值標籤

以上就是我們本期為大家帶來的JMP實用指南。如果你還未體驗過JMP，歡迎下載JMP試用，跟著文章練起來吧！