上一篇文章我們給大家介紹了Excel資料導入JMP的三種常用方式:複製和黏貼,直接導入,以及Excel中JMP選項卡直接生成資料表。
本文繼續為大家帶來JMP軟體的基礎知識與操作—變數的類型,以及變數標籤的設置。
變數類型本身不難,但是在JMP中,如果真的能夠靈活運用變數類型的設置,你會發現一個豐富多彩的結果天地。所以,仔細看一下本文,你會發現,原來JMP中的變數類型設置有隱藏著這麼多的技巧和秘密。
我們以一個名為“Diabetes”的資料集為例,導入資料後呈現圖1狀態。
圖1 示例數據
01從變數名稱說起
如果你想改變某個變數的名稱,例如將“性別”改為“Gender”,有兩種方式可以做到。
- 第一種,在想改變名稱的變數名上點擊滑鼠右鍵,左鍵選擇“行資訊”,快顯視窗在框裡填入想更改的變數名稱點擊確定即可,如圖2。
圖2 更改變數名方法1
- 另一種方式,是在視窗左側的變數行表中選中你想更改名稱的變數,再按一次變成可編輯模式(如圖3),填入新的變數名,點擊空白處或按回車即可。
圖3 更改變數名方法2
02 變數類型
“行資訊”視窗不僅能更改變數名稱,還能還能更改變數類型。
在導入資料時,JMP為每個變數確定兩種類型,如圖4,分別是“資料類型”和“建模類型”。
圖4 變數類型示意圖
- “資料類型”決定了變數在JMP中的存儲格式,其下拉式功能表有四種類型,如圖5,一般情況下,我們的資料只會涉及到數值型和字元型兩種:數值型變數均為數位,可進行運算,而字元型變數可以包含字母、數位或是字母和數位的組合,且不能進行運算。
這裡我們可以更改“資料類型”,但有一點需要特別注意:如果你將字元型變數更改成數值型,那麼變數中所有的字元值將變為缺失值,且不能復原。所以,如果沒有必要,不要輕易嘗試修改系統預設的設置。
圖5 資料類型示意圖
- “建模類型”決定了JMP在進行資料分析時如何處理該變數,其下拉式功能表中包括多個選項,一般情況下,我們只會用到前三種:連續型、有序型以及名義型,見圖7。
明確了變數類型後,下面我們看看變數類型的設置到底對JMP作圖、製表和統計分析有什麼影響,以及如何變換變數類型。
03 變數類型決定了JMP將如何呈現你的表和圖
圖6和圖8展示了當“年齡”作為“連續型”變數時,JMP呈現的表和圖的狀態;圖7和圖9展示了當“年齡”作為“名義型”變數時,JMP呈現的表和圖的狀態。
在製表時,將年齡拖入製表的橫標目,“連續型”年齡的縱坐標自動出現“總和”,你還可以自己添加均值、標準差等用來描述連續型變數的指標(圖6);
圖6 連續變數製表展示的統計量
“名義型”年齡的縱坐標自動出現每一個年齡值的數目(因為年齡此時作為多分類變數),你還可以自己添加行百分比等用來描述分類變數的指標(圖7)。
圖7 分類變數製表展示的統計量
在作圖時,當我們將年齡拖入圖形生成器的X軸並點擊上方的橫條圖按鈕,“連續型”年齡即出現年齡分佈的分佈圖,每個柱子代表在一定的年齡區間內的觀測數(圖8);
圖8 連續變數展示的分佈圖
而“名義型”年齡的每一條柱子代表該年齡值(代表多分類變數中的一個類)的觀測數(圖9)。
圖9 分類變數展示的頻數圖
可能大家對剛才舉例中的圖表做法還不是很清楚,別著急,我們會在後文中有詳盡的介紹。
04 JMP可根據變數類型自動選取適當模型
在第一篇《5個理由告訴你,為什麼JMP軟體更適合你?》中已經提到,JMP是個半智慧化的軟體,可以自動根據變數類型做出一些基本方法的選擇。這裡再詳細說一下。
以廣義回歸模型為例,在頂部功能表列選擇分析→擬合模型,彈出對話方塊的右側在特質框內選擇廣義線性。我們在示例資料裡分別設置了連續型、有序型以及名義型的Y作為因變數。
當我們將連續型的Y放入Y(因變數)的框中後,JMP默認給出的分佈為正態,下拉清單可選擇的分佈顯示如圖10,注意此時Logistic回歸為灰色,無法選擇。
圖10 連續變數預設的方法
當我們將名義型的Y放入Y(因變數)的框中後,JMP默認給出的分佈為二項(圖11),且下拉清單其他的選項為灰色(不可選擇)。
圖11 分類變數預設的方法
當我們將有序型的Y放入Y(因變數)的框中後,JMP默認給出的分佈為有序型Logistic(圖12),其下拉式功能表中除了“多項式”,其他的選項均為灰色(不可選擇)。
圖12 有序變數預設的方法
05 不同類型變數做引數時參數估計結果不同
仍然以廣義回歸為例,我們將年齡(連續型)生成按照年齡段分組的新變數,分別設定其為名義型和有序型,以Y(連續型)為因變數,分別以年齡(連續型)、年齡(名義型)以及年齡(有序型)作為引數,構建廣義回歸模型,結果見圖13-圖15。
當引數為連續型變數時,變數的參數估計值只有一個(圖13),其含義是年齡每增加1歲,因變數的平均改變情況。
圖13 連續引數的參數估計結果
當年齡作為多分類變數進入模型時,模型預設將排在最後一位的類別作為參照,其餘每一類與參照的比較均產生一個參數估計值(圖14)。比如這個例子中,我們將年齡分為3個年齡段:<50、50-59、>=60。以>=60作為參照,其餘2個年齡段與該類進行比較。其含義分別顯示了<50與>=60相比、50-59與>=60相比的結果。
圖14 分類變數的參數估計結果
當然,也可以設其它類作為參照組,具體可通過值順序進行調整,詳見後面介紹的“值順序”操作。
當年齡作為有序變數進入模型時,其結果顯示的是相鄰兩個類別的比較(圖15)。其含義分別顯示了50-59與<50、>=60與50-59相比的結果。
圖15 有序變數的參數估計結果
對比一下圖14和圖15,不難理解作為名義型(無序分類)和有序型的結果的區別在哪裡。
06 怎樣更改變數類型?
更改變數類型有兩種方式:
一種方式是在行資訊中進行修改(圖16);
圖16 更改變數類型方法一
另一種方式是在資料表左側變數行表中點擊變數前的圖示即可更改(圖17)。
圖17 更改變數類型方法二
在更改變數類型時,有以下幾個需要注意的地方:
(1)“建模類型”為連續型的變數,其“資料類型”只能是數值型;
(2)“建模類型”為名義型變數,其“資料類型”既可以是數值也可以是字元,在建模時,JMP將其作為沒有順序的離散型變數;
(3)“建模類型”為有序型,和名義型一樣,其變數的“資料類型”可以是數值或字元,在建模時,JMP將其作為有順序的離散型變數。
瞭解完變數類型對作圖、報表和分析的影響後,我們再看看如何調整值順序。這也是大家常常關注的一個話題。
07 如何調整名義型和有序型的值順序?
對於名義型和有序型,學會如何調整變數值的順序比較重要。
如果變數值是1、2、3…等數位,這種情況下不用擔心順序問題,軟體將按照數位大小認定變數的順序。如圖形展示時,座標會根據這些數位依次排序。
但如果你的值用的是類似“high”、“medium”、“low”等字母或其它字元, JMP預設按照字母表順序認定該變數的順序,即“high”、“low”、“medium”的順序。
對於變數值是字母或其它字元的變數,有時它們的順序並不是我們期望的。如上述例子中,JMP的預設順序(字母順序)其實是“high”、“low”、“medium”,這種情況下,無論在圖表中,還是統計分析結果中,都是按這一順序顯示,顯然這不符合我們的期望。我們期望看到的是“high”、“medium”、“low”這種順序。這就需要學會如何修改變數值的順序。
修改變數值順序有兩種方式:
(1)選中想要修改的行,右鍵功能表行屬性→值順序(圖18);
圖18 調整名義型和有序型的值順序方法一
(2)在行資訊視窗點擊行屬性→值順序(圖19);
圖19 調整名義型和有序型的值順序方法二
08 變數標籤
對於分類變數,儘管我們可以在錄入時直接以字元的形式錄入,如前面提到的high、medium、low,但絕大多數情況下,我們在錄入資料時都是數位形式(如將high、medium、low分別錄成1、2、3),這是為了分析方便,而且資料表看起來整潔。
但從結果展示角度,其實我們更希望看到每一類所代表的含義(如在圖中直接顯示“high”、“medium”、“low”,而不是1、2、3)。這種情況下,就需要用到資料標籤功能了。
下面就給大家介紹JMP的“值標籤”功能,一經設置,可在生成圖表中直接使用標籤,既節省時間又增加了結果的可讀性。
同樣,有兩種方式設置值標籤:
圖20 設置變數標籤方法一
- 二是選中行之後,右鍵功能表行屬性→值標籤(圖21);
圖21 設置變數標籤方法二
如果將來你突然不想看標籤了,想看原始資料,那也很簡單,無需刪除已設置好的值標籤,只需在變數上點擊右鍵,出現的功能表中,把“使用值標籤”前面的對號勾選掉就可以了(圖22)。
圖22 取消值標籤
以上就是我們本期為大家帶來的JMP實用指南。如果你還未體驗過JMP,歡迎下載JMP試用,跟著文章練起來吧!
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.