cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
JMP is taking Discovery online, April 16 and 18. Register today and join us for interactive sessions featuring popular presentation topics, networking, and discussions with the experts.
Choose Language Hide Translation Bar
Ritalv
Community Manager Community Manager
玩轉JMP變量類型——於平淡處見多彩結果

上一篇文章我們給大家介紹了Excel資料導入JMP的三種常用方式:複製和黏貼,直接導入,以及Excel中JMP選項卡直接生成資料表。

 

Ritalv_0-1603769444186.png

 

本文繼續為大家帶來JMP軟體的基礎知識與操作—變數的類型,以及變數標籤的設置

 

變數類型本身不難,但是在JMP中,如果真的能夠靈活運用變數類型的設置,你會發現一個豐富多彩的結果天地。所以,仔細看一下本文,你會發現,原來JMP中的變數類型設置有隱藏著這麼多的技巧和秘密。

 

我們以一個名為“Diabetes”的資料集為例,導入資料後呈現圖1狀態。

图1 new.png

圖1 示例數據

 

 

01從變數名稱說起

 

如果你想改變某個變數的名稱,例如將“性別”改為“Gender”,有兩種方式可以做到

  • 第一種,在想改變名稱的變數名上點擊滑鼠右鍵,左鍵選擇“行資訊”,快顯視窗在框裡填入想更改的變數名稱點擊確定即可,如圖2。

图2.gif

圖2 更改變數名方法1

 

  • 另一種方式,是在視窗左側的變數行表中選中你想更改名稱的變數,再按一次變成可編輯模式(如圖3),填入新的變數名,點擊空白處或按回車即可。

图3.gif

圖3 更改變數名方法2

 

 

02 變數類型

 

行資訊視窗不僅能更改變數名稱,還能還能更改變數類型。

 

在導入資料時,JMP為每個變數確定兩種類型,如圖4,分別是資料類型建模類型

图4 变量类型示意图.png

圖4 變數類型示意圖

 

  •  “資料類型決定了變數在JMP中的存儲格式,其下拉式功能表有四種類型,如圖5,一般情況下,我們的資料只會涉及到數值型和字元型兩種:數值型變數均為數位,可進行運算,而字元型變數可以包含字母、數位或是字母和數位的組合,且不能進行運算。

 

這裡我們可以更改“資料類型”,但有一點需要特別注意:如果你將字元型變數更改成數值型,那麼變數中所有的字元值將變為缺失值,且不能復原。所以,如果沒有必要,不要輕易嘗試修改系統預設的設置。

图5 数据类型示意图.png

圖5 資料類型示意圖

 

  •  “建模類型決定了JMP在進行資料分析時如何處理該變數,其下拉式功能表中包括多個選項,一般情況下,我們只會用到前三種:連續型、有序型以及名義型,見圖7。

 

明確了變數類型後,下面我們看看變數類型的設置到底對JMP作圖、製表和統計分析有什麼影響,以及如何變換變數類型

 

03 變數類型決定了JMP將如何呈現你的表和圖

圖6和圖8展示了當“年齡”作為“連續型”變數時,JMP呈現的表和圖的狀態;圖7和圖9展示了當“年齡”作為“名義型”變數時,JMP呈現的表和圖的狀態。

 

在製表時,將年齡拖入製表的橫標目,“連續型”年齡的縱坐標自動出現“總和”,你還可以自己添加均值、標準差等用來描述連續型變數的指標(圖6);

图6 连续变量制表展示的统计量.png

圖6 連續變數製表展示的統計量

 

“名義型”年齡的縱坐標自動出現每一個年齡值的數目(因為年齡此時作為多分類變數),你還可以自己添加行百分比等用來描述分類變數的指標(圖7)。

图7 分类变量制表展示的统计量.png

圖7 分類變數製表展示的統計量

 

在作圖時,當我們將年齡拖入圖形生成器的X軸並點擊上方的橫條圖按鈕,“連續型”年齡即出現年齡分佈的分佈圖,每個柱子代表在一定的年齡區間內的觀測數(圖8);

图8 连续变量展示的分布图.png

圖8 連續變數展示的分佈圖

 

而“名義型”年齡的每一條柱子代表該年齡值(代表多分類變數中的一個類)的觀測數(圖9)。

图9 分类变量展示的频数图.png

圖9 分類變數展示的頻數圖

 

可能大家對剛才舉例中的圖表做法還不是很清楚,別著急,我們會在後文中有詳盡的介紹。

 

 

04 JMP可根據變數類型自動選取適當模型

 

在第一篇《5個理由告訴你,為什麼JMP軟體更適合你?》中已經提到,JMP是個半智慧化的軟體,可以自動根據變數類型做出一些基本方法的選擇。這裡再詳細說一下。

 

以廣義回歸模型為例,在頂部功能表列選擇分析→擬合模型,彈出對話方塊的右側在特質框內選擇廣義線性。我們在示例資料裡分別設置了連續型、有序型以及名義型的Y作為因變數。

 

當我們將連續型的Y放入Y(因變數)的框中後,JMP默認給出的分佈為正態,下拉清單可選擇的分佈顯示如圖10,注意此時Logistic回歸為灰色,無法選擇。

图10 连续变量默认的方法.png

圖10 連續變數預設的方法

 

當我們將名義型的Y放入Y(因變數)的框中後,JMP默認給出的分佈為二項(圖11),且下拉清單其他的選項為灰色(不可選擇)。

图11 分类变量默认的方法.png

圖11 分類變數預設的方法

 

當我們將有序型的Y放入Y(因變數)的框中後,JMP默認給出的分佈為有序型Logistic(圖12),其下拉式功能表中除了“多項式”,其他的選項均為灰色(不可選擇)。

图12 有序变量默认的方法.png

圖12 有序變數預設的方法

 

 

05  不同類型變數做引數時參數估計結果不同

仍然以廣義回歸為例,我們將年齡(連續型)生成按照年齡段分組的新變數,分別設定其為名義型和有序型,以Y(連續型)為因變數,分別以年齡(連續型)、年齡(名義型)以及年齡(有序型)作為引數,構建廣義回歸模型,結果見圖13-圖15。

 

當引數為連續型變數時,變數的參數估計值只有一個(圖13),其含義是年齡每增加1歲,因變數的平均改變情況。

图13 连续自变量的参数估计结果.png

圖13 連續引數的參數估計結果

 

當年齡作為多分類變數進入模型時,模型預設將排在最後一位的類別作為參照,其餘每一類與參照的比較均產生一個參數估計值(圖14)。比如這個例子中,我們將年齡分為3個年齡段:<50、50-59、>=60。以>=60作為參照,其餘2個年齡段與該類進行比較。其含義分別顯示了<50與>=60相比、50-59與>=60相比的結果。

图14 分类变量的参数估计结果.png

圖14 分類變數的參數估計結果

 

當然,也可以設其它類作為參照組,具體可通過值順序進行調整,詳見後面介紹的“值順序”操作。

 

當年齡作為有序變數進入模型時,其結果顯示的是相鄰兩個類別的比較(圖15)。其含義分別顯示了50-59與<50、>=60與50-59相比的結果。

图15 有序变量的参数估计结果.png

圖15 有序變數的參數估計結果

 

對比一下圖14和圖15,不難理解作為名義型(無序分類)和有序型的結果的區別在哪裡。

 

 

06   怎樣更改變數類型?

更改變數類型有兩種方式:

一種方式是在行資訊中進行修改(圖16);

图16.gif

圖16 更改變數類型方法一

 

另一種方式是在資料表左側變數行表中點擊變數前的圖示即可更改(圖17)。

图17.gif

圖17 更改變數類型方法二

 

在更改變數類型時,有以下幾個需要注意的地方:

 

(1)“建模類型”為連續型的變數,其“資料類型”只能是數值型

(2“建模類型”為名義型變數,其“資料類型”既可以是數值也可以是字元,在建模時,JMP將其作為沒有順序的離散型變數

(3)“建模類型”為有序型,和名義型一樣,其變數的“資料類型”可以是數值或字元,在建模時,JMP將其作為有順序的離散型變數

 

瞭解完變數類型對作圖、報表和分析的影響後,我們再看看如何調整值順序。這也是大家常常關注的一個話題。

 

07 如何調整名義型和有序型的值順序?

對於名義型和有序型,學會如何調整變數值的順序比較重要。

 

如果變數值是1、2、3…等數位,這種情況下不用擔心順序問題,軟體將按照數位大小認定變數的順序。如圖形展示時,座標會根據這些數位依次排序。

 

但如果你的值用的是類似“high”、“medium”、“low”等字母或其它字元, JMP預設按照字母表順序認定該變數的順序,即“high”、“low”、“medium”的順序。

 

對於變數值是字母或其它字元的變數,有時它們的順序並不是我們期望的。如上述例子中,JMP的預設順序(字母順序)其實是“high”、“low”、“medium”,這種情況下,無論在圖表中,還是統計分析結果中,都是按這一順序顯示,顯然這不符合我們的期望。我們期望看到的是“high”、“medium”、“low”這種順序。這就需要學會如何修改變數值的順序。

 

修改變數值順序有兩種方式:

(1)選中想要修改的行,右鍵功能表行屬性值順序(圖18);

图18.gif

圖18 調整名義型和有序型的值順序方法一

 

(2)在行資訊視窗點擊行屬性值順序(圖19);

图19.gif

圖19 調整名義型和有序型的值順序方法二

 

 

08  變數標籤

對於分類變數,儘管我們可以在錄入時直接以字元的形式錄入,如前面提到的high、medium、low,但絕大多數情況下,我們在錄入資料時都是數位形式(如將high、medium、low分別錄成1、2、3),這是為了分析方便,而且資料表看起來整潔。

 

但從結果展示角度,其實我們更希望看到每一類所代表的含義(如在圖中直接顯示“high”、“medium”、“low”,而不是1、2、3)。這種情況下,就需要用到資料標籤功能了

 

下面就給大家介紹JMP值標籤功能一經設置,可在生成圖表中直接使用標籤,既節省時間又增加了結果的可讀性。

 

同樣,有兩種方式設置值標籤:

 

  • 一是在行資訊視窗點擊行屬性值標籤(圖20);

图20.gif

圖20 設置變數標籤方法一

 

  • 二是選中行之後,右鍵功能表行屬性值標籤(圖21);

图21.gif

圖21 設置變數標籤方法二

 

如果將來你突然不想看標籤了,想看原始資料,那也很簡單,無需刪除已設置好的值標籤,只需在變數上點擊右鍵,出現的功能表中,把“使用值標籤”前面的對號勾選掉就可以了(圖22)。

图22.gif

圖22 取消值標籤

 

以上就是我們本期為大家帶來的JMP實用指南。如果你還未體驗過JMP,歡迎下載JMP試用,跟著文章練起來吧!

Last Modified: Oct 27, 2020 10:27 PM