cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
Try the Materials Informatics Toolkit, which is designed to easily handle SMILES data. This and other helpful add-ins are available in the JMP® Marketplace
Choose Language Hide Translation Bar
Ritalv
Community Manager Community Manager
玩轉JMP變量類型——於平淡處見多彩結果

上一篇文章我們給大家介紹了Excel資料導入JMP的三種常用方式:複製和黏貼,直接導入,以及Excel中JMP選項卡直接生成資料表。

 

Ritalv_0-1603769444186.png

 

本文繼續為大家帶來JMP軟體的基礎知識與操作—變數的類型,以及變數標籤的設置

 

變數類型本身不難,但是在JMP中,如果真的能夠靈活運用變數類型的設置,你會發現一個豐富多彩的結果天地。所以,仔細看一下本文,你會發現,原來JMP中的變數類型設置有隱藏著這麼多的技巧和秘密。

 

我們以一個名為“Diabetes”的資料集為例,導入資料後呈現圖1狀態。

图1 new.png

圖1 示例數據

 

 

01從變數名稱說起

 

如果你想改變某個變數的名稱,例如將“性別”改為“Gender”,有兩種方式可以做到

  • 第一種,在想改變名稱的變數名上點擊滑鼠右鍵,左鍵選擇“行資訊”,快顯視窗在框裡填入想更改的變數名稱點擊確定即可,如圖2。

图2.gif

圖2 更改變數名方法1

 

  • 另一種方式,是在視窗左側的變數行表中選中你想更改名稱的變數,再按一次變成可編輯模式(如圖3),填入新的變數名,點擊空白處或按回車即可。

图3.gif

圖3 更改變數名方法2

 

 

02 變數類型

 

行資訊視窗不僅能更改變數名稱,還能還能更改變數類型。

 

在導入資料時,JMP為每個變數確定兩種類型,如圖4,分別是資料類型建模類型

图4 变量类型示意图.png

圖4 變數類型示意圖

 

  •  “資料類型決定了變數在JMP中的存儲格式,其下拉式功能表有四種類型,如圖5,一般情況下,我們的資料只會涉及到數值型和字元型兩種:數值型變數均為數位,可進行運算,而字元型變數可以包含字母、數位或是字母和數位的組合,且不能進行運算。

 

這裡我們可以更改“資料類型”,但有一點需要特別注意:如果你將字元型變數更改成數值型,那麼變數中所有的字元值將變為缺失值,且不能復原。所以,如果沒有必要,不要輕易嘗試修改系統預設的設置。

图5 数据类型示意图.png

圖5 資料類型示意圖

 

  •  “建模類型決定了JMP在進行資料分析時如何處理該變數,其下拉式功能表中包括多個選項,一般情況下,我們只會用到前三種:連續型、有序型以及名義型,見圖7。

 

明確了變數類型後,下面我們看看變數類型的設置到底對JMP作圖、製表和統計分析有什麼影響,以及如何變換變數類型

 

03 變數類型決定了JMP將如何呈現你的表和圖

圖6和圖8展示了當“年齡”作為“連續型”變數時,JMP呈現的表和圖的狀態;圖7和圖9展示了當“年齡”作為“名義型”變數時,JMP呈現的表和圖的狀態。

 

在製表時,將年齡拖入製表的橫標目,“連續型”年齡的縱坐標自動出現“總和”,你還可以自己添加均值、標準差等用來描述連續型變數的指標(圖6);

图6 连续变量制表展示的统计量.png

圖6 連續變數製表展示的統計量

 

“名義型”年齡的縱坐標自動出現每一個年齡值的數目(因為年齡此時作為多分類變數),你還可以自己添加行百分比等用來描述分類變數的指標(圖7)。

图7 分类变量制表展示的统计量.png

圖7 分類變數製表展示的統計量

 

在作圖時,當我們將年齡拖入圖形生成器的X軸並點擊上方的橫條圖按鈕,“連續型”年齡即出現年齡分佈的分佈圖,每個柱子代表在一定的年齡區間內的觀測數(圖8);

图8 连续变量展示的分布图.png

圖8 連續變數展示的分佈圖

 

而“名義型”年齡的每一條柱子代表該年齡值(代表多分類變數中的一個類)的觀測數(圖9)。

图9 分类变量展示的频数图.png

圖9 分類變數展示的頻數圖

 

可能大家對剛才舉例中的圖表做法還不是很清楚,別著急,我們會在後文中有詳盡的介紹。

 

 

04 JMP可根據變數類型自動選取適當模型

 

在第一篇《5個理由告訴你,為什麼JMP軟體更適合你?》中已經提到,JMP是個半智慧化的軟體,可以自動根據變數類型做出一些基本方法的選擇。這裡再詳細說一下。

 

以廣義回歸模型為例,在頂部功能表列選擇分析→擬合模型,彈出對話方塊的右側在特質框內選擇廣義線性。我們在示例資料裡分別設置了連續型、有序型以及名義型的Y作為因變數。

 

當我們將連續型的Y放入Y(因變數)的框中後,JMP默認給出的分佈為正態,下拉清單可選擇的分佈顯示如圖10,注意此時Logistic回歸為灰色,無法選擇。

图10 连续变量默认的方法.png

圖10 連續變數預設的方法

 

當我們將名義型的Y放入Y(因變數)的框中後,JMP默認給出的分佈為二項(圖11),且下拉清單其他的選項為灰色(不可選擇)。

图11 分类变量默认的方法.png

圖11 分類變數預設的方法

 

當我們將有序型的Y放入Y(因變數)的框中後,JMP默認給出的分佈為有序型Logistic(圖12),其下拉式功能表中除了“多項式”,其他的選項均為灰色(不可選擇)。

图12 有序变量默认的方法.png

圖12 有序變數預設的方法

 

 

05  不同類型變數做引數時參數估計結果不同

仍然以廣義回歸為例,我們將年齡(連續型)生成按照年齡段分組的新變數,分別設定其為名義型和有序型,以Y(連續型)為因變數,分別以年齡(連續型)、年齡(名義型)以及年齡(有序型)作為引數,構建廣義回歸模型,結果見圖13-圖15。

 

當引數為連續型變數時,變數的參數估計值只有一個(圖13),其含義是年齡每增加1歲,因變數的平均改變情況。

图13 连续自变量的参数估计结果.png

圖13 連續引數的參數估計結果

 

當年齡作為多分類變數進入模型時,模型預設將排在最後一位的類別作為參照,其餘每一類與參照的比較均產生一個參數估計值(圖14)。比如這個例子中,我們將年齡分為3個年齡段:<50、50-59、>=60。以>=60作為參照,其餘2個年齡段與該類進行比較。其含義分別顯示了<50與>=60相比、50-59與>=60相比的結果。

图14 分类变量的参数估计结果.png

圖14 分類變數的參數估計結果

 

當然,也可以設其它類作為參照組,具體可通過值順序進行調整,詳見後面介紹的“值順序”操作。

 

當年齡作為有序變數進入模型時,其結果顯示的是相鄰兩個類別的比較(圖15)。其含義分別顯示了50-59與<50、>=60與50-59相比的結果。

图15 有序变量的参数估计结果.png

圖15 有序變數的參數估計結果

 

對比一下圖14和圖15,不難理解作為名義型(無序分類)和有序型的結果的區別在哪裡。

 

 

06   怎樣更改變數類型?

更改變數類型有兩種方式:

一種方式是在行資訊中進行修改(圖16);

图16.gif

圖16 更改變數類型方法一

 

另一種方式是在資料表左側變數行表中點擊變數前的圖示即可更改(圖17)。

图17.gif

圖17 更改變數類型方法二

 

在更改變數類型時,有以下幾個需要注意的地方:

 

(1)“建模類型”為連續型的變數,其“資料類型”只能是數值型

(2“建模類型”為名義型變數,其“資料類型”既可以是數值也可以是字元,在建模時,JMP將其作為沒有順序的離散型變數

(3)“建模類型”為有序型,和名義型一樣,其變數的“資料類型”可以是數值或字元,在建模時,JMP將其作為有順序的離散型變數

 

瞭解完變數類型對作圖、報表和分析的影響後,我們再看看如何調整值順序。這也是大家常常關注的一個話題。

 

07 如何調整名義型和有序型的值順序?

對於名義型和有序型,學會如何調整變數值的順序比較重要。

 

如果變數值是1、2、3…等數位,這種情況下不用擔心順序問題,軟體將按照數位大小認定變數的順序。如圖形展示時,座標會根據這些數位依次排序。

 

但如果你的值用的是類似“high”、“medium”、“low”等字母或其它字元, JMP預設按照字母表順序認定該變數的順序,即“high”、“low”、“medium”的順序。

 

對於變數值是字母或其它字元的變數,有時它們的順序並不是我們期望的。如上述例子中,JMP的預設順序(字母順序)其實是“high”、“low”、“medium”,這種情況下,無論在圖表中,還是統計分析結果中,都是按這一順序顯示,顯然這不符合我們的期望。我們期望看到的是“high”、“medium”、“low”這種順序。這就需要學會如何修改變數值的順序。

 

修改變數值順序有兩種方式:

(1)選中想要修改的行,右鍵功能表行屬性值順序(圖18);

图18.gif

圖18 調整名義型和有序型的值順序方法一

 

(2)在行資訊視窗點擊行屬性值順序(圖19);

图19.gif

圖19 調整名義型和有序型的值順序方法二

 

 

08  變數標籤

對於分類變數,儘管我們可以在錄入時直接以字元的形式錄入,如前面提到的high、medium、low,但絕大多數情況下,我們在錄入資料時都是數位形式(如將high、medium、low分別錄成1、2、3),這是為了分析方便,而且資料表看起來整潔。

 

但從結果展示角度,其實我們更希望看到每一類所代表的含義(如在圖中直接顯示“high”、“medium”、“low”,而不是1、2、3)。這種情況下,就需要用到資料標籤功能了

 

下面就給大家介紹JMP值標籤功能一經設置,可在生成圖表中直接使用標籤,既節省時間又增加了結果的可讀性。

 

同樣,有兩種方式設置值標籤:

 

  • 一是在行資訊視窗點擊行屬性值標籤(圖20);

图20.gif

圖20 設置變數標籤方法一

 

  • 二是選中行之後,右鍵功能表行屬性值標籤(圖21);

图21.gif

圖21 設置變數標籤方法二

 

如果將來你突然不想看標籤了,想看原始資料,那也很簡單,無需刪除已設置好的值標籤,只需在變數上點擊右鍵,出現的功能表中,把“使用值標籤”前面的對號勾選掉就可以了(圖22)。

图22.gif

圖22 取消值標籤

 

以上就是我們本期為大家帶來的JMP實用指南。如果你還未體驗過JMP,歡迎下載JMP試用,跟著文章練起來吧!

Last Modified: Oct 27, 2020 10:27 PM