關於統計分析軟體的比較已經有不少文章都介紹過,但大都是針對專業統計人員而言。在醫學中,絕大多數使用統計軟體的人員其實更多的是非統計學專業的臨床醫師。由於各種原因,他們不得不自學使用統計軟體。根據作者十多年的醫學統計分析經驗,深知臨床醫師自行使用統計軟體之困苦。
為了幫助更多的臨床醫師從這種困苦中解脫出來,幫助臨床醫師學習如何運用JMP高效地開展資料分析,提高日常工作和發表論文的效率,即日起,JMP資深用戶、資深統計學家馮國雙博士及其團隊將在JMP資料分析平臺為大家分享一系列統計及資料分析、JMP實戰操作等實用內容,每期一個經典話題,幫助大家掌握一個新技能。值得注意的是,這些話題並非僅針對臨床醫師,對所有運用JMP軟體開展資料分析的人員都適用。
本文為此系列文章的第一期,馮博士及其團隊分享了他們使用JMP軟體的歷程和心得經驗,並舉例說明了為什麼JMP軟體是更適合臨床醫師的統計學軟體。為方便閱讀,文章以第一人稱描述。
那麼,為什麼我們認為JMP軟體更適合臨床醫師來使用呢?理由其實有很多,下面給出幾個主要的:
01 全功能表式操作
這一點大概是臨床醫師最關心的。因為統計學並不是臨床醫師的主業,沒必要花大量時間去學習統計軟體,而功能表式操作相比程式設計而言,肯定更符合臨床醫師的需求。
可以直觀感受一下JMP的功能表(圖1)。
圖1 JMP分析菜單
從分析功能表可以看出JMP在統計分類中的一些特色。它不是簡單按具體的方法歸類,而是根據統計方法的結構進行大的歸類。
比如,要做兩組均值的比較,從統計學的角度來看,所謂的“組間比較”,其實就是單因子分析,組別是引數,欲比較的指標(結局指標)是因變數,統計學中都是將引數作為x,因變數作為y。所以,組間比較,也就是分析組別因子(引數x)對結局指標(因變數y)的影響。
因此,在JMP中,所有的組間比較,或者更廣泛一些,所有的單因子分析,都包含在“以X擬合Y”菜單中。
這種方式有利於理解統計學的思維。一開始可能有的臨床醫師不一定習慣JMP的這種方式,然而一旦使用後就會發現,其實這種方式更為方便,因為它是按統計學方法分了大類,更有利於體會統計學方法之間的關聯。
另外,JMP的功能表可以隨時在中英文之間切換,對於要發表英文文章的科研工作者,可以先用中文做出分析結果,然後直接在功能表(文檔→首選項)中把語言改為英文,即時生效,無需重啟。這一點很人性化。
02 更方便的分析過程
以往絕大多數功能表類的統計軟體,想使用某統計方法時,都是點開相應功能表,然後有各種選項等著你,都設置完畢後,點擊確定,直接進入結果部分。
例如,假定我們有圖2所示的一份資料(部分顯示),現在想做一下飲酒和不飲酒的人群他們的軀體健康評分有無統計學差異。
圖2 示例數據
如果用某軟體做這兩組比較,分析功能表如圖3所示,你需要把各種東西都設置好,然後確定,進入結果介面。
圖3 某統計軟體的分析介面
JMP則不同,在分析功能表中非常簡單,沒有任何選項,就是拖拽需要的變數到相應位置(圖4)。無需做多餘的設置,JMP會自動根據x的類型(分類或連續,如圖4中,紅色變數為分類,藍色變數為連續)和y的類型確定該進入到哪些方法的結果中。
圖4中,由於x是分類變數,y是連續變數,所以軟體自動選擇“單因數”(見圖4左下角,相當於變異數分析)的方法。如果x和y都是分類,圖4左下角就會變成“列聯”(相當於卡方檢驗)。
圖4 JMP的分析介面
可能有人會問,沒有選項,那如果要做一些改變怎麼辦?比如,雖然y是連續變數,但如果不滿足正態分佈,需要做無母數檢驗怎麼辦呢?這就是JMP的特色了。JMP分析介面非常簡潔,但是結果介面卻非常豐富,所有的選項都在結果介面中(圖5)。
當我們在圖4介面中點擊確定,就進入了JMP結果介面(圖5)。結果介面預設很簡單,但是選項很豐富。
圖5 JMP中“以X擬合Y”功能表的分析結果介面
從圖5可以看到,如果你想顯示其它結果,隨時可通過紅色下拉式功能表(紅三角)勾選自己所需的方法,如果不需要了,也可以隨時把它們勾選掉。這種方式讓資料分析和探索更加方便。在其它軟體中,如果想重新做一次,那就得返回去重新來一遍操作。但在JMP中不用,你想換個方法(比如你做了t檢驗,突然發現資料可能不符合正態分佈,又想做無母數檢驗),無需返回,直接在結果中勾選其它方法即可,非常方便。
03 半智慧化的操作
對於所有臨床科研工作者來說,可能都有一個夢想,那就是:如果能把資料登錄軟體,然後一切都交給軟體該多好。
雖然說沒有全智慧化的統計軟體,半智慧還是能做到的。也就是說,統計軟體雖然不能完全根據資料選擇方法,但在某些特定的場合,還是可以幫你做出選擇的。比如,如果你要做多組均值比較,肯定不能直接用t檢驗;如果你要做一個回歸分析,且結局是分類資料,絕大多數情況下,都會先考慮Logistic回歸等等。JMP就是在這一點幫助大家做到了半智慧化。
其實從前面介紹的圖4中,相信大家已經有所感受了,在JMP的“以X擬合Y”這一功能表中,其實已經自動基於x和y的類型做出了基本選擇。
下面進一步演示一下JMP在半智慧化中的表現。
我們再次以比較飲酒和不飲酒兩組人群的軀體健康評分來說明。先回顧一下圖5中的結果,由於是兩組比較,通常可考慮t檢驗,我們注意看到,結果中是有t檢驗的(圖6中“合併的t”)。
圖6 JMP中兩組比較的分析結果介面
現在我們換一個分組變數,比較不同心功能分級之間的軀體健康評分情況。心功能分級是多分類,首先考慮變異數分析。我們同樣以圖4中的操作方式(只是把圖4中的飲酒換成心功能分級),得到圖7的分析結果介面。
這時候你會驚奇地發現,圖7中“合併的t”不見了。
圖7 JMP中多組比較的分析結果介面
為什麼呢?因為多組比較不能用t檢驗,JMP自動把不應該用的方法給你去掉了。這一點非常重要,尤其對非統計學專業人員。
再比如,假設我們以軀體健康評分為因變數,分析其它幾個指標對軀體健康評分的影響,這一般可以考慮線性回歸。
我們通過“擬合模型”功能表,將因變數和引數拖入相應位置(圖8)。然後注意看一下,JMP默認就選擇了“標準最小二乘法”(相當於線性回歸),而自動把兩個Logistic回歸方法變灰了,讓你沒法選擇。
圖8 JMP中“擬合模型”功能表的分析介面
這又為什麼呢?因為結局(軀體健康評分)是連續變數,連續變數的回歸,不能使用Logistic回歸,最常用的是線性回歸。對於這種最基本的錯誤,JMP直接就幫你避免了。
通過上述兩個例子,大家可以看到JMP軟體處處體現了對非統計學專業人群的愛意,細節之處見專業,真可謂是用心良苦了。
04 全互動式的操作
大多數統計軟體,都是從資料到結果,基於資料做出結果後,一般都難以從結果再到資料。
而JMP則不同,結果出來,僅僅是真正分析的開始,不僅結果中可以根據需求任意添加或刪除相應結果(如圖5),而且結果始終跟資料是關聯的。
如圖9展示了age的分佈情況,給出了統計描述指標,而且給出了圖形。關鍵的是,這些圖形,都是可以用滑鼠選定的,而且當你選定任一變數的圖形時,其它變數的相應觀測也被選中。
比如,圖9中,有兩個變數,age和年齡分層,當我們選中了age這個變數的相應資料,你會發現,“年齡分層”這個變數也被選中了,而且“年齡分層”的頻數列表中相應的也被選中。如果到資料集中看看,你會發現,在資料集中這些資料也被選中了。也就是說,JMP軟體不是簡單的“資料→結果”,而是資料和結果是互動式的,可以“資料→結果”,也可以“結果→資料”,資料和結果之間一直是關聯的。
圖9 JMP中資料與結果的交互示例
可能有人覺得,這種關聯有什麼用呢?在實際工作中非常有用。比如,如果想單獨把“飲酒”人群選出來,甚至都無需用篩選這些功能,直接在圖中把“飲酒”選中,然後資料集中就同步選中了(圖10),然後通過“子集”功能就把飲酒人群的資料選出來即可。
圖10 JMP中利用圖形篩選資料
再比如,如果我們發現散點圖中有異常點,想快速定位到這個資料,就可以直接在圖中選中該點,然後到資料集中就發現這個點被標出來了,可以直接用定位功能定位到這一觀測,省去了自己去核對這個資料的時間。
05 其它人性化的功能
JMP其實有很多人性化的功能,本文也難以說完,在後續的系列文章中都會一一介紹。最後再提幾個比較實用且能節省時間的功能。
比如,JMP資料表中,變數名和變數的值命名不受任何限制。不管是中文英文,特殊符號等等都沒有問題。目前絕大多數統計軟體都做不到這一點,往往對變數名有一定限制,這導致做出結果後還得修圖,太麻煩。JMP則直接根據變數名做出來結果就行,無需修改。
再比如,JMP的作圖功能是互動式的,跟以往其它統計軟體都不同,不是靠指定變數來作圖,而且完全通過拖拽即可實現(圖11),而且多種圖形之間可以任意切換,只需滑鼠點擊一下即可(圖11中上方的圖形,滑鼠一點即時切換)。
圖11 JMP作圖介面展示
當然,JMP的優點並不只此,以上只是基於我們在實際工作中所使用到的部分總結出來的一些心得體會。在後續的系列文章中,我們也會通過案例和說明來逐一介紹JMP在資料整理與清洗、作圖、統計分析中的特點,相信這些會為大家提供更快捷、更高效的分析方式。
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.