在上篇文章《5個理由告訴你,為什麼JMP軟體更適合你?》中,我們簡單介紹了JMP軟體對於非專業統計人員的優勢:JMP以及其友善的功能表介面、強大的視覺化工具、豐富的資料清洗功能、系統性的統計分析方法、交互的結果展示方式等,對非統計學專業人員非常友好。
為了幫助臨床醫師學習如何運用JMP高效地開展資料分析,提高日常工作和發表論文的效率,JMP資深用戶、資深統計學家馮國雙博士及其團隊將為大家分享一系列統計及資料分析、JMP操作等實用內容,每期一個經典話題,幫助大家掌握一個新技能。值得注意的是,這些話題並非僅針對臨床醫師,對所有運用JMP軟體開展資料分析的人員都適用。
本文為此系列文章的第二期。馮博士及其團隊介紹了JMP資料分析的第一步:導入數據。文章將以Excel為例,教大家如何巧妙導入已有資料,和其他類型資料集(如SPSS資料、csv資料等)的導入方式非常類似。
三種方式輕鬆導入資料
JMP導入資料的三種常見方式有:複製和粘貼、直接打開已有資料、通過Excel中的JMP選項列表導入。下面我們就來逐一看看吧!
(1)複製和粘貼
首先,打開JMP軟體,在功能表【文檔】下方有一個類似資料集的小圖示,當游標移動到上面的時候顯示【新建資料表】,點擊此小圖示(圖1),就會看到圖2的介面。這時,回到Excel資料集中,找到你想要分析的資料集,將想要分析的資料儲存格全部選中,進行複製。
這裡有一個小技巧,如果你的變數(行)特別多,或者觀測(列)很多,用拖拉的方式進行選中有點麻煩,不妨點擊一下表格最左上角的小三角將整個頁面都選中,再到JMP裡進行複製。不要擔心,JMP可以準確識別出有資料內容的儲存格。
圖1 建立JMP空資料集
圖2 JMP空資料集
資料選中並複製完成後,再回到剛才新建立的JMP空資料表中。在這裡,可不是簡簡單單的粘貼或者ctrl+v了,因為我們在Excel裡進行複製的時候,第一列是變數名,直接粘貼的話,變數名就變成JMP資料集裡的第一列觀測了,這是不可行的。
正確的做法是,在JMP中的功能表列中點擊【編輯】下的【帶列名一起粘貼】,這時,你的Excel第一行就放到JMP的變數名位置上了。當然,你也可以通過快捷複合鍵方式,只不過不是ctrl+v,而是ctrl+shift+v。
至此,第一種導入Excel資料的方法就結束了。是不是很簡單?
(2)直接打開已有資料
這種將Excel導入JMP的方法可能是日常實踐操作中大家最常用的方法。首先,仍然是打開JMP軟體,選擇【文檔】下拉式功能表中點擊【打開(O)…】,然後在彈出的文件流覽器中定位到你的Excel資料集(圖3,如果看不到Excel類型的檔案,在檔案名右側的下拉式功能表中選擇Excel檔即可。JMP可以導入目前常用的絕大多數資料庫檔,包括文字檔、PDF檔、SAS程式檔、R代碼、MATLAB代碼、HTML檔、Shape檔、JSON資料檔案等),按一下選中,然後打開。
這裡有個需要注意的地方是,當檔案類型定位Excel檔時,檔案名稱上方會出現一列小字和一個選項,提示是否強制使用Excel的第一列作為標籤,一般我們會選擇“最佳推測”,沒錯,JMP總能正確判斷出第一列是不是變數名。當然了,也可以選擇“始終”或者“從不”,視你的資料情況而定。
圖3 JMP打開已有資料集介面
點擊“打開”後,就到了資料正式導入前的預覽階段了,如圖4。左上角是資料的預覽,你可以在這裡拖拽捲軸,看看觀測和變數的數量是否正確(只要你的Excel格式沒有問題,JMP是不會出錯的)。
預覽視窗這裡還有另一個比較實用的功能,你可以選中某個行,按一下右鍵指定資料的輸入格式,比如更改數值型變數的小數位,改成百分比形式或者更改成日期格式等,當然,這些在資料導成JMP資料表之後再操作也可以,而且,如果你在這裡操作錯了想重來,那最下面的“恢復默認設置”可以幫助你。
右上方的sheet的選擇,也就是Excel裡的工作表,如果你的Excel表裡有多個sheet,這裡要注意確認好sheet的名稱。如果你想把表裡所有的sheet都導入,這裡可以選擇全選,那麼Excel裡有多少個sheet,JMP就會導入多少個資料表。
左下方是單個工作表的設置,默認設置是行標題起始于第一列,帶標題的列數為1,資料起始於第一行第二列,如果你的資料格式特殊,那麼這裡要根據情況進行修改。其它的我們維持其預設狀態就好了。
一切就緒,現在,點擊【導入】就可以了。
圖4 導入EXCEL資料集介面
(3)通過Excel中的JMP選項列表(此為Excel獨有功能)
這種方法可能是三種方法中操作最簡單的了!正常情況下,當我們安裝完JMP軟體後,Excel裡也會安裝JMP外掛程式,打開你的Excel資料表,就能看到JMP的選項列表,就像我們在Word裡看到的EndNote外掛程式一樣(圖5)。
圖5 EXCEL中的JMP外掛程式
在生成JMP資料表之前,我們要先點擊首選項進行設置。點擊【首選項】後會彈出圖6介面,需要勾選“使用首行作為列名”,即把Excel資料的第一列作為行變數名稱,點擊確定之後再點擊首選項旁邊的【數據表】(圖7),便可直接生成JMP資料表。
圖6 EXCEL中JMP外掛程式的設置
圖7 點擊“資料表”自動從EXCEL進入JMP軟體
以上就是三種最常用、最簡便的將Excel資料導入JMP的方法。資料導入看似簡單但如果掌握了一些小技巧,就可以讓你事半功倍。根據我們多年使用JMP的經驗,下面分享兩個資料導入的注意事項。
(1)原始資料中的資料一定不要有任何非數值的符號
在JMP中,“連續型”的變數名稱前顯示為藍色三角, “名義型”的變數名稱前顯示為紅色柱狀(圖8,有序型顯示為綠色,圖中無有序型變數,因此未顯示)。導入資料後,如果軟體認定該變數為數值型的,那麼你可以將其改為任意類型,而如果軟體認定某變數是字元型的,那麼該變數只能在“有序型”和“名義型”之間更改。
圖8 不同變數類型示意圖
正常情況下,資料導入後,JMP默認所有數值均為“連續型”,凡是變數中有任意的非數值(如不小心把8.6寫成了8。6,或者某個儲存格有“+”、“#”等各種非數位的符號,等等),均認為是“名義型”。因此,如果某變數本來應該是數值(如年齡、身高等),但導入後發現默認為“名義型”,說明該變數一定存在非數值的字母或符號(如小數點寫成了逗號等),此時需要檢查原始資料,否則名義型的變數是不能當作數值來分析的。
例如,圖9中BMI在原始資料(如Excel)中都是數值,因此導入後直接預設為連續型變數,並無問題。
圖9 原始資料為數值時導入後預設為連續型變數
圖10中BMI,在原始資料集(如Excel)中,由於不小心,其中一個數值把小數點敲成了句號,這時候這個看起來像是數值的儲存格就不是數值了。因此如果直接導入到JMP,可以成功導入,但是由於BMI中有一個非數值(21。6),因此預設就是名義型變數。
圖10 數值型變數中存在非數值符號導致導入後成為名義型變數
所以一定要注意,當你從Excel等資料集中導入到JMP時,如果你發現本來應該是數值的變數,卻預設為字元型變數(紅色標記),那只有一種可能性:一定是你的原始資料中該變數至少有一個包含了非數值的字元,可能是句號、頓號等不經意的東西,也可能是你習慣把空格加個“-”、“/”等這些字元,也可能是有的軟體預設把空值填上了“#NULL”等。總之,凡是非數值的東西,一律都不行。
(2)JMP導入時對變數名限制最寬鬆
講到最後,不得不提一下JMP導入Excel資料時的另一個巨大的優勢——你不必擔心你的變數名軟體無法識別!目前絕大多數統計軟體都對變數名有限制,比如不能有括弧,不能有各種特殊字元等等。比如age(歲),這樣的變數名在其他分析軟體或程式設計軟體中根本無法直接導入,均提示不認識(無法識別)。這在作圖時尤為麻煩,要麼就得修圖,要麼就得通過標籤形式改一下變數顯示方式,多一道手續。
在JMP中則無此顧慮,無論你的變數名是純數位、純字母、特殊符號還是各種奇怪的組合,JMP都能原樣導入,這樣做出分析結果後,無需再修圖,直接就把變數改成自己文章所需的形式就行了,雖然看似一個很簡單的小改進,但對發表文章而言,其實省了很多麻煩。
資料導入作為資料分析的第一步,看似簡單卻相當重要,特別是當你的資料量龐大繁多,你就會發現這些方法特別有用。
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.