在資料分析的過程中,有時候我們經常需要將多欄指標合併為一欄,比如將一個 100 人 5 個觀察時間點生成的 100 列 5 欄數據表,轉換成 500 列 1 欄的數據表,從而滿足作圖、分析的進一步需求。那麼,在 JMP 中如何快速實現呢?今天這篇文章我們將介紹:如何在 JMP 將多欄資料合併處理的技巧。
在分析資料時,我們經常會遇到這種情形:一個人同時有多個主要分析指標(如隨訪資料中的多個時間點資料),在匯入資料時,通常是將其分別匯入在不同欄(如 5 個時間點資料,分 5 欄匯入)。這種匯入雖然看起來直觀,但在分析時,有時卻需要將這幾欄指標放置在同 1 欄中。
如果僅僅是 5 欄還好,逐一複製也花費不了多少時間。但如果是 20 欄、甚至更多的欄位呢?不僅費時費力,複製貼上也容易發生錯誤。今天我們便要來認識資料清理中的「堆疊」該如何實現快速將多欄合併為 1 欄,同時新增一個標識變量,以顯示不同指標。
下面我們就用 JMP 自帶的示範資料,來示範一下如何實現資料堆疊,您可以在最上方的選單「Help」--> 「Sample Data Library」中找到示範資料,如下圖 1
圖1 :JMP幫助文檔及示範數據
這次我們作為講解示例的是樣本數據庫中的 Blood Pressure.jmp 數據文件。數據的整體情況如圖 2 所示。
圖2 示範資料
20 個被測者分為四組,變量 BP 8M 的含義是周一的八點血壓測量值。所以該數據記錄的是每個被測者分別於週一、週三和周五每日三個不同時間點的血壓測量值。沒錯,這是標準的重複測量數據,臨床上有很多醫生收集的數據都是這樣的格式。
首先,想像一下這樣的情境,得到數據之後,你想比較一下四組被測者的血壓測量值是否有差異,這時,血壓測量值變成了因變量 y,測量時間點和分組變成了自變量 x1 和 x2,目前的數據格式,顯然不符合我們接下來分析的要求。
我們需要將 9 個時間點的欄進列堆疊,形成兩欄,一欄時間點,另一欄測量值,且一一對應。在 JMP 裡該怎樣操作呢?只需一步!
圖3 - 在選單「Tables」中選擇「Stack」,會出現堆疊的對話框
操作過程如圖4:
圖4 - 欄堆疊操作過程演示
於是,新生成的資料表,如圖 5 所示:
圖5 - 欄堆疊後新生成數據表
20 個被測者每人測了 9 個時間點的血壓值,所以新生成的數據表有 180 列觀測,標籤和數據分別為堆疊前的時間點和血壓值。這樣,我們就可以進列後續的分析了。
出於不同的分析目的,你可能在想:操作與之前相同。
不過,不同的是分析目的的需要
圖6 - 多序欄堆疊
因為這裡是連續的三欄變量堆疊為一欄,共堆疊成三欄,所以我們將序欄數寫為 3,並勾選「連續」,點擊確定即可,如下圖 7:
圖7
生成的資料表,如圖 8 所示。每個被測者的每日數據為一欄:
圖8
日常資料整理與匯總中,除了存在將多欄堆疊為一欄的情況,還有將一欄拆分為多欄的情況。我們將在之後的文章中為大家介紹「堆疊」的反向操作--拆分,即 拆分究竟有何意義?又有哪些注意事項?敬請期待後續的 #資料分析10技巧 專欄!
推薦閱讀:
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.