cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
資料清理中的「堆疊」:多行資料合併處理的神器

在資料分析的過程中,有時候我們經常需要將多欄指標合併為一欄,比如將一個 100 人 5 個觀察時間點生成的 100 列 5 欄數據表,轉換成 500 列 1 欄的數據表,從而滿足作圖、分析的進一步需求。那麼,在 JMP 中如何快速實現呢?今天這篇文章我們將介紹:如何在 JMP 將多欄資料合併處理的技巧。

 

在分析資料時,我們經常會遇到這種情形:一個人同時有多個主要分析指標(如隨訪資料中的多個時間點資料),在匯入資料時,通常是將其分別匯入在不同欄(如 5 個時間點資料,分 5 欄匯入)。這種匯入雖然看起來直觀,但在分析時,有時卻需要將這幾欄指標放置在同 1 欄中。

如果僅僅是 5 欄還好,逐一複製也花費不了多少時間。但如果是 20 欄、甚至更多的欄位呢?不僅費時費力,複製貼上也容易發生錯誤。今天我們便要來認識資料清理中的「堆疊」該如何實現快速將多欄合併為 1 欄,同時新增一個標識變量,以顯示不同指標。

 

下面我們就用 JMP 自帶的示範資料,來示範一下如何實現資料堆疊,您可以在最上方的選單「Help」-->  Sample Data Library」中找到示範資料,如下圖 1

 

Michelle_Wu_0-1629351843400.png

圖1 :JMP幫助文檔及示範數據

 

這次我們作為講解示例的是樣本數據庫中的 Blood Pressure.jmp 數據文件。數據的整體情況如圖 2 所示。

Michelle_Wu_1-1629351843410.png

圖2 示範資料

 

20 個被測者分為四組,變量 BP 8M 的含義是周一的八點血壓測量值。所以該數據記錄的是每個被測者分別於週一、週三和周五每日三個不同時間點的血壓測量值。沒錯,這是標準的重複測量數據,臨床上有很多醫生收集的數據都是這樣的格式。

 

第一步:將多欄指標堆疊成一欄指標

首先,想像一下這樣的情境,得到數據之後,你想比較一下四組被測者的血壓測量值是否有差異,這時,血壓測量值變成了因變量 y,測量時間點和分組變成了自變量 x1 和 x2,目前的數據格式,顯然不符合我們接下來分析的要求。


我們需要將 9 個時間點的欄進列堆疊,形成兩欄,一欄時間點,另一欄測量值,且一一對應。在 JMP 裡該怎樣操作呢?只需一步!

Michelle_Wu_2-1629351843415.png

圖3 - 在選單「Tables」中選擇「Stack」,會出現堆疊的對話框

  • Stack columns – 選擇你想要堆疊的欄位
  • Output table name – 輸入堆疊後的table 名稱
  • Stacked Data Column / Source Label Column - 由於我們堆疊完成後會形成兩個新變量,一個是時間點(源標籤欄),一個是血壓測量值(堆疊數據欄),我們可以分別為其設定變量名,如果不做修改,則新變量會採用系統默認的【Data】和【Label】作為變量名;

 

操作過程如圖4:

 

Michelle_Wu_3-1629351843419.png

圖4 - 欄堆疊操作過程演示

 

於是,新生成的資料表,如圖 5 所示:

Michelle_Wu_4-1629351843423.png

圖5 - 欄堆疊後新生成數據表

 

20 個被測者每人測了 9 個時間點的血壓值,所以新生成的數據表有 180 列觀測,標籤和數據分別為堆疊前的時間點和血壓值。這樣,我們就可以進列後續的分析了。

 

第二步:將多欄指標堆疊為多欄指標

出於不同的分析目的,你可能在想:操作與之前相同。

不過,不同的是分析目的的需要

 

Michelle_Wu_5-1629351843427.png

圖6 - 多序欄堆疊

 

因為這裡是連續的三欄變量堆疊為一欄,共堆疊成三欄,所以我們將序欄數寫為 3,並勾選「連續」,點擊確定即可,如下圖 7:

 

 

ezgif-2-9e1d56c5c1ee.gif

圖7

 

生成的資料表,如圖 8 所示。每個被測者的每日數據為一欄:

 

Michelle_Wu_7-1629351843551.png

圖8

 

日常資料整理與匯總中,除了存在將多欄堆疊為一欄的情況,還有將一欄拆分為多欄的情況。我們將在之後的文章中為大家介紹「堆疊」的反向操作--拆分,即 拆分究竟有何意義?又有哪些注意事項?敬請期待後續的 #資料分析10技巧 專欄!

 

原文連結:數據清洗之“堆疊”—多列數據合併處理的神器

推薦閱讀:

 

註:本文為此系列文章的第五期。點擊 #資料分析10技巧,即可回顧其他文章。

Last Modified: Dec 19, 2023 2:50 PM