拆分資料集有煩惱？資料清理4妙招

JMP_Taiwan · Aug 12, 2021 08:16 AM

在日常分析數據的過程中，我們往往只需要整個數據集中的一部分，比如只關註一部分觀測/行（男性或女性、某個年齡段的患者或者是患有某種疾病的患者）或者一部分變量/列等等這些可以稱之為子集的數據集，而拆分原始數據的過程也同時是生成子集的過程。

那麼如何選擇符合條件的觀測值？如何一鍵拆分數據為多個子集？JMP中又有哪些簡便快捷的隨機抽樣方法？今天就帶大家一起學習資料清理的一個重要部分。

在 JMP 中生成子集

圖1 生成子集的主要操作頁面

那麼具體該如何拆分呢？

這個對話框裡的每個選項都有何意義？

又該如何利用好這些選項呢？我們先從最簡單的說起。

01如果只需要一部分變量（列）

比如在下圖的數據集裡，只需要Y和年齡兩個變量（當然實際情況不會是這樣，一般情況下，除非變量特別多，都不需要單獨把一些變量拎出來），你只需要在數據表上選中你想要的列，多列的時候記得按住Ctrl鍵，然後打開子集對話框，如圖2操作。

圖2 將部分列生成新的子集

這樣就得到了由所有觀測（行）和選定變量（列）組成的新數據集。

然而更多的時候，我們更想選擇符合特定條件的觀測（行），對變量不做要求，或者是選擇一部分觀測和一部分變量，那下面的幾種拆分行的操作就能派上用場了。

02 如果只需要一部分觀測（行）

(1) 選擇符合條件的行

這個標題既是我們的目的，又是我們實現目的的操作。比如我們想選擇數據集中年齡＞40歲的觀測，我們可以通過【行】→【行選擇】→【選擇符合條件的行】，然後編輯篩選觀測的條件，點擊確定，數據中符合條件的觀測就會被選中。

本例中選中320行觀測，如果希望將這些觀測生成為新的子集，那麼只需要點擊【表】→【子集】，不需要做更改（當然，如果你在這之前已經選中了部分變量，那麼需要選中【選定列】，而非【所有列】），點擊確定即可將選中觀測生成新的數據集，如圖3。

圖3 選擇符合條件的行

小貼士：選擇符合多重條件的觀測

很多時候我們需要選擇的觀測要滿足≥2條規則，比如我們要選擇大於40歲的女性，同樣的流程，只是在編輯規則時稍稍複雜一點，見圖4。條件之間的關係是“和(and)”時，選擇【若符合所有條件】，是“或（or）”時，選擇【若符合任意條件】。

圖4 選擇符合多重條件的觀測

(2) 隱藏不想分析的行

上一個方法介紹的是如何將想要的觀測生成新數據集，以便我們進行分析。這裡介紹如何從另一個角度得到我們想要的行，那就是隱藏掉不想要的行。

同上面講述的選擇行的方法一樣，你可以從【選擇符合條件的行】選中你將要分析的行，然後反向選擇進行【隱藏和排除】操作，見圖5（圖中已經完成了選擇符合條件的行）。

小貼士：這裡建議大家直接選擇【隱藏和排除】，因為只是被【隱藏】的觀測同樣會進入到後續的統計分析中，只是在作圖表時不出現，而只是被【排除】的觀測不會進入到後續的統計分析中，但會在作圖時出現。一般情況下，對於這些不符合篩選條件的觀測，我們既不想讓它們出現在圖表中，也不想讓它們參與後面的統計分析，所以直接選擇【隱藏和排除】就好啦。

圖5 隱藏和排除不想分析的行

另一種方法就是直接反向編輯選擇條件，直接篩選出不想納入分析的行，再點擊【隱藏和排除】。再次點擊【隱藏和排除】即可取消。

(3) 一鍵拆分成多個子集

如果出於分析需要，我們想根據某變量的不同值將數據拆分成多個數據集，例如拆成男、女兩個數據集，或根據示例數據中的Y（有序型）拆成high、medium和low三個數據集，這在JMP裡的操作有多簡單呢？

我們以後者為例，見圖6。在勾選【取子集依據】後彈出的變量名列表裡選擇你想拆分數據集的依據，本例以Y（有序型）為依據，JMP將數據集自動拆成三個子集，分別是Y（有序型）=low，Y（有序型）=medium以及Y（有序型）=high三個子集。

圖6 按照變量值拆分子集

小貼士：

以變量為依據，JMP會將變量中的每一個值單獨生成一個新的子集。舉例來說，如果你不小心將連續型的年齡變量作為拆分依據，那你的屏幕將會彈出上百個子集，每個子集的觀測具有相同的年齡，這點要小心哦。

(4) 隨機抽樣

作為拆分數據集的一個特例，隨機抽樣其實也可以看作是數據集的拆分，相當於把隨機選中的觀測拆分出來，就形成了隨機抽取的樣本。

在JMP中進行隨機抽樣有多種方式，這裡介紹的是最簡單的一種隨機抽樣方式具體更詳細的隨機抽樣方法我們會在後面文章中有專門介紹。

這種方式仍然在【表】→【子集】的對話框中，如圖7所示，紅框內的部分就是進行隨機抽樣操作的關鍵選項，兩種方式任選其一，

圖7 隨機抽樣

圖7所示，點擊「確定」後，你會發現一個新的數據集就出現了，這就是你想要的隨機抽取的樣本數據。這大概是史上最簡單的隨機抽樣方式了，有了這一工具，還用擔心什麼抽樣問題呢？

當然，這種隨機抽樣只是簡單隨機抽樣，實際中的隨機抽樣方式也有多種，如分層隨機抽樣等，這在JMP中實現起來也非常容易，我們將在之後隨機抽樣的文章中專門介紹。敬請期待！