在日常分析數據的過程中,我們往往只需要整個數據集中的一部分,比如只關註一部分觀測/行(男性或女性、某個年齡段的患者或者是患有某種疾病的患者)或者一部分變量/列等等這些可以稱之為子集的數據集,而拆分原始數據的過程也同時是生成子集的過程。
那麼 如何選擇符合條件的觀測值?如何一鍵拆分數據為多個子集?JMP中又有哪些簡便快捷的隨機抽樣方法?今天就帶大家一起學習資料清理的一個重要部分。
那麼具體該如何拆分呢?
這個對話框裡的每個選項都有何意義?
又該如何利用好這些選項呢?我們先從最簡單的說起。
比如在下圖的數據集裡,只需要Y和年齡兩個變量(當然實際情況不會是這樣,一般情況下,除非變量特別多,都不需要單獨把一些變量拎出來),你只需要在數據表上選中你想要的列,多列的時候記得按住Ctrl鍵,然後打開子集對話框,如圖2操作。
這樣就得到了由所有觀測(行)和選定變量(列)組成的新數據集。
然而更多的時候,我們更想選擇符合特定條件的觀測(行),對變量不做要求,或者是選擇一部分觀測和一部分變量,那下面的幾種拆分行的操作就能派上用場了。
這個標題既是我們的目的,又是我們實現目的的操作。比如我們想選擇數據集中年齡>40歲的觀測,我們可以通過【行】→【行選擇】→【選擇符合條件的行】,然後編輯篩選觀測的條件,點擊確定,數據中符合條件的觀測就會被選中。
本例中選中320行觀測,如果希望將這些觀測生成為新的子集,那麼只需要點擊【表】→【子集】,不需要做更改(當然,如果你在這之前已經選中了部分變量,那麼需要選中【選定列】,而非【所有列】),點擊確定即可將選中觀測生成新的數據集,如圖3。
小貼士:選擇符合多重條件的觀測
很多時候我們需要選擇的觀測要滿足≥2條規則,比如我們要選擇大於40歲的女性,同樣的流程,只是在編輯規則時稍稍複雜一點,見圖4。條件之間的關係是“和(and)”時,選擇【若符合所有條件】,是“或(or)”時,選擇【若符合任意條件】。
圖4 選擇符合多重條件的觀測
上一個方法介紹的是如何將想要的觀測生成新數據集,以便我們進行分析。這裡介紹如何從另一個角度得到我們想要的行,那就是隱藏掉不想要的行。
同上面講述的選擇行的方法一樣,你可以從【選擇符合條件的行】選中你將要分析的行,然後反向選擇進行【隱藏和排除】操作,見圖5(圖中已經完成了選擇符合條件的行)。
小貼士:這裡建議大家直接選擇【隱藏和排除】,因為只是被【隱藏】的觀測同樣會進入到後續的統計分析中,只是在作圖表時不出現,而只是被【排除】的觀測不會進入到後續的統計分析中,但會在作圖時出現。一般情況下,對於這些不符合篩選條件的觀測,我們既不想讓它們出現在圖表中,也不想讓它們參與後面的統計分析,所以直接選擇【隱藏和排除】就好啦。
另一種方法就是直接反向編輯選擇條件,直接篩選出不想納入分析的行,再點擊【隱藏和排除】。再次點擊【隱藏和排除】即可取消。
如果出於分析需要,我們想根據某變量的不同值將數據拆分成多個數據集,例如拆成男、女兩個數據集,或根據示例數據中的Y(有序型)拆成high、medium和low三個數據集,這在JMP裡的操作有多簡單呢?
我們以後者為例,見圖6。在勾選【取子集依據】後彈出的變量名列表裡選擇你想拆分數據集的依據,本例以Y(有序型)為依據,JMP將數據集自動拆成三個子集,分別是Y(有序型)=low,Y(有序型)=medium以及Y(有序型)=high三個子集。
以變量為依據,JMP會將變量中的每一個值單獨生成一個新的子集。舉例來說,如果你不小心將連續型的年齡變量作為拆分依據,那你的屏幕將會彈出上百個子集,每個子集的觀測具有相同的年齡,這點要小心哦。
作為拆分數據集的一個特例,隨機抽樣其實也可以看作是數據集的拆分,相當於把隨機選中的觀測拆分出來,就形成了隨機抽取的樣本。
在JMP中進行隨機抽樣有多種方式,這裡介紹的是最簡單的一種隨機抽樣方式 具體更詳細的隨機抽樣方法我們會在後面文章中有專門介紹。
這種方式仍然在【表】→【子集】的對話框中,如圖7所示,紅框內的部分就是進行隨機抽樣操作的關鍵選項,兩種方式任選其一,
圖7 隨機抽樣
圖7所示,點擊「確定」後,你會發現一個新的數據集就出現了,這就是你想要的隨機抽取的樣本數據。這大概是史上最簡單的隨機抽樣方式了,有了這一工具,還用擔心什麼抽樣問題呢?
當然,這種隨機抽樣只是簡單隨機抽樣,實際中的隨機抽樣方式也有多種,如分層隨機抽樣等,這在JMP中實現起來也非常容易,我們將在之後隨機抽樣的文章中專門介紹。敬請期待!
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.