Il rimodellamento dei dati è una fase inestimabile nel processo di preparazione di una tabella di dati per ulteriori analisi e modellazione. Per la maggior parte delle analisi, organizziamo i dati in un formato tabulare bidimensionale in cui ogni riga è un'osservazione o un caso individuale e ogni colonna contiene una misurazione o un attributo relativo a quell'individuo. Ci sono momenti, tuttavia, in cui questa non è l'unica opzione o addirittura l'opzione preferita.
Considera un semplice studio pilota per un esperimento controllato. L'esperimento indaga l'effetto di un'attività formativa volta ad aumentare il punteggio di un soggetto nell'esecuzione di un compito. Supponiamo che l'esperimento sia progettato in modo che ogni soggetto nello studio completi un pre e post test e i punteggi vengano registrati. Ci sono otto soggetti pilota identificati come individui da A a H, quattro dei quali sono assegnati in modo casuale a utilizzare l'attività. Gli altri quattro sono il gruppo di controllo.
Dopo la raccolta dei dati, avremo due punteggi per ogni persona e sapremo quali individui erano in ciascun gruppo. Quali sono le nostre scelte per inserire i dati in una singola matrice o tabella di dati?
Formato largo contro formato lungo
Se seguiamo la convenzione di allocare una riga per soggetto sperimentale, la nostra tabella dati potrebbe apparire così:
Tabella 1: Ampia gamma di dati sperimentali artificiali
Soggetto
|
Gruppo
|
Pre
|
Inviare
|
UN
|
Esp
|
51
|
48
|
B
|
Ctrl
|
53
|
42
|
C
|
Ctrl
|
48
|
56
|
D
|
Esp
|
44
|
49
|
E
|
Esp
|
47
|
59
|
F
|
Ctrl
|
42
|
43
|
G
|
Ctrl
|
52
|
39
|
H
|
Esp
|
48
|
49
|
Questo formato viene spesso definito "ampio": tutti gli attributi e le misurazioni di un determinato individuo sono distribuiti su più colonne. In questo esempio, abbiamo una matrice di otto righe e quattro colonne con ridondanza minima.
Un'alternativa al formato largo consiste nel riorganizzare gli stessi dati in una disposizione "stretta" o "alta". Questo introduce una certa ridondanza nel file Soggetto , Gruppo , E Test colonne in cambio del trattamento del test (pre o post) come una variabile categoriale e del trattamento di tutti i punteggi come un'unica variabile numerica.
Tabella 2: Disposizione lunga degli stessi dati
Soggetto
|
Gruppo
|
Test
|
Punto
|
UN
|
Esp
|
Pre
|
51
|
UN
|
Esp
|
Inviare
|
48
|
B
|
Ctrl
|
Pre
|
53
|
B
|
Ctrl
|
Inviare
|
42
|
C
|
Ctrl
|
Pre
|
48
|
C
|
Ctrl
|
Inviare
|
56
|
D
|
Esp
|
Pre
|
44
|
D
|
Esp
|
Inviare
|
49
|
E
|
Esp
|
Pre
|
47
|
E
|
Esp
|
Inviare
|
59
|
F
|
Ctrl
|
Pre
|
42
|
F
|
Ctrl
|
Inviare
|
43
|
G
|
Ctrl
|
Pre
|
52
|
G
|
Ctrl
|
Inviare
|
39
|
H
|
Esp
|
Pre
|
48
|
H
|
Esp
|
Inviare
|
49
|
In definitiva, la decisione sulla forma preferita di una tabella di dati dovrebbe essere guidata dalla logica dei tuoi obiettivi analitici. Nel progettare un esperimento o una raccolta di dati da zero, dovresti considerare gli obiettivi analitici fin dall'inizio. Spesso, tuttavia, il layout di una tabella dati è stato scelto in precedenza da altri e il compito dell'analista è rendere i dati in un formato adatto allo scopo attuale.
Motivi per formati larghi e lunghi
Forse il motivo più comune per organizzare i dati in un formato ampio è che stiamo lavorando con dati di misure longitudinali o ripetute. Alcune piattaforme di analisi potrebbero richiedere che ogni misurazione ripetuta sia trattata come una variabile. (Vedi, ad esempio, Grace-Martin 2015 , o SAS Institute 2016a.) Per alcune procedure, JMP può modellare misure ripetute in formato largo o lungo, come discusso in SAS Institute 2016b. Poiché è probabile che le misure ripetute dello stesso soggetto o unità di osservazione siano correlate tra loro, è meglio trattarle come variabili multiple piuttosto che come una singola variabile.
Quando l'obiettivo analitico implica la visualizzazione esplicita del tempo come fattore o predittore, come nella modellazione o visualizzazione di serie temporali, allora un formato lungo potrebbe essere più adatto. Ad esempio, una tabella di dati deve essere lunga per utilizzare la dimensione Time su JMP Trama a bolle piattaforma.
Le due sezioni successive illustrano il metodo JMP per convertire il formato largo in formato stretto e viceversa. L'illustrazione iniziale utilizza questo set di dati artificiali solo per presentare semplicemente il metodo prima di passare a illustrazioni più complesse.
Stacking di dati ampi
In questo esempio introduttivo, lo stato iniziale dei dati è ampio con una riga per soggetto e le due misurazioni occupano colonne separate. In altre parole, le due misurazioni vengono trattate come due variabili. La Figura 1 mostra lo stato iniziale della tabella dati. Poiché la progettazione di questo studio ipotetico utilizza coppie abbinate, potremmo passare direttamente all'analisi con la tabella dei dati.
Per altri scopi analitici, potrebbe essere utile r e modellare il tavolo al formato stretto. Noi usiamo il Pila comando nel Tabelle menù.
Figure 1: Example Data Table in Wide Format
- Selezionare Tabelle > Pila per aprire la finestra di dialogo mostrata in Figura 2.
- L'obiettivo è creare una nuova colonna che rappresenti l'amministrazione del test come una variabile categoriale (pre e post) e impila tutti i punteggi in un'unica colonna. Per fare ciò, selezioniamo le due colonne correnti ( Pre E Inviare ) e fare clic Impila colonne .
Per impostazione predefinita, JMP assegna un nome alla nuova colonna quantitativa Dati e l'identificatore categoriale (ovvero i nomi delle colonne originali) as Etichetta . Probabilmente è meglio selezionare titoli variabili più significativi.
- Nella parte inferiore destra della finestra di dialogo, specificare un titolo di colonna descrittivo per i punteggi e per la fase sperimentale.
- Completare la finestra di dialogo come mostrato nella Figura 2 e fare clic OK .
Figure 2: The Stack Dialog
Si apre una nuova tabella dati con le 16 misurazioni rappresentate in formato stretto (lungo). La tua tabella di dati dovrebbe ora apparire come Figura 3.
Figure 3: The Experimental Data in Narrow, or Stacked, Format
Disimpilamento di dati ristretti
Supponiamo che i dati siano stati inizialmente registrati nel formato stretto (simile alla Tabella 2 e alla Figura 3), ma vogliamo riorganizzarli nel formato largo. Per continuare con l'esempio e per invertire il processo, useremo il file Diviso piattaforma nel Tabelle menù. La finestra di dialogo viene visualizzata nella Figura 4. Qui dobbiamo specificare la colonna che identifica la base per il disimpilamento (in questo caso, il Test colonna) così come la colonna contenente i dati che popoleranno le nuove colonne multiple.
Per impostazione predefinita, JMP eliminerà tutte le colonne tranne quelle scelte nella specifica di suddivisione. Per questo esempio, avrà senso conservare le informazioni sul soggetto e sul gruppo sperimentale.
- Quindi fai clic sul pulsante accanto a Tieni tutto Sotto Residuo colonne come mostrato in Figura 4. La finestra di dialogo fornisce anche l'opzione per rinominare la nuova tabella ampia.
- Completare la finestra di dialogo come mostrato e fare clic Creare .
Figure 4: Split Table dialog I risultati di questo comando vengono visualizzati nella Figura 5. Questo ci porta quasi al punto di partenza, con l'unica eccezione che JMP alfabetizza l'ordine delle colonne divise. Quindi, contrariamente alla Figura 1, i dati post-test sono ora la terza colonna invece che la quarta. Dovresti notare questo nell'usare il file Coppie abbinate piattaforma per un campione di coppia T -test o intervallo di confidenza.Dal momento che JMP 13, il Coppie abbinate la piattaforma è tra le Analizza > Modellazione speciale opzioni. Gli utenti veterani di JMP lo hanno già trovato nel file Analizzare menù.
Figure 5: The Experimental Data after Split to Wide Format
Il contenuto di questo post è un estratto del capitolo 7 del mio libro, Preparazione dei dati per l'analisi con JMP , dove troverai altre tecniche per lavorare con le tabelle e molti altri suggerimenti per la pulizia dei dati.
Riferimenti
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.