タイトルの表現のように、通常、私たちは完璧ではないデータを扱います。
たとえば、顧客が入力した個人情報のうち、職場名、役職、部署名、住所などが正確に入力される場合はどのくらいでしょうか。 1%? 100万人のデータがあれば、万人の資料がうまく入力されていないと話すことができます。
例をもう少し細分化し、上記の例の中で役職に話しましょう。 最も簡単に(?簡単ですが、かなり多くの手作業が必要になるでしょう)アクセスできる方法は次のとおりです。
1. 100万個のデータから役職の分布を出力
2. 毎日1つずつ確認 >> 例えば「寺」が「涼しい「と間違って表記されていないのか、「誇張」が」故障「と表記されていないのかなど…
3. 全て確認した後は簡単なプログラムを組んだ。 SASをprogramの場合は次のようになります。
if役職= "クール" then役職_1 = "寺院";
else if 役職="故障" then 役職_1="誇張";
else if .....; /*何度繰り返すべきですか?*/
else 役職_1=役職;
上記プログラム実行後、職位/職位_1のデータ(分布)を確認し、異常がない場合は、職位_1を使用することになります。
4. しかし... 別のデータが作成/追加された場合は、上記の手順を繰り返しますする必要があります。
住所ならどうでしょうか? 」江南区「ではなく」カンナン区「、」東大門区「ではなく」東田文区「… など想像できない様々なタイプミスが発生することがあります。
これらの症例は、薬学の分野でも多く見られます。 eCRFを登録する際、幸いに病名をdrop-down方式で入力(事実その数多くの病気を一気にクリックしてdrop-downして、探してクリックするのも途方もない手間になるでしょう)しない限りやむを得ず誤字が生じるほかありません。
データ分析の70〜80%は、データ準備(前処理段階を含む)と言えます。 これらの準備段階をどれだけ迅速かつ正確に行うことができるかがあなたの分析業務の質を決定することができると敢えて申し上げます。 あなたはJMPのRecode機能の中でFixing Misspelled Wordsを通じてお話しした目的を成し遂げることができます。
ソウル特別市住所DBを活用したオタルザ修正事例
まず、DBに以下のデータがあるとします。 ご覧のとおり、最初の4つのデータは誤って入力されたデータであり、残りの4つのデータは誤字を持っていません。

JMPのRecode機能がない場合... 上記のケースでは、最初の4つのオタルザを変更するために、各オタルザごとに変更するプログラミングが必要です。 しかし、JMPを使用する場合? これを簡単にするためにソウル特別市住所DBを受け取り、JMP data tableであらかじめ作成しておきます(下記のスクリーンショット参照、添付ファイルとしても提供いたします)。

すべての準備は終わりました。 以下のように実行してみてください(簡単な動画内容も最後に一緒に添付します)。
1. エラー入力されたJMPデータテーブルから市軍区変数を選択する(マウスクリック)
2. JMP >> Cols >> Recode

3. RecodeウィンドウでRTM(Red Triangle Menu)をクリック >> Advanced >> Choose Closest

4. Choose Table >> ソウル特別選択

5. 市軍区選択後OK

6. 修正完了


[動画] JMP Recode機能を活用した誤字を修正
Video Player is loading.
Current Time 0:00
Duration 0:00
Remaining Time -0:00
Beginning of dialog window. Escape will cancel and close the window.
End of dialog window.
This is a modal window. This modal can be closed by pressing the Escape key or activating the close button.
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.