cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
The Discovery Summit 2025 Call for Content is open! Submit an abstract today to present at our premier analytics conference.
Choose Language Hide Translation Bar
View Original Published Thread

特定の単語(住所/病気名など)がうまく表示されていない場合、どのようにデータの前処理を行うことができますか?

タイトルの表現のように、通常、私たちは完璧ではないデータを扱います。

 

たとえば、顧客が入力した個人情報のうち、職場名、役職、部署名、住所などが正確に入力される場合はどのくらいでしょうか。 1%? 100万人のデータがあれば、万人の資料がうまく入力されていないと話すことができます。

 

例をもう少し細分化し、上記の例の中で役職に話しましょう。 最も簡単に(?簡単ですが、かなり多くの手作業が必要になるでしょう)アクセスできる方法は次のとおりです。

 

1. 100万個のデータから役職の分布を出力

2. 毎日1つずつ確認 >> 例えば「寺」が「涼しい「と間違って表記されていないのか、「誇張」が」故障「と表記されていないのかなど…

3. 全て確認した後は簡単なプログラムを組んだ。 SASをprogramの場合は次のようになります。

 

if役職= "クール" then役職_1 = "寺院";

else if 役職="故障" then 役職_1="誇張";

else if .....; /*何度繰り返すべきですか?*/

else 役職_1=役職;

 

上記プログラム実行後、職位/職位_1のデータ(分布)を確認し、異常がない場合は、職位_1を使用することになります。

 

4. しかし... 別のデータが作成/追加された場合は、上記の手順を繰り返しますする必要があります。

 

住所ならどうでしょうか? 」江南区「ではなく」カンナン区「、」東大門区「ではなく」東田文区「… など想像できない様々なタイプミスが発生することがあります。

これらの症例は、薬学の分野でも多く見られます。 eCRFを登録する際、幸いに病名をdrop-down方式で入力(事実その数多くの病気を一気にクリックしてdrop-downして、探してクリックするのも途方もない手間になるでしょう)しない限りやむを得ず誤字が生じるほかありません。

 

データ分析の70〜80%は、データ準備(前処理段階を含む)と言えます。 これらの準備段階をどれだけ迅速かつ正確に行うことができるかがあなたの分析業務の質を決定することができると敢えて申し上げます。 あなたはJMPのRecode機能の中でFixing Misspelled Wordsを通じてお話しした目的を成し遂げることができます。

 

ソウル特別市住所DBを活用したオタルザ修正事例

 

まず、DBに以下のデータがあるとします。 ご覧のとおり、最初の4つのデータは誤って入力されたデータであり、残りの4つのデータは誤字を持っていません。

undefined

JMPのRecode機能がない場合... 上記のケースでは、最初の4つのオタルザを変更するために、各オタルザごとに変更するプログラミングが必要です。 しかし、JMPを使用する場合? これを簡単にするためにソウル特別市住所DBを受け取り、JMP data tableであらかじめ作成しておきます(下記のスクリーンショット参照、添付ファイルとしても提供いたします)。

 

undefined

 

すべての準備は終わりました。 以下のように実行してみてください(簡単な動画内容も最後に一緒に添付します)。

 

1. エラー入力されたJMPデータテーブルから市軍区変数を選択する(マウスクリック)

2. JMP >> Cols >> Recode

undefined

3. RecodeウィンドウでRTM(Red Triangle Menu)をクリック >> Advanced >> Choose Closest

undefined

4. Choose Table >> ソウル特別選択

undefined

5. 市軍区選択後OK

undefined

6. 修正完了

undefined

undefined

 

[動画] JMP Recode機能を活用した誤字を修正

 

fix mispelled.mp4
Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • captions off, selected

       

      この投稿のオリジナルは 、Korean で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(Korean)やご指定の言語 でも表示されます。