Choose Language Hide Translation Bar

データ操作の質を確保する手段としての統計的方法_安井 清一(2020-JA-25MP-12)

レベル:中級

データ解析を行う前に,必要なデータの抽出,変数間の対応付けの変更・整形,変数変換・カテゴリ化・再カテゴリ化等を行って,解析用データセットを作成する必要がある。JMPには行や列の抽出,結合等のデータベース操作,変数変換等に必要な計算関数が用意されている。これらの機能を用いて解析用データセットは容易に作成できる。しかし,抽出対象の設定や変数変換などの操作命令は解析者が指示する必要があり,操作命令が複雑なったとき,意図した結果が得られていない可能性が高くなる。例えば,データ抽出における範囲設定やif文によるカテゴリ化の際,”and”,”or”ルールが複雑になればなるほど,所望の解析用データセットが得られていない可能性が高まる。そこで,解析用データセットが解析者の意図したものに一致しているかを機械的に調べる必要がある。

JMPの統計的方法によって,解析用データセットの質を確認することができる。ある変数の最大値や最小値を求める方法は最も簡単なものであるが,「1変数の分布」,「2変数の関係」も強力であり,「2変数の関係」において寄与率1がエビデンスである。
本発表では大規模データに対して解析用データセットの質を確かめた事例を報告する。

 

東京理科大学理工学部経営工学科講師。東京大学大学院化学システム工学専攻主幹研究員。研究専門分野は統計的品質管理。主に品質管理に必要な統計解析法について研究しているが,統計的品質管理の防火建築,火災現象,医療や介護への応用も行っており,JMPを用いて大規模データをモデリングして背後に潜む情報を抽出し,研究対象となる固有の分野へフィードバックしている。