JMPではデータテーブルの左上にあるヒストグラムのアイコンをクリックすると、その場で各列についてのヒストグラムを表示できるのが大きな特徴です。この機能は2つ前のバージョンである「JMP 15」で追加され、多くのお客様から支持を受けています。
下図は、JMPのサンプルデータ「Diabetes.jmp」に対してデータテーブルのヒストグラムを表示したものです。ここで列「Y 2値」のヒストグラムにある ”High”の棒をクリックすると、他の列の該当部分が強調表示され、対応するデータ行が選択されます。
この機能を使うだけでもある程度データを探索できてしまうのですが、今回はデータテーブルのヒストグラムを活用するうえで有用なTipsを3つ紹介します。
その1:「一変量の分布」を起動し、より詳細なグラフ/統計量を表示
データテーブルでヒストグラムを表示させた後、ヒストグラム以外の部分を右クリックするとオプションメニューが表示されます。
データテーブルに表示されるヒストグラムは簡略的なものです。より詳細な分布や統計量が必要な場合は、右クリックメニューから [「一変量の分布」で開く] を選択します。
あまり知られていないですが、このオプションは複数の列を選択した状態で実行すると、選択した複数の列についてレポートが表示されます。上記の例は、3つの列「Y 順序尺度」、「年齢」、「性別」の3つを同時に選択して一変量の分布のヒストグラムを表示させた状態です。
その2:ヒストグラムから2値のカテゴリカル変数を作成
データテーブルのヒストグラムを利用して、選択している行とそうでない行で異なる値をもつ新しい列を作成できます。
例えば、女性(性別 = 1)で、Y2値が "High" (女性で糖尿病のリスクが高い患者)のデータで絞り込んで分析してみたいとします。このとき、対象データについては"1"、そうでないデータについては"0" の値をとるフラグ変数を作成しておくと便利です。
- データテーブルのヒストグラムで 「Y 2値」が"High" の棒を選択し、Ctrl キーとShiftキーを同時に押しながら、性別 = "2" の棒を選択します。(※CtrlキーとShiftキーを押しながらヒストグラムを選択すると、そのカテゴリの選択を解除することができます。)
- 右クリックメニューから [選択されている行の情報を保存] を選択します。
- 表示されるダイアログで、列名、選択されている行の値、選択されていない行の値を指定します。
すると、データテーブルの最後に女性で糖尿病のリスクが高いデータ(行)には"1"、それ以外のデータは"0"の値をとる新しい列「Female, High」が追加されます。
その3:ヒストグラムに色をつける
データテーブルのヒストグラムには、尺度(連続、名義、順序)別に色をつけることができます。ヒストグラムの色で尺度を識別することができ便利です。
ヒストグラムの色を変更するには、次の操作を行います。
- メニューバーから [ファイル] >[環境設定] を選択し、環境設定のグループの中から [テーブル]を選択します。
- 右下に表示される「ヘッダの要約グラフ」から、尺度ごとの色を選択します。
色は任意に指定できますが、各尺度のアイコン色に合わせておくとわかりやすいです。
右側の「強調表示」の色は、グラフを選択したときの表示色になりますので、通常の色より濃い目の色を選んでいます。
今回紹介した3つのTipsを活用し、JMPでデータを探索してみてください。
by 増川 直裕(JMP Japan)
Naohiro Masukawa - JMP User Community
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.