JMPでは、データテーブルで数値変数を選択した後、[列] > [ユーティリティ] > [カテゴリ化の計算式の作成] を用いると、その数値変数をさまざまな規則に基づいて、いくつかのカテゴリに分割できます。
例えば、年齢が入力されているデータを、10代、20代、・・・とカテゴリ化したり、100点満点のテストについて80点以上を"合格"のカテゴリ、80点未満を"不合格"のカテゴリに分けるようなときに便利です。
カテゴリ化するルールとしては、下図のようにさまざまなオプションを用意しています。「等しい幅でカテゴリ化」や「パーセント点によるカテゴリ化」などは分け方がイメージしやすいですが、オプションとしてある「Jenksの自然分類によるカテゴリ化」については、そんな分類方法は知らないぞという方が多いかもしれません。
そこで本ブログでは「Jenksの自然分類によるカテゴリ化」はどのようなケースで使われるのか、他の分類方法と比較したときの分類例を示します。
Jenksの自然分類とは
「Jenksの自然分類によるカテゴリ化」について、JMPのドキュメンテーションでは以下のような説明があります。
ビン数を指定することで、各ビン内の分散が最小かつビン間の分散が最大になるように、ビンのカットポイントを作成します。
このカテゴリ化の方法は、地図を使ってある数値を分類するときに相性が良い方法なのです。
地域ごとの数値(例えば人口密度、CO2排出量など)の違いを可視化するために、数値データをいくつかのカテゴリに分けて色分けした地図(コロプレスマップ)を作成することがあります。このとき、数値データをどのようにカテゴリに分けるかが考えどころになりますが、分け方の一つとしてJenksの自然分類という方法があるのです。
Jenksの自然分類を使って地図を色分けする例
次の例を考えてみます。
例:日本の47都道府県における10万人あたりの医師の数を算出し、地図にプロットして比較する
下図は、カットポイントとして「Jenksの自然分類によるカテゴリ化」を選択し、カテゴリの個数を5に指定したときです。235.30583などと中途半端な値で分かれていますが、いわば値の変化が大きいところをグループの境界として分けていることになるのです。
右下の [計算列の作成] ボタンをクリックすると、データテーブルの最後に5つのカテゴリに分類した新しい名義尺度の列が作成されます。この例では下図の黄色の列が人口100,000人あたりの医師数を示していますが、この連続尺度の列から5つに分類した新しい列(青色で選択した列)を作成したことになります。
*データの出典:独立行政法人統計センター SSDSE(教育用標準データセット)
新しくできた列を使って日本地図の色分けをしてみますが、 190~390を40刻みに等間隔で5つに分類したもの(等しい幅)と比較してみましょう。
JMPの「グラフビルダー」を使い、日本地図を青色の濃淡を使って5つに分類しています。
左下の図がJenksの自然分類、右下の図が等しい幅で分類した地図です。
どちらの地図でも西側の地域は(10万人あたりの)医師数が多く、東側が少ない傾向にあることはわかります。
また左側のJenksの自然分類では、右側に比べ濃い青色に塗られた都道府県が多くあることがわかります。
京都、鳥取、岡山、徳島、高知、長崎が該当しますが、西側の地域の中でも、これらの都道府県の医師数が多いことが明瞭です。
先に示したように、Jenksの自然分類では、カテゴリ内のばらつきが小さくなるようにするため、近い値のデータ同士が同じカテゴリに入る傾向があります。そのため、この例のように色の濃淡で分けるとデータの特徴がつかみやすくなります。
今回は、地図を塗るデータで「Jenksの自然分類」の有用性を示しましたが、地図に限らずデータを可視化する際は、一つの有用な手法となります。しかし、"190~230" のようにキリが良い数字で分けるわけではないので、結果を見る側からすると、なぜそんな中途半端な数字で分けているんだと疑問を持たれてしまうことに注意が必要です。
最後に、"Jenksの自然分類"と"等しい幅"で分けたとき、10万人あたりの医師数をプロットしたグラフを示します。
青色:Jenksの自然分類、赤色:等しい幅
この例では、値の大きい方の分け方に特徴が出ていることがわかります。
by 増川 直裕(JMP Japan)
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.