新しいバージョン「JMP 17」では、「多変量の相関」のプラットフォームで、次のような偏相関図を描けるようになりました。本記事では、相関係数との比較から偏相関係数とは何かを説明し、多変量データについて偏相関図を描くことのメリットを説明します。
偏相関とは
「偏相関図」というその名の通り偏相関係数を図示したものですが、偏相関とは他の変数の影響を取り除いたときのペアの相関です。調べたいペアの変数と交絡する変数(交絡変数)があったとき、交絡変数の影響を除去し、真のペア間の関係を調べるときに用いられます。
JMP 17以前のJMPでも、次のように偏相関係数行列を求めることはできますが、この数字だけ見ても6つ変数に対し、すべてのペア間の関係を包括的にみるのは難しいです。変数の数がもっと多くなるとさらに難しくなるでしょう。このようなとき、偏相関の関係を可視化する偏相関図が役に立ちます。
偏相関係数と相関係数
上記で示した偏相関図、偏相関行列の例は、次のデータを用いています。
2019年 特定検診における都道府県別、検査項目の平均値(男性)
(データ出典:厚生労働省 NDBオープンデータ)
都道府県ごとに特定検診(40歳以上が対象)を受けた人に対する検査値(腹囲、空腹時血糖、血圧など)の平均値です。実際のデータではさまざまな検査値がありますが、ここではメタボリックシンドロームの判断に用いる6つの検査値を対象にしています。
これらの検査値(連続尺度)に対して、「多変量の相関」でペアごとの相関係数を求めてみます。
ここで求められているのは2つのペアの相関係数であり、対象となるペア以外の変数の影響は全く受けません。
偏相関行列のレポートを追加し、相関係数行列と比較してみましょう。
相関係数行列と偏相関係数行列を比較すると、どちらでもほぼ同じ係数のペアがあれば、係数の大きく異なるペアもあることがわかります。
例えば、赤枠で囲んだ「中性脂肪」とほかの検査項目(腹囲、拡張期血圧)との関係(表1)を見てみましょう。
|
相関係数
|
偏相関係数
|
中性脂肪 と 腹囲
|
0.4811
|
0.4465
|
中性脂肪 と 拡張期血圧
|
0.2041
|
-0.1616
|
表1. 相関係数と偏相関係数
「中性脂肪」と「腹囲」は相関係数と偏相関係数とで、ほとんど値の違いがありません。ほかの変数(HDL、収縮期血圧、拡張期血圧、空腹時血糖)の影響をほとんど受けていないことを示しています。
一方、「中性脂肪」と「拡張期血圧」の関係において、相関係数でみると0.2041と若干の正の相関を示していますが、偏相関係数でみると-0.1616と若干の負の相関を示しています。相関係数(の絶対値)が低いので強い関係を示しているわけではありませんが、一方は正の相関で、もう一方は負の相関であると言われると、"使う統計量によって結論が異なるのは困るなあ" と感じるかもしれません。
相関と回帰分析
相関係数と偏相関係数の関係は、単回帰分析と重回帰分析の関係とも考えられます。
単回帰分析では1つの説明変数Xで、目的変数Yの変動を説明するモデルを作成します。
一方、重回帰分析では、複数の説明変数(例えば X1とX2)でYの変動を説明するモデルを作成します。X1とX2の間に相関関係があるとき、推定されるX1の係数はX2の影響を除去されたものであり、同様に推定されるX2の係数はX1の影響が除去されたものです。このことから重回帰分析で推定される各項の係数を「偏回帰係数」と言います。(JMPでは「パラメータ推定値」の推定値のレポートに記載されます。)
今回のデータに対し、次のような単回帰分析と重回帰分析を「モデルのあてはめ」プラットフォームで行ってみます。
左下(単回帰分析) Y: 中性脂肪、X: 拡張期血圧
右下(重回帰分析) Y: 中性脂肪、X: 拡張期血圧、腹囲、HDL、収縮期血圧、空腹時血糖
レポート「パラメータ推定値」における「拡張期血圧」の推定値(偏回帰係数)に注目します。単回帰分析での係数は1.009と正の値をとりますが、重回帰分析での係数は-0.8255と負の値をとります。
その下にある「予測プロファイル」も参考にすると、単回帰分析の結果では拡張期血圧が高くなると中性脂肪も高くなる関係がありますが、重回帰分析の結果では拡張期血圧が高くなると中性脂肪が低くなる関係になります。双方で結論が違っているなと感じるかもしれませんが、この結果は、表1で示した中性脂肪と拡張期血圧の相関係数は正(=0.2041)だが、偏相関係数は負 (= -0.1616)であることと対応しています。
偏相関図の描画
偏相関について理解いただけたということで、レポート左上の赤い三角ボタンから [偏相関図] を選択します。
表示された偏相関図に対し、次のようにオプションやプロパティを設定してみます。
- 偏相関図の左にある赤い三角ボタンから [偏相関の表示] を選択
- 偏相関図の右側にある「辺のプロパティ」で次の設定を行う
- 偏相関の絶対値を0.25に
- 幅のスライダーを右側に移動
偏相関図における各変数の頂点は、偏相関係数の固有ベクトルにより決まるので、係数の大きいペアが近くに位置します。ここでは偏相関の絶対値0.25 に指定しているので0.25以上、または-0.25以下の相関関係のみ線で結ばれます。
各変数の関係を偏相関でみたとき、偏相関図より次のようなことがわかります。
- 拡張期血圧(いわゆる下の血圧)と収縮期血圧(いわゆる上の血圧)の(正の)相関が高い
- 中性脂肪は、腹囲、収縮期血圧、空腹時血糖との(正の)相関がある
- HDLは腹囲や収縮期血圧と負の相関がある
多変数の関係を示すとき、他の変数の影響を除いたペア間の関係を調べるのに偏相関を用いることが良くあります。その際、今回ご紹介した偏相関図を用いて可視化すると、全体的な変数の関係性についてわかりやすく考察できます。
尚、偏相関図を描くまでの操作方法は、以下の動画で確認することができます。(約3分)
https://community.jmp.com/t5/video/gallerypage/video-id/6316240369112
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.