下図は、JMPの「二変量の関係」で表示したレポートです。どちらのグラフでも、Y軸の「トリグリセリド」に他のデータより値が極端に大きい値(外れ値とみなせる値)が存在することがわかります。これら外れ値の影響を小さくする「ロバストあてはめ」を行ったものが、緑色の線です。

JMPの「二変量の関係」では、Yに連続変数、Xに連続変数を指定したときの「二変量」のレポート、およびYに連続変数、Xに名義変数・順序変数を指定したときの「一元配置」のレポートにおいて、「ロバストなあてはめ」のオプションを適用できます。

本記事では、データに外れ値が含まれて場合の対処方法を示し、その一つであるロバスト推定について、通常の推定方法と比較しながら、その考え方と実施例を解説します。
以前、あるJMPのお客様から、JMPにはこのロバストな推定機能があるのが良いとのコメントを頂いたことがあり、他のユーザー様にもお役に立てる部分があるかと思っています。
外れ値があったときの対処方法
データにモデルをあてはめる際、外れ値の影響を小さくする代表的なアプローチとして、次の3つの方法が考えられます。
- 外れ値を取り除く
- 変数変換(対数変換など)を行う
- 外れ値の影響が小さいあてはめ(ロバスト推定)を行う
JMPでは、多くのレポートで最初にグラフが表示されるため、グラフを入念に確認し、外れ値の存在を確認することが重要です。
1. の「外れ値を取り除く方法」は、実務面も含めて慎重に判断する必要があります。恣意的にデータを除外すると結果にバイアスが生じる可能性があります。
2. の変数変換は、データの分布や性質によっては有用な場合があります。今回の例のような臨床検査値(コレステロール、トリグリセリド)では、対数変換を実施するケースがあります。ただし、どのような変換をしたら良いか迷うことがあり、また対数変換のように0や負の値があると適用できないデメリットもあります。
そのため、外れ値を含めたままモデル推定できる 3. の「ロバスト推定」をおこなう方法が有力な選択肢となります。「二変量の関係」では、ロバスト推定の方法として、[ロバストなあてはめ]と[Cauthyのあてはめ]の2つのオプションがありますが、ここでは[ロバストのあてはめ]について解説します。

ロバスト回帰
冒頭で示したトリグリセリドとコレステロールの関係を示す散布図を考えてみましょう。[直線のあてはめ]オプションで実施できる通常の回帰分析(最小二乗法を使用)は、データ点と回帰直線との垂直距離(残差)の二乗の合計が最も小さくなるように直線を引きます。下図で赤い直線に引かれている縦の線(残差)がその距離を示しています。

このとき、青丸で囲んだ点(外れ値)は残差が非常に大きく、このような値があると最小二乗法の直線が引っ張られやすいことがわかります。
そこで、これら外れ値の影響を小さく抑えて直線を引く方法が「ロバスト回帰」と呼ばれています。
[ロバストのあてはめ]オプションでは、HuberのM推定が用いられています。この方法では、外れ値の影響を小さくするために、残差が大きい観測値に対する重みを小さくして推定を行います。
以下は、[ロバストのあてはめ]、[直線のあてはめ] のオプションを適用したときのレポートです。赤い点線は最小二乗法による回帰直線、緑色の実線はロバスト回帰による直線です。ロバスト回帰による傾き(=0.471)は、最小二乗法による回帰の傾き(=0.684)より小さくなっています。これは、外れ値の影響が軽減された結果、Xの変動に対するYの変動幅が小さく推定されたことを示しています。

ロバスト平均の比較
「一元配置分析」のレポートでは、Xに指定した変数の各水準間でYの平均値を比較する「分散分析(ANOVA)」を実行できますが、この場合もYにおける外れ値の影響を強く受けます。
そこで、[ロバストのあてはめ] のオプションを実行すると、HuberのM推定により、外れ値の影響を小さくする「ロバスト平均」を各水準ごとに算出することができます。
以下は、[ロバストのあてはめ]と[平均/ANOVA/プーリングしたt検定] のオプションを適用したときのレポートです。赤い点線はANOVAによる水準の平均、緑色の実線はロバスト平均を示しています。

水準「female」では、ANOVAによる平均とロバスト平均が等しい(=77.375)ため線が重なっています。一方、水準「male」では、トリグリセリドの値が異常に大きい点がいくつかあるため、ロバスト平均は、ANOVAの平均より小さくなっています。
「分散分析」のレポートを参照すると、p値は0.0641であるため、有意水準を0.05とすると「男女間でトリグリセリドの値が有意に異なる」とは結論づけできません。一方、「ロバストなあてはめ」のレポートを参照するとp値が0.0205であり、「男女間でトリグリセリドの値が有意に異なる」と結論づけできます。
参考:「応答のスクリーニング」プラットフォームによるロバスト推定
ロバストなあてはめは、一度に多数の組み合わせの検定が実行できる「応答のスクリーニング」プラットフォームでも実施できます。
「応答のスクリーニング」にて[ロバスト] のオプションを指定]
ロバスト推定のp値、対数価値などを出力
※本記事では、JMPのサンプルデータ「Lipid Data.jmp」を用いています。
by 増川 直裕(JMP Japan)
Naohiro Masukawa - JMP User Community
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.