ギャン・バギャム・ソルドン

一打粉砕に怒喝の心力を込め、万物を叩き割る剛剣の刃を生み出さん

タジュキョセンセイー!

1. 多重共線性とは

 y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n

上記のような説明変数が2つ以上ある一般線形重回帰モデルを考える。この時、説明変数間に高い正、または負の相関があった場合に偏回帰係数の分散が必要以上に大きくなり、真の偏回帰係数が正しく推定出来なくなっている状態のこと。

 

2. なぜ説明変数間の相関が高いと正しく推定できないのか

  y = \beta_0 + \beta_1 x_1 + \beta_2 x_2

 上記のような、2つの説明変数からなる線形重回帰モデルを考える。この時、偏回帰係数\beta_1の推定量は下記のようになる。

 {\hat{\beta_1}} = \frac{S_{x_1 y} S_{x_2} - S_{x_2 y} S_{x_1 x_2}}{S_{x_1} S_{x_2} - (S_{x_1 x_2})^2}

※ただし S_{x_1 y} = \sum_{i=1}^n (x_{1i} - \bar{x_1})(y_i - \bar{y}),S_{x_2 y} = \sum_{i=1}^n (x_{2i} - \bar{x_2})(y_i - \bar{y})

S_{x_1} = \sum_{i=1}^n (x_{1i} - \bar{x_1})^2,S_{x_2} = \sum_{i=1}^n (x_{2i} - \bar{x_2})^2

 S_{x_1 x_2} = \sum_{i=1}^n (x_{1i} - \bar{x_1})(x_{2i} - \bar{x_2})

ここで、x_1 ,x_2 の共分散を2つの標準偏差で割った相関係数に目を向けると

cov(x_1 , x_2) = \frac{\sum_{i=1}^n (x_{1i} - \bar{x_1})(x_{2i} - \bar{x_2})}{\sqrt{\sum_{i=1}^n (x_{1i} - \bar{x_1})^2} \sqrt{\sum_{i=1}^n (x_{2i} - \bar{x_2})^2}} = \frac{S_{x_1 x_2}}{\sqrt{S_{x_1} S_{x_2}}}

となる。今、この相関係数が1または-1に近い時を考える。

cov(x_1 , x_2) ≒ ±1  より、S_{x_1 x_2} ≒ ± \sqrt{S_{x_1} S_{x_2}}

つまり、S_{x_1} S_{x_2} - S_{x_1 x_2}^2≒ 0

\hat{\beta_1}の推定量に着目をすると、相関係数が高い時に分母の値が0に近くなる。より、相関係数が低い場合に比べて推定値が大きくなってしまい、分散が大きくなり推定に信用が持てなくなる。 

 

3. 多重共線性を考慮した回帰モデル

 相関の高い説明変数があった時にその片方の変数を削除して、回帰モデルを再び作り直すのが一般的な多重共線性の回避方法である。また、相関の高い変数が複数組ある場合の重回帰モデル作りの手順の一例を示す。

(1)ランダムに変数を1つ削除し、重回帰モデルを作る。
(2)そのモデルに於いて、一番目的変数に影響を与えていない変数(p値が1番大きい変数)を削除、(1)でランダムに削除した変数を再びモデルに組み入れて再び重回帰モデルを作成。
(3)そのモデルに於いて、一番目的変数に影響を与えていない変数を削除する。再び重回帰モデルを作り、全ての変数のp値が0.05以下になったところで終了。

 

これ以外にも正則化とか主成分分析を使ったやり方があるらしいけど、勉強不足で全然分からなかった。