井出草平の研究ノート

相関係数の高い説明変数があれば多重共線性を考慮して片方を除くべき?

重回帰分析はとても分かりやすく有効な分析法だが、説明変数間の相関が高すぎる場合は、 パラメータの推定が不安定になるという問題点がある。 これは、説明変数間にすでに別の線型回帰関係が含まれているということであり、その意味でこのような現象を多重共線性という。多重共線性を回避する最も単純な方法は、 まず説明変数間の相関行列を見て、 相関がとても強いものがあれば、片方を説明変数から除くことである。 (p.183)

久々に読んでみたが、この記述はよろしくない。 前半は正しいが、後半の相関係数の記述は前半と整合的になっていない。

McElreath(2020)は次のように述べている。

科学文献の中には、多重共線性に対処するための様々な方法が紹介されている。その中で因果関係を考慮したものはほとんどない。実際に、モデルを当てはめる前に一対の相関を調べ、相関の高い予測因子を特定して削除するよう学生に教えている分野もある。これは間違いである。一対相関が問題なのではない。相関関係ではなく、条件付きの関連性が問題なのである。 そして、その場合でも、何をするのが正しいかは、何が共線性を引き起こしているかによる。データ内の関連性だけでは、何をすべきかを決めることはできない。(Statistical Rethinking-E-Book: A Bayesian Course with Examples in R and STAN (Chapman & Hall/CRC Texts in Statistical Science) 2nd Edition, Kindle Edition (English Edition))

相関係数を求めるのではなく、ペアプロットを描画するというのが正しい対策である。

より詳しい説明は以下の2つのエントリを参照のこと。

ides.hatenablog.com

ides.hatenablog.com

多重共線性を授業で習った記憶はないのでどのように教えられているかはわからないが、誰かに伝えるのは難しいな、とは思う。