井出草平の研究ノート

多重共線性の根本的な問題はモデルが答えようとする問題の方にありモデルそのものにはない

多重共線性があるかどうかを調べるのにVIFの値を出して4以下/10以下ならOKといった運用をしがちだが、この運用には問題がある。
第一にVIFの値で機械的にカットオフを設けることに問題があること、第二に多重共線性をモデルに求めているという根本的な誤りが存在している。

ResearchGateの質疑より。

https://www.researchgate.net/post/Multicollinearity_issues_is_a_value_less_than_10_acceptable_for_VIF

Alejandro Ros-Gálvez
多重共線性の問題:VIFの値は10未満でよいのか?

Roman Mathias
しかし、私の考えでは、「VIFはXYZ以下であるべきだ」というような儀式的な経験則はすべて、Gigerenzer(2004)に倣って「頭の悪い統計」を行うよう人々を誘うので、潜在的に危険なものである。 回帰モデル中の2つ以上の予測変数がより強く相関している場合、対応する回帰係数の標準誤差は大きくなる。これはモデルの問題である必要はなく、予測変数は本質的に同じ情報を含んでいるので、モデルが応答との共有分散をどちらかに帰することができないことを思い出させるだけなのである。大きな標準誤差は、片方の係数を増やしてもう片方を減らしても、共有された情報のためにほとんど同じ結果が得られることを反映している。
高いVIFのために相関のある予測変数のどちらかをモデルから取り除くと、モデルは実際には良くならず、残りの回帰係数の標準誤差が小さくなるだけである。
相関のある予測変数のいずれかを操作したときに応答が変わるかどうかを実際に見つけるには、操作実験や変数間の因果関係についての専門知識が必要である。一方、回帰係数の高い標準誤差は、ある程度まで予測変数のどちらかがレスポンスの分散を等しく説明できることを示すだけであることを念頭に置いていれば、VIFが6であると報告しても、私には全く問題ないように思われる。根本的な問題は、通常、モデルが答えようとする問題であって、モデルそのものにあるのではない。
McElreath (2020)の6.1.1章では、両足の長さで身長を予測しようとするとどうなるか、明らかに共線性の問題があることが示されている。

  • Gigerenzer G. 2004. Mindless statistics. The Journal of Socio-Economics 33: 587–606.
  • McElreath R. 2020. Statistical rethinking: A Bayesian course with examples in R and Stan. CRC Press.