井出草平の研究ノート

R二乗値は何の役にも立たない

カーネギーメロン大学のCosma Shalizi氏による資料から。

https://www.stat.cmu.edu/~cshalizi/

こちらの3節の翻訳である。
https://www.stat.cmu.edu/~cshalizi/mreg/15/lectures/10/lecture-10.pdf


3. R二乗

R二乗は線形モデルを最小二乗法で推定する場合、適合した値の標本分散とYの標本分散の比で求められる。

 (5)

あるいはYの標本共分散と適合した値の比率である。

 (6)

これらが等しいことを示す。重要なのは1)  y_i = \hat{m}(x_i) + e_{i}、2) e_{i} \hat{m}(x_i) の標本共分散がちょうどゼロであることである。

最小二乗法で推定された線形モデルについては、式5と式6が常に同じ結果を与えることがわかる。

 s^2_\hat{m}とはなんだろうか。  \hat{m}(x_i) = \hat\beta_0 + \hat{\beta}_1 x_1であるから。

こうしてR二乗の3番目の式が得られる。

(7)

ここから、さらに4つ目の式が導かれる。

(8)

XとYの相関係数の二乗であることがわかる(したがってR二乗と呼ばれる)。この式の特筆すべき点は、YをXに回帰させても、XをYに回帰させても、全く同じR二乗が得られることである。 R二乗の最終式は次のようになる。

(9)

 \hat{\sigma}^2は残差の標本分散であり、残差は \hat{m}相関がないので、分子が s^2_\hat{m}に等しいことを示すのは難しくない。

調整済みR二乗

 \hat{\sigma}^2 \sigma^2の推定値としてわずかに負のバイアスを持つことは良く知られている。そのため、 \hat{\sigma}^2の代わりに、 \sigma^2 のバイアスのない推定値として \frac{n}{n-2} \hat{\sigma}^2を用いた調整済みR二乗を見ることがある。

R二乗のリミット

式7より、 \hat{\beta}_1 = 0 のときR二乗は0になる。一方、すべての残差が0であれば、 s^2_Y= \hat{\beta} \frac{1}{2} s^2_xとなり、R二乗は1となる。とはならない。R二乗が1より大きくなることはありえないことを示すのはそれほど難しいことではないので、その限界を示した。標本の傾きが0であればR二乗は0となり、可能な限り小さくなり、すべてのデータ点が正確に直線上にあれば、R二乗は1となり、可能な限り大きくなる。

3.1理論的R二乗

本当の係数がわかったとする。R二乗はどうなるのだろうか?
式(5)を使うと、次のようになる。

すべてのパラメータ推定値が一致し、この式はすべてのパラメータで連続なので、我々の推定値から得られるR二乗はこの極限に収束する。線形モデルが全く間違っていたとしても、 \beta_1の推定値は Cov\lbrack X,Y \rbrack  / Var \lbrack X \rbrackに収束する。したがって、単純な線形モデルが適用されようがされまいが、 \beta_1を適切に解釈すれば、理論的R二乗は式13で与えられる。

3.2 邪魔か迷惑か?

残念ながら、R二乗に関する多くの神話が科学界に蔓延しており、この時点でそれらに対する免疫をつけることが肝要である。

  1. 最も基本的なことは、R二乗は適合度を測定するものではないということである。 a) モデルが完全に正しい場合、R二乗は恣意的に低くなることがある。 式(13)を見てほしい。 Var \lbrack X \rbrackを小さく、または \sigma^2を大きくすることで、単純な線形回帰モデルの仮定がすべて正しくても、R二乗が0に近づいてしまう。たとえ単純な線形回帰モデルのすべての仮定があらゆる点で正しくても。

b) R二乗はモデルが全く間違っている場合、任意に1に近づけることができる。例えば、本文中2節のシミュレーションに適用した線形モデルのR二乗は0.745である。真のモデルが非線形であるとき、R二乗がどれだけ高くなるかは、実に無限大である。必要なのは、最良の線形近似の傾きがゼロでないことと、 Var \lbrack X \rbrackが大きくなることである。

  1. R二乗は予測可能性を示す指標としてはかなり役に立たない。 a) R二乗は予測誤差について何も触れていない。式13に戻り、架空のケースを考えてみよう。 \sigma^2が全く同じで、係数に変化がない場合でも、Xの範囲を変えるだけでR二乗は0から1の間のどこにでもなる。平均二乗誤差は、予測値の良し悪しを測るのにもっと適した尺度である。さらに良いのは、このコースの後半で取り上げる標本外誤差の推定値である。

b) R二乗は区間予測について何も触れていない。特に、予測区間やm(x)の信頼区間がどの程度になるかについては、何も教えてくれない。

  1. R二乗は異なるデータセット間で比較することはできない。もう一度式(13)を見て全く同じモデルが異なるデータで全く異なるR二乗値を持つことがあることを確認してほしい。

  2. R二乗は,未変換Yを使ったモデルと変換したYを使ったモデルの間,あるいはYの異なる変換の間で比較することはできない。より正確には,自由な国なので,誰もそれを止めはしないが、無意味である。具体的には、モデルの仮定がよりよく満たされるとR二乗は簡単に下がる、など。

  3. R二乗が比較できる1つの状況は、同じ変換されていない応答変数で、異なるモデルが同じデータセットに適合するときである。その場合、二乗の増加は、サンプル内MSE(Mean Squared Error, 平均二乗誤差)の減少と同じである(式9による)。しかし、その場合は、MSEを比較するだけでもよいかもしれない。

  4. R二乗は回帰によって「説明される分散の割合」であるという理解が非常に一般的である。これはR二乗を「決定係数」と呼ぶことことに付随するる。これらの用法は、式9から生じたものに過ぎず、推奨および根拠なるものは何もない。式8は、XをYに回帰させた場合、全く同じR二乗が得られることを示している。このこと自体、高いR二乗が、ある変数を別の変数で説明することについて何も語っていないことを示すのに十分であろう。また、どちらかが他方を説明することができないにもかかわらず、R二乗が高いという状況を作り出すことは非常に簡単である(6)。R二乗の観点から「説明する」という動詞を再定義しない限り、R二乗と科学的説明と呼ばれるものの間には何の関連もない(7)。

R二乗の代わりに調整済みR二乗を使用しても、このような問題は全く解決されない。

この時点で、R二乗が何の役に立つのか、他のツールではできないどんな仕事をするのか、疑問に思われるかもしれない。私が言える唯一の正直な答えは、R二乗が全く役に立たなかったという状況を見つけたことがないということある。もし私が回帰分析のカリキュラムをゼロから設計することができたなら、R二乗について言及することはないでしょう。残念ながら、それは歴史的遺物として生き続けているので、あなたはそれが何であるか、そして人々がそれについてどんな誤解に苦しんでいるかを知っておく必要がある。


(6) 例えば、シカゴでの死者数を、毎日Tシャツを着ているシカゴ市民の数で回帰させたとする。さらに言えば、Tシャツを着ているシカゴ市民の数を死亡者数に回帰させることを想像してほしい。説明として推奨されることがさらに少ない何千もの例については、http://www.tylervigen.com/spurious-correlations を参照。
(7) 研究者の中には(Weisburd and Piquero 2008; Low-D´ecarie et al. 2014など)は、生態学や犯罪に関する科学論文で報告されたR二乗の値をすべて集め、生態学者や犯罪学者が研究対象の現象の説明力を高めたかどうかを確認しようと試みている。なぜこのような演習が無意味なのか、おわかりいただけたであろう。

Reddit

このことが議論されたReddit

www.reddit.com