2値と連続変数の関連を示す指標

ROC曲線下の面積の続きである。

医学分野では連続変数とカテゴリカル変数の関連を表現する指標としてROC曲線下の面積が利用される理由はよく知らないのだが、他にも使える指標があるのではないかと思い、候補を並べてみた。

勉強をしているとROC曲線下の面積を使用する理由もわかってくるのだろうと期待しつつ、エントリをしておこう。

点双列相関係数

以前に入れたエントリで解説している。片方が2値、もう一方で連続変数であることが条件である。

データはROC曲線下の面積のものを引き続き使用している。試しに計算してみる場合には、前のエントリのデータ作成のところを参照してほしい。

y3 <- as.factor(y2)
library(polycor)
polyserial(x2, y3)

出力は0.7594117
言うまでもないことだが数字そのものをAUCと値を比較する意味はない。

連続変数の妥当性にはピアソンの積率相関係数を使用するので、点双列相関係数を利用してもよさそうにも思えるが、使われていないらしい。こちらも要検討である。

rmsパッケージ

rmsパッケージを使って統計量を一括で計算できる。

library(rms)
lrm(y ~ x)$stats

出力は以下。

Obs          Max Deriv    Model L.R.   d.f.         P            C                                          
1.000000e+02 7.124702e-08 4.493138e+01 1.000000e+00 2.040623e-11 8.558000e-01

Dxy          Gamma        Tau-a         R2             
7.116000e-01 7.317976e-01 3.593939e-01 4.825788e-01

Brier        g            gr           gp
1.549921e-01 2.170988e+00 8.766938e+00 3.606908e-01

ソマーズのD

Dxy = 0.7116

Somers' D。Somer's Dではない。アメリカ英語ではさまぁ~ずに近い発音になると思うが、日本語ではソマーズと書くことが多いはず。2つの順序変数間の相関の指標である。

順序変数とあるように、ソマーズのDの別名はrank biserial correlationであるようだ(https://www.stata.com/statalist/archive/2009-09/msg00159.html)。順位のない名義2値データと順位データの組み合わせで使う。

原著の掲載誌はASRである。

Somers, R. H. (1962). "A new asymmetric measure of association for ordinal variables". American Sociological Review. 27 (6).

Nagelkerkeの疑似R二乗

R2 = 0.4825788

ロジスティック回帰をすると出力される疑似R二乗でよく見る指標。ナゲルケルケと日本語表記されることが多い。オランダ生まれでオランダにこの姓が多いようなのてで、オランダ語の発音でたぶん間違いないだろう。

Nico Nagelkerke -Wikipedia
Nagelkerkeさんの写真(少し下の方)

グッドマン=クラスカルのガンマ

Gamma = 0.7317976

順位相関係数の一種である。1から1までの値をとって、統計的独立にあれば0となる。

グッドマン=クラスカルのガンマ(γ)Goodman and Kruskal's gamma
https://bellcurve.jp/statistics/glossary/932.html

ケンドールの順位相関係数

Tau-a = 0.3593939

こちらはわりと有名どころ。-1から1までの値をとって、統計的独立にあれば0となる。

ケンドールの順位相関係数 - ウィキペディア(Wikipedia)

最後の方はなくてもよかったかもしれないが、いろいろやり方はあるということだろう。