コーエンのκのサンプルサイズの推定

前回は、クロンバッハのαのサンプルサイズの推定の方法について述べた。

ides.hatenablog.com

今回はコーエンのκ係数である。
以前にコーエンのκについてエントリを入れているので、知りたい方はこちらから。

ides.hatenablog.com

今回はこちらの論文を扱う。
https://psycnet.apa.org/record/1996-04469-003
Cantor, A. B. (1996) Sample-size calculation for Cohen's kappa. Psychological Methods, 1, 150-153.
PDFで全文公開されている。
https://www.ime.usp.br/~abe/lista/pdfGSoh9GPIQN.pdf

Cantor(1996)はRのirrパッケージで計算が可能である。 https://rdrr.io/cran/irr/man/N.cohen.kappa.html

パッケージのインストールと読み込み

install.packages("irr")
library("irr")

k0...κの帰無仮説の値 = 0.7 (kappa > 0.7で採用)
power...κの期待値 = 0.85
rater1...評価者1がポジティブだとする確率(期待値) = 0.5
rater2...評価者2がポジティブだとする確率(期待値) = 0.6

N.cohen.kappa(0.5, 0.6, 0.7, 0.85)

[1] 92

必要なサンプルサイズが92であることが判明した。

わかりやすさのために、評価者1と評価者2の値を変えているが、通常同じ比率を設定することがふつうである*1。

このケースでは、κの帰無仮説の値を下げると必要とされるサンプルサイズが小さくなり、κの期待値を上げると同じく小さくなる。評価者のポジティブと判断する確率を下げるとサンプルサイズは大きくなる。

実際の研究計画で注意すべきところは、ポジティブの確率である。ポジティブの確率とは、うつ病の診断であれば、サンプルの中からうつ病と診断をする割合のことである。例えば、一般人口でうつ病の診断をする場合、うつの人が5%とするとN.cohen.kappa(0.05, 0.05, 0.7, 0.85)となり必要とされるサンプルサイズは530となる。

逆に気分障害外来で95%がうつ病の人だ、というようなサンプルだとN.cohen.kappa(0.95, 0.95, 0.7, 0.85)となる。うつ病の人ばかりなのでサンプルサイズが小さくなるように思われるかもしれないが、結果はさきほどと同じ530である。

論理的にはポジティブとネガティブが逆転しているだけなので、値は同じとなる。よって、最も小さなサンプルサイズにするには中央の0.5がよいということになる。

これは大きな落とし穴となっているかもしれない。うつ病の人ばかりが来る気分障害の外来や、うつ病の人だけを集めて、うつ病の診断の評価者間信頼性を出している論文が大半だと思うが、それは統計学的には誤りである。もちろんそれらの論文でサンプルサイズが530くらいあればよいのだが、100に満たない研究が多いのは周知のとおりである。おそらく、ほとんどの研究者はこの点を誤解をしている。

うつ病の診断の併存的妥当性はうつ病の人ばかり集めて出してはいけないのである。半分くらいはうつ病ではない人を混ぜることが重要である*2。要するに、併存的妥当性では、うつ病であるという判断が一致することも重要だが、うつ病ではないという判断が一致することも同等に重要だということだ。

*1:この値を変更するケースとしては、かつてアメリカではイギリスの2倍くらい統合失調症を診断していたことがあったが、その際にサンプルサイズの推定をするならば、アメリカ(評価者1)はイギリス(評価者2)の2倍と設定するのが妥当である

*2:もちろん、まったく精神的に問題がない人が入っても意味はない。精神の問題はあるが、うつ病ではない人であったり、うつ病のようだがうつ病に満たない人のような閾値を下回る人が研究に含まれていることが最も望ましい。