井出草平の研究ノート

Little's Missing Completely at Random (MCAR) 検定

naniarパッケージを用いた方法

library("naniar")

Little (1988)の検定統計量を用いて、データが完全にランダムに欠落しているかどうか(MCAR)を評価する。この検定の帰無仮説は、データがMCARであるというもので、検定統計量はカイ二乗値である。

mcar_test(airquality)

結果。

  statistic    df p.value missing.patterns

1      35.1    14 0.00142                4

P値が5%以下であるため、このデータは完全にランダムに欠損値が発生しているわけではないことがわかる。

mistyパッケージを用いる方法

library(misty)
na.test(airquality)

結果。

 Little's MCAR Test

    n nIncomp nPattern    χ² df  pval 
  153      42        4 35.11 14 0.001
dat <- data.frame(x = c(1, NA, NA, 6, 3),
                  y = c(7, NA, 8, 9, NA),
                  z = c(2, NA, 3, NA, 5))
na.test(dat)

結果。

 Little's MCAR Test

  n nIncomp nPattern   χ² df  pval 
  5       4        4 8.00  6 0.238

こちらの文章が理解に役に立つと思われる。

Little (1988) は、MCAR (Missing Completely at Random)の多変量検定を提案し、欠損データの各パターンについて観察された変数平均を、期待値最大化(EM)アルゴリズムを用いて推定された期待母平均と比較することによって、同じ欠損データパターンを共有するサブグループ間でデータセット内のすべての変数の平均差を検定する(EM最尤推定)。 テスト統計量は、サブサンプルの平均と期待される母集団の平均の間の標準化された差の二乗の合計を、推定された分散共分散行列と各サブグループ内のオブザベーション数で重み付けしたものである(Enders,2010)。 データがMCARであるという帰無仮説の下では、検定統計量は漸近的に自由度∑k j - kのカイ二乗分布に従う、ここでk jは欠損データパターンjに対する完全な変数の数、kは変数の総数である。 統計的に有意な結果は、MCARに対する証拠となる。統計的に有意な結果は、MCARに対する証拠として示される。なお、LittleのMCARテストにはいくつかの問題がある(Enders, 2010を参照)。
第1に、このテストはMCARに反した特定の変数を特定しない、つまり、ミッシングの潜在的な相関関係(つまり、補助変数)を特定しないことだ。
第2に、この検定は多変量正規性に基づいているため、正規性の仮定から外れると、サンプルサイズが大きくない限り信頼できない可能性があり、カテゴリー変数には適さない。
第3に、このテストは、欠損データパターンが共通の共分散行列を共有していると仮定して平均値の差を調査する。つまり、MARやMNARメカニズムも平均値が等しい欠損データのサブグループを生成できるため、MCARからの共分散ベースの偏差は、MARまたはMNARメカニズムから生じるものを検出できない。 第4に、シミュレーション研究によれば、LittleのMCARテストは、特にMCARに反する変数の数が少ない場合、データと欠測の関係が弱い場合、データがMNARである場合、統計的検出力が低いことが示唆されている(Thoemmes & Enders, 2007)。
第5に、このテストはMCARの仮定を棄却するだけで、証明することはできない。つまり、統計的に有意でない結果で、MCARテストの帰無仮説を棄却できなかったとしても、データがMCARであるという帰無仮説を証明することにはならない。
最後に、帰無仮説の下では、データは実際にはMCARまたはMNARであるが、統計的に有意な結果は、欠損データがMARまたはMNARであること、すなわち、検定の結果にかかわらずMNARを否定することができないことを示している。

  • Enders, C. K. (2010). Applied missing data analysis. Guilford Press.
  • Thoemmes, F., & Enders, C. K. (2007, April). A structural equation model for testing whether data are missing completely at random. Paper presented at the annual meeting of the American Educational Research Association, Chicago, IL.
  • Little, R. J. A. (1988). A test of Missing Completely at Random for multivariate data with missing values. Journal of the American Statistical Association, 83, 1198-1202. https://doi.org/10.2307/2290157