正規性の検定 - 井出草平の研究ノート

日本語でも解説が多く、有名な手法なので、やり方だけを記す。

データはirisを用いる。ガクの長さのデータが正規分布が仮定できるかを検定する。

data(iris)
head(iris$Sepal.Length)

データ。

[1] 5.1 4.9 4.7 4.6 5.0 5.4

シャピロ・ウィルク検定 (Shapiro-Wilk test)

帰無仮説 (H0) は標本分布が正規分布に従うことである。

shapiro.test(iris$Sepal.Length)

結果。

 Shapiro-Wilk normality test

data:  iris$Sepal.Length
W = 0.97609, p-value = 0.01018

5%で帰無仮説が棄却され、正規分布に従うとは言えないことが分かった。

コルモゴロフ・スミルノフ検定 (Kolmogorov-Smirnov test)

帰無仮説 (H0) は標本分布が正規分布に従うことである。 pnorm を指定すると1標本における正規性の検定となる。

d1 <- iris$Sepal.Length
ks.test(x=d1,y="pnorm",mean=mean(d1),sd=sd(d1))

結果。

data:  d1
D = 0.088654, p-value = 0.1891
alternative hypothesis: two-sided

有意水準が10%でも帰無仮説が棄却されず、分布は正気分布を仮定してよいことがわかった。

解釈

それぞれの検定で逆の結果が出ている。解釈の方針がある。

一般に S-W 検定の方が正規分布との違いを見つけ出し易くよく利用されているようです。しかし K-S 検定はデータ数が数千を超える場合は良い結果を与えるとされています。 https://www.heisei-u.ac.jp/ba/fukui/pdf/apstattext04.pdf

SPSSのサポートには次のように書かれある。

「Shapiro-Wilk」は5,000件以下のケースを分析すると自動的に追加され、それ以上のデータの場合は算出されない、正規性の検定手法です。
「Kolmogorov-Smirnov」と同様に、「変数は正規分布をしている」という仮説ですので、変数が有意水準未満であれば、「変数は正規分布をしていない」という結論になります。
「Shapiro-Wilk」は50件程度のデータに特化した手法になりますので、少ないケース数に対して正規性の検定を行う場合は、こちらをご提示してください。 https://www.ibm.com/support/pages/kolmogorov-smirnov%E3%81%A8shapiro-wilk%E3%81%AE%E9%81%95%E3%81%84