Nathaniel D. PhillipsさんのR解説から。
第14章 ANOVA
図14.1: メナージュ・ア・トロワMenage a troisのワイン - 三元配置分散分析に最適な組み合わせ
前章では、1標本および2標本の仮説検定を取り上げた。これらの検定では、1つのグループを仮説値と比較するか、2つのグループ間の関係(平均または相関のいずれか)を比較する。この章では、より複雑な実験計画をANOVAで分析する方法を説明する。
いつANOVAを行うのか? 数値従属変数に対する1つまたは複数の名目(factor)独立変数の効果をテストするとき、ANOVAを実施する。名目(factor)変数は、固有の順序を持たない有限の数のカテゴリを含むものである。性別、職業、実験条件、Justin Bieberのアルバムなどが要因の良い例である(必ずしも良い音楽とは限らない)。独立変数を1つだけ含む場合、これは一元配置分散分析(One-way ANOVA)と呼ばれる。2つの独立変数を含む場合、これは二元配置分散分析(Two-way ANOVA.)と呼ばれる。もし3つの独立変数を含むならば、それはMenage a trois `NOVAと呼ばれる。
OK、多分それはまだまだだ、我々はそれを十分に繰り返し、世界を変えることができるだろう。
例えば、3つの異なる洗浄液が、デッキのうんこをどれだけ取ることができるかをテストしたいとしましょう。そして、それぞれのクリーナーがデッキのある部分を掃除するのにかかった時間を記録する。同時に、デッキによく現れるサメとオウムの2種類のウンチをクリーナーでどれだけきれいにできるかを測定することもできる。ここで、独立変数であるクリーナーとタイプは因子、従属変数である時間は数値である。
ありがたいことに、この実験はすでに行われている。データはyarrrパッケージのpoopdeckというデータフレームに記録されている。データの最初の数行を見てみると、こんな感じである。
head(poopdeck) ## day cleaner type time int.fit me.fit ## 1 1 a parrot 47 46 54 ## 2 1 b parrot 55 54 54 ## 3 1 c parrot 64 56 47 ## 4 1 a shark 101 86 78 ## 5 1 b shark 76 77 77 ## 6 1 c shark 63 62 71
poopdeckのデータは、(もちろん)pirate plotを使って可視化できる。
pirateplot(formula = time ~ cleaner + type, data = poopdeck, ylim = c(0, 150), xlab = "Cleaner", ylab = "Cleaning Time (minutes)", main = "poopdeck data", back.col = gray(.97), cap.beans = TRUE, theme = 2)
このデータがあれば、ANOVAを使って4つの異なる質問に答えることができる。
質問 | 分析 | 式 |
---|---|---|
クリーナーの違いによる洗浄時間の違いはあるか?(ウンチの種類は無視して) | 一元配置分散分析 | time ~ cleaner |
掃除の時のウンチの種類による違いはあるのか?(どのクリーナーを使うかは無視して) | 一元配置分散分析 | time ~ type |
洗浄時間について、クリーナーやウンチの種類による特有の効果はあるのか? | 二元配置分散分析 | time ~ cleaner + type |
クリーナーの効果は、ウンチの種類にもよるの? | 交互作用項を持つ二元配置分散分析 | time ~ cleaner * type |