井出草平の研究ノート

コーエンのκのサンプルサイズの推定

前回は、クロンバッハのαのサンプルサイズの推定の方法について述べた。

ides.hatenablog.com

今回はコーエンのκ係数である。
以前にコーエンのκについてエントリを入れているので、知りたい方はこちらから。

ides.hatenablog.com

今回はこちらの論文を扱う。
https://psycnet.apa.org/record/1996-04469-003
Cantor, A. B. (1996) Sample-size calculation for Cohen's kappa. Psychological Methods, 1, 150-153.
PDFで全文公開されている。
https://www.ime.usp.br/~abe/lista/pdfGSoh9GPIQN.pdf

Cantor(1996)はRのirrパッケージで計算が可能である。 https://rdrr.io/cran/irr/man/N.cohen.kappa.html

パッケージのインストールと読み込み

install.packages("irr")
library("irr")

k0...κの帰無仮説の値 = 0.7 (kappa > 0.7で採用)
power...κの期待値 = 0.85
rater1...評価者1がポジティブだとする確率(期待値) = 0.5
rater2...評価者2がポジティブだとする確率(期待値) = 0.6

N.cohen.kappa(0.5, 0.6, 0.7, 0.85)
[1] 92

必要なサンプルサイズが92であることが判明した。

わかりやすさのために、評価者1と評価者2の値を変えているが、通常同じ比率を設定することがふつうである*1

このケースでは、κの帰無仮説の値を下げると必要とされるサンプルサイズが小さくなり、κの期待値を上げると同じく小さくなる。評価者のポジティブと判断する確率を下げるとサンプルサイズは大きくなる。

実際の研究計画で注意すべきところは、ポジティブの確率である。ポジティブの確率とは、うつ病の診断であれば、サンプルの中からうつ病と診断をする割合のことである。例えば、一般人口でうつ病の診断をする場合、うつの人が5%とするとN.cohen.kappa(0.05, 0.05, 0.7, 0.85)となり必要とされるサンプルサイズは530となる。

逆に気分障害外来で95%がうつ病の人だ、というようなサンプルだとN.cohen.kappa(0.95, 0.95, 0.7, 0.85)となる。うつ病の人ばかりなのでサンプルサイズが小さくなるように思われるかもしれないが、結果はさきほどと同じ530である。

論理的にはポジティブとネガティブが逆転しているだけなので、値は同じとなる。よって、最も小さなサンプルサイズにするには中央の0.5がよいということになる。

これは大きな落とし穴となっているかもしれない。うつ病の人ばかりが来る気分障害の外来や、うつ病の人だけを集めて、うつ病の診断の評価者間信頼性を出している論文が大半だと思うが、それは統計学的には誤りである。もちろんそれらの論文でサンプルサイズが530くらいあればよいのだが、100に満たない研究が多いのは周知のとおりである。おそらく、ほとんどの研究者はこの点を誤解をしている。

うつ病の診断の併存的妥当性はうつ病の人ばかり集めて出してはいけないのである。半分くらいはうつ病ではない人を混ぜることが重要である*2。要するに、併存的妥当性では、うつ病であるという判断が一致することも重要だが、うつ病ではないという判断が一致することも同等に重要だということだ。

*1:この値を変更するケースとしては、かつてアメリカではイギリスの2倍くらい統合失調症を診断していたことがあったが、その際にサンプルサイズの推定をするならば、アメリカ(評価者1)はイギリス(評価者2)の2倍と設定するのが妥当である

*2:もちろん、まったく精神的に問題がない人が入っても意味はない。精神の問題はあるが、うつ病ではない人であったり、うつ病のようだがうつ病に満たない人のような閾値を下回る人が研究に含まれていることが最も望ましい。

クロンバッハのαのサンプルサイズの計算方法

新しい質問紙・尺度(主に心理系)を作る際や翻訳をする際に求められることが多い内的整合性・内的妥当性の尺度で比較的有名である。今回は、サンプルサイズの計算方法についてである。

Bonettによる計算式を紹介しよう。

Bonett DG., 2002, "Sample size requirements for testing and estimating coefficient alpha." J Educ Behav Stat. ;27(4):335–340. https://journals.sagepub.com/doi/10.3102/10769986027004335

クロンバッハのαの比較2つの値を比較する実験にも使われる。どちらの尺度・どちらの構成の方が値が高いか(=内的整合性が取れているか)といった使い方だ。その場合は、サンプルサイズはかなり小さくてよい。尺度を作成する先に、どの項目をいれたらよいかという判断材料のになる。

一方で、よく使われるのは、単独でα係数を使用する研究である。その際に必要とされるサンプルサイズの計算式は下記のものである。

f:id:iDES:20190808212745p:plain f:id:iDES:20190808212756p:plain

 \alpha ...第一種の過誤(偽陽性)
 \beta...第二種の過誤(偽陰性)
 k...項目数/評価者数
 CA0...クロンバッハのαの帰無仮説の値
 CA1...クロンバッハのαの期待値

Zは標準正規分布、lnは自然対数である。 下記の値を入れてみよう。項目数は15であり、クロンバッハのαの期待値は0.7と設定している。Zの値は手計算でする際には、標準正規分布表を参照する。

 \alpha ...0.05

 \beta...0.1

 k...15

 CA0...0.0

 CA1...0.7

 \delta=\frac{1-0.0}{1-0.7}=3.333

 Z_{0.05/2} ...1.96

 Z_{0.1} ...1.282

計算式に入れると下記のようになる。

f:id:iDES:20190808212836p:plain

 n=17.53 \approx 18

結果は約18ということが判明した。
帰無仮説の値であるCA0を0にすると比較的少数のサンプルサイズで良いことがわかる。
クロンバッハのαの値は相場感的には0.5以下だと低いとされているので、CA0=0.5にするとサンプルサイズはやや大きくなる(Bujang et al. 2018)。

クロンバッハのαのサンプルサイズにいての下記のレビューは無料で全文閲覧できる。 www.ncbi.nlm.nih.gov

計算方法が統計パッケージでは用意されていないようなのでExcelシートで作成した。
クロンバッハのαのサンプルサイズの推定計算シート

大学の卒業率・中退率

公立高校の全日制の卒業率は9割程度というのは比較的有名だが、大学の卒業率はどのくらいなのだろうか。

ちなみに卒業率は9割程度ということは1割程度は高校入学をしても中退をしているということであり、高校に入ったら全員が卒業できているというわけではないということである。もちろん、その後に通信制定時制に移動して卒業するということはよくあるので、最終的な高卒資格を得ている人はもう少し多い。

大学も同様である。大学に入学したら卒業できると親御さんなどは思いがちだが、実際にはそうでもない。

入学試験があるため再チャレンジがしにくく、卒業大学のレベルが就職まで響くので高校とは少し事情が違うところもある。また、大学の場合は国公立でも50万円以上、私学でも100万円以上の学費なので、経済的損失があり、また中退をするとし就職にも響くので大きな問題なのである。

http://www.mext.go.jp/b_menu/toukei/chousa01/kihon/kekka/k_detail/1407849.htm

平成30年度学校基本調査に掲載されているのが下記の図である。

f:id:iDES:20190808170630p:plain

この表は縦に見るようだ。

例えば、平成23年度入学(左から4列目)の卒業年27年度は79.9となっている。これは、平成23年入学でストレートで留年することなく27年度に卒業するのは79.9%だということだ。

次の行にある7.3%は1年留年して卒業する率である。2年留年は1.5%、3年留年は0.4%である。

最終的に卒業できるのは、89.1%ということになる。

他の年度と比べても例年だいたい同じ数値であり、留年なく大学を卒業できるのは8割程度、留年を含め大学を卒業できるのは9割弱である。

つまり1割程度は中退をしていることになる。

大学によって留年の難易度は異なると推測されている。

例えば理系は前回の無いように積み重ねて進んでいく授業が多いため、3回くらい授業を休んでしまうと内容がわからなくなることがあるとよく言われている。小規模で再履修が難しい大学・学部では、一度単位を落とすとリカバリーが難しい。偏差値によっても中退率はおそらく異なってくるだろう。

ともあれ、全体を平均すると卒業率は9割程度であり、高校と同じような割合であるようだ。

ICDとDSMにおける単純型統合失調症の扱い

ICDとDSMにおける単純型統合失調症の扱いについてメモをしておこう。

ICDでの扱い

1977年のICD-9の段階でも「可能であれば控えめに行うべき」と書かれている。1970年代の段階で国際的にこの診断基準は推奨されていなかったことがわかる。

1990年のICD-10での記述はさらに否定的であり、懐疑的な位置づけである。

単純型統合失調症(F20.6)
このカテゴリーは,いくつかの国々でまだ使われていること,およびそれ自体の本質の不明確さや統合失調質パーソナリティ障害と統合失調型障害との関連性にあいまいさがあり,その解明のためにさらに情報を付加する必要があろうと考えられるので,残されてきた.その診断基準は,実際的な用語でこの障害群の全体の相互の境界を定める問題を強調した鑑別として提示されている.

この診断名を使うな、という警告のようにも読める。
ICD-9での診断基準は以下のものである。

F20.6 単純型統合失調症 Simple schizophrenia
これは行動の奇妙さ,社会的な要請に応じる能力のなさ,そして全般的な遂行能力の低下が,潜行性だが進行性に発展するまれな障害である.妄想と幻覚ははっきりせず,破瓜型,妄想型および緊張型の統合失調症よりも,精神病的な面が明瞭でない.明らかな精神病性症状の先行をみることなく,残遣統合失調症に特有な「陰性」症状(たとえば,感情鈍麻,意欲低下)が少なくとも1年以上にわたって進行する.社交(対人)機能低下が増大するにつれ,放浪することがあり,自分のことだけに没頭したり,怠惰で無目的になる.

診断ガイドライン
単純型統合失調症は,確信をもって診断することが困難である.なぜなら,先行する精神病性エピソードとしての幻覚,妄想,あるいは他の症状の病歴がなく,残遺統合失調症に特有な「陰性」症状(上記F20.5を参照)が緩徐に進行性に発展することを確認しなければならないからである.
〈含〉単純統合失調症(schizophrenia simplex)

なお、現在のICD-11では削除されている。

DSMでの扱い

アメリカ精神医学会の診断基準DSMが単純型を掲載していたのはDSM-IIまでである。

DSM-IIIでは統合失調質パーソナリティ障害として診断をすることになり、IIIおよびIII-Rでは掲載がない。再び掲載されたのは、DSM-IVである。ただし診断基準ではなく、今後の研究の基準案として単純型荒廃性障害(単純型統合失調症)として掲載されている。

DSM-IVでは,病像がこの研究用基準案を満たす人は,特定不能精神疾患と診断されるであろう.」と書かれ、正式に診断する際にこの診断名は使用ではないとされている。この診断名に限らず研究の基準案は研究用に用意されるもので、まだ研究とエビデンスが少ないなどの理由から予備的に掲載され、後の正式に診断基準の候補と位置づけられるものと、過去に使われていた診断基準を掲載し、後に削除といった経過を辿るものが多い。

この病型は,顕著な陽性精神病症状が欠如している点で,「統合失調症および他の精神病性障害」の章に含まれる障害から区別される.それらの障害とは,統合失調症,統合失調感情障害,統合失調症様障害,短期精神病性障害,妄想性障害,共有精神病性障害,および特定不能精神病性障害を含み,これらすべてはある期間に最低1つの陽性症状が存在することを必要としている.提案されているこの障害は,パーソナリテイの明確な変化と機能の顕著な荒廃が必要であるという点で,他のパーソナリテイ障害だけでなくスキゾイドパーソナリティ障害および統合失調型パーソナリティ障害から区別される.(DSM-IV-TR)

重点が置かれているのは、1)パーソナリテイの明確な変化、2)荒廃であることがわかる。もちろん、陽性症状が1度も確認されていないというところも重要である。現代の精神医学では、統合失調症精神病性障害となるには、陽性症状が少なくとも1度は経験されることが必要である。その点からいっても、単純型荒廃性障害(単純型統合失調症)は精神病性障害統合失調症として認められることはない。

また、パーソナリティに変化がなく、荒廃を伴わないものは、統合失調質パーソナリティ障害となるため、DSM-IIIとも実は矛盾がない。なお、現在のDSM-5では単純型荒廃性障害も削除されている。

最新のICD、DSMでは単純型の掲載はなく、診断基準としては認められないのが現状である。

Blankenburgの『自明性の喪失』-単純型統合失調症かアスペルガー症候群か

和田信,2016,「『自明性の喪失』にみるBlankenburg, W.の姿勢 : 単純型統合失調症か,それともアスペルガー症候群か」『精神科治療学』 31(6): 755-761.

ci.nii.ac.jp

「単純型統合失調症か,それともアスペルガー症候群か」という副題にあるようにBlankenburgの著作『自明性の喪失』にあるケースを検討した論文。

アスペルガー症候群」の概念が広く知られるようになり,Blankenburgの取り上げたアンネ・ラウの症例は,実はアスペルガー症候群だったのではないかとの見解が,発達障害の臨床家から提出されるようになった。

この指摘はいずれも杉山登志郎である。

具体的にアンネ・ラウの症例を見てみよう。

アンネ・ラウは生来病弱で,内気で、おとなしい,友人の少ない子だった。両親相互の間にも両親と彼女との間にも暖かい人間関係は開かれなかったらしい。学校では成績の良い手間のかからぬ良い子だった。高校中退で就職したが、18歳ごろから態度が変に子供っぽくなって,しきりに寂しがるようになった。男性との交際はまったくなかった。 20歳になって彼女は「自分の立場」がはっきりしない.「人並に」ちゃんとやって行けないなどと言っていたが,ある心的負担があった後に自殺を図って精神科に収容された。 アンネの訴えはきまって「自然な自明性の喪失」(Verlust der natürlichen Selbstverständlichkeit)ということだった(この表現はアンネ自身によって述べられたものである)。「私に欠けているのは普通なあたりまえさということです」.「誰でも自分がどうすればよいか判っているはずです。その作法みたいなものが私には判りません。私には基本が欠けているのです」.「他人と付合うときに,ごく普通にこういうことは判っているんだということ,それがないんです」.「人と人を結びつける感情みたいなもの,人間らしいといえるために必要なそういった感じ,一番簡単なこと,そういったものを何も知らずにきてしまいました」.「何をしてもそれをちゃんとしているということがない,気分が伴いません」.「単純なこと,ほんの生きて行くのに必要なちょっとしたこと,それが私には欠けているのです」...。妄想その他のいわゆる病的体験は終始認められなかった。2年余りの治療でかなりの改善が認められた矢先,患者は遂に自殺に成功する。 最初,この症例は単に未熟な人格の重篤な異常体験反応だと思われた。しかしやがて,感情や行動の唐突さと高度の思考障害,それにかなり以前からの能率低下と人格発展の屈曲とから,分裂病を考えざるを得なくなった。「自然な自明性の喪失」は単にアンネの体験内容をなすのみならず,何よりもまずアンネの言動から直接に感じとられる印象だった。そこで診断としては,かなり明確な病覚を伴った単純性分裂病が最も適当である。 内因性欝病,強迫神経症,境界線例,離人症などが鑑別診断的に問題となる。

自明性の喪失といったそのまま専門用語にできるような言葉遣いを自閉スペクトラム症の人から実際に聞いたことはないが、そのような実例はある。当事者本として有名なドナ・ウィリアムズがアンネの症例のような自己分析をしている。

25歳で初めてアスペルガー症候群だと診断されたドナ・ウィリアムズは,次のように述べている。「自分には何かが足りない。次第に私はそう感じるようになった。だがそれが,何であるのかわからない」.「私自身に感情があることは確かだった。だがそれは,人と接する時に,あまり生き生きと働いてくれないのだ」

自閉症だったわたしへ (新潮文庫)

自閉症だったわたしへ (新潮文庫)

確かによく似た分析がされている。

小児期から自閉スペクトラム症であったのかもしれないが、説明が難しいのは18~20歳ごろから、思考障害が現れたこととと、社会的機能低下が起こった原因である。

発達障害の臨床医であり研究者である杉山は,本症例を発達障害の観点から検討し,高機能広汎性発達障害であった可能性があると考えた。ただし,社会的機能がやがて著しく落ちていくことや,思考障害が徐々に進行している様子などは,広汎性発達障害では一般的にない経過であり、少なくとも入院治療後の経過からは統合失調症だろうと考えている。

入院前に陽性症状がなければ現代的な意味での統合失調症とは言えない。統合失調症の言葉の使い方次第で、このあたりはどのようにも言えてしまうところがあるのではないだろうか。だから、少しずるい言い方にもなるが、何らかの変性疾患があったというのが最も間違いのない言い方になるのではないだろうか。

Blankenburgの生前,筆者は,「自明性の喪失」の患者は,実はアスペルガー症候群だったのではないかとの質問を,直接投げかけたことがある。Blankenburgの答は次のようであった。「患者は今で言うアスペルガー症候群に共通する特徴を備えていたが,確かに統合失調症であった。自閉症統合失調症には,共通の根底があるというLemppの考えを私は支持している。注:Lemppは, ドイツの児童精神科医で,自閉的精神病質を統合失調症の近縁に位置づけ,早期幼児自閉症の軽症例と考えた。

Lemppの考え方は標準的な精神医学では誤りである。統合失調症自閉スペクトラム症の間には遺伝的な共通性があまり見られないことが分かっている。症候学的に「近い」と感じるものが遺伝学的に近いわけではないという結果である。

カテゴリカル因子分析

追記: 019/09/18

以前、psychパッケージのfa.poly functionでカテゴリカル因子分析を書いていたが、非推奨の方法だったようだ。psychパッケージの仕様書には次のように書いてある。

fa.poly
Deprecated Exploratory Factor analysis functions. Please use fa
Description
After 4 years, it is time to stop using these deprecated functions! Please see fa which includes all of the functionality of these older functions.
https://cran.r-project.org/web/packages/psych/psych.pdf

シミュレーションをしたところfaでもfa.polyで行っても同じ結果になったので、現在のところfa.polyで問題はなさそうである。将来的に改訂やfnctionの削除があるということだろうか。

fa.polyからfaへの移行を促しているのは、faに相関行列のオプションが指定できるようになったからだと思う。カテゴリカル因子分析ではテトラコリック相関やポリコリック相関などカテゴリカル変数の相関を使用する。相関行列がカテゴリカル変数の相関係数を使うことができれば、カテゴリカル因子分析ができるので、相関係数の指定ができれば別のfunctionを使う必要はないというのは確かに理にかなっていると思う。

一応、相関係数の種類についておさらいしておこう。

  • ピアソンの積率相関係数: 連続変数と連続変数
  • ポリコリック相関係数: 順序変数と順序変数
  • ポリシリアル相関係数: 順序変数と連続変数
  • テトラコリック相関係数: 2値データと2値データ
  • 点双列相関係数: 2値データと連続変数

分析データに合致した相関係数の種類を選べばよい。

fa functionにはcorオプションがあり、ここで相関係数の種類を指定できる。デフォルト値は"cor"でピアソンの積率相関係数である。"poly"にするとポリコリック相関になる。"tet"はテトラコリック相関である。"mixed"はテトラコリック、ポリコリック、ピアソン、点双列相関係数、ポリシリアルが混ざる時に使用できるようだ。

"mixed"オプションはよくわからないが、データにいくつかの尺度レベルが混じっていてもOKということなので、ちゃんと調べると面白い部分ではないだろか。

何度か書いている気がするが、2値データといっても、背後に連続変数がある、かつ正規分布が仮定ことが必要である。大阪府生まれである、東京都生まれである、といったものは因子分析に入れてはいけない。また、3年A組、B組、C組といったものも不可である。例外として、成績順にA組から順番に並んでいるのであれば、成績の代理変数として使用は可能である。

2値データであれば"tet"、3値以上の順序尺度であれば"poly"にするということになる。

データの呼び出しと加工

デモとして、psychパッケージに入っているIPIP-MEOのデータを2値にリコードして2×2の因子分析を実施してみる。

library("psych")
data(bfi) # IPIP-MEO のデータ
d1 <- bfi[1:25] # 因子分析に使用するのは1~25列目
library(OneR)
d2 <- bin(d1, nbins = 2, labels = c(1,2)) # データを2値に変換
library(dplyr)
d3 <- d2 %>% mutate_if(is.factor, as.integer) # 整数型への変換
str(d3) # データ構造の確認

カテゴリカル因子分析

res <- fa(d3, nfactor = 3, cor = "tet", scores=TRUE)
print(res, digit = 3)

追記以上。


Rのpsychパッケージでカテゴリカル因子分析を行った。
まずは下準備。今回もIPIP-NEOのデータを使用する。

データ・パッケージの読み込み

library("psych")
library("GPArotation")
data(bfi)
d1 <- bfi[1:25]

通常の因子分析と異なるところは、"fa"が"fa.poly"になっているところだ。 polyとはポリコリック相関係数のことである。

カテゴリカル因子分析

res01 <- fa.poly(d1, nfactor = 5)
print(res01, digit = 3)

デフォルトでは、推定法は最小残差法(ミンレス法)= “minres”であり、回転はオブリミン回転である。欠損の処理はリストワイズになっている。

デフォルト値を変更する場合には、psychパッケージのfaのところに記載がある。 https://www.rdocumentation.org/packages/psych/versions/1.8.12/topics/fa

結果

Factor Analysis using method =  minres
Call: fa.poly(x = d1, nfactors = 5)
Standardized loadings (pattern matrix) based upon correlation matrix
      MR2    MR1    MR3    MR5    MR4    h2    u2  com
A1  0.215  0.173  0.068 -0.474 -0.060 0.244 0.756 1.79
A2 -0.026  0.010  0.090  0.687  0.027 0.524 0.476 1.04
A3 -0.028  0.147  0.030  0.687  0.047 0.591 0.409 1.11
A4 -0.046  0.082  0.225  0.457 -0.171 0.330 0.670 1.88
A5 -0.115  0.262  0.015  0.557  0.047 0.526 0.474 1.54
C1  0.060 -0.038  0.580 -0.020  0.168 0.381 0.619 1.20
C2  0.168 -0.080  0.702  0.074  0.048 0.501 0.499 1.18
C3  0.041 -0.073  0.601  0.103 -0.074 0.357 0.643 1.13
C4  0.187  0.008 -0.659  0.022 -0.045 0.520 0.480 1.17
C5  0.202 -0.137 -0.589  0.014  0.099 0.479 0.521 1.42
E1 -0.061 -0.592  0.116 -0.098 -0.093 0.387 0.613 1.21
E2  0.108 -0.713 -0.017 -0.055 -0.057 0.605 0.395 1.07
E3  0.085  0.447  0.003  0.257  0.301 0.490 0.510 2.52
E4  0.009  0.634  0.024  0.293 -0.082 0.594 0.406 1.45
E5  0.165  0.453  0.301  0.037  0.218 0.461 0.539 2.59
N1  0.846  0.107  0.008 -0.127 -0.050 0.708 0.292 1.09
N2  0.808  0.047  0.013 -0.098  0.018 0.649 0.351 1.04
N3  0.740 -0.090 -0.042  0.074  0.022 0.594 0.406 1.06
N4  0.505 -0.390 -0.138  0.093  0.090 0.532 0.468 2.21
N5  0.521 -0.215 -0.013  0.231 -0.172 0.403 0.597 2.02
O1  0.014  0.122  0.081  0.018  0.559 0.382 0.618 1.14
O2  0.206  0.044 -0.092  0.165 -0.489 0.295 0.705 1.70
O3  0.026  0.179  0.016  0.078  0.648 0.525 0.475 1.19
O4  0.150 -0.355 -0.037  0.203  0.447 0.353 0.647 2.63
O5  0.133  0.102 -0.042  0.038 -0.597 0.367 0.633 1.18

                        MR2   MR1   MR3   MR5   MR4
SS loadings           2.828 2.492 2.328 2.254 1.898
Proportion Var        0.113 0.100 0.093 0.090 0.076
Cumulative Var        0.113 0.213 0.306 0.396 0.472
Proportion Explained  0.240 0.211 0.197 0.191 0.161
Cumulative Proportion 0.240 0.451 0.648 0.839 1.000

 With factor correlations of
       MR2    MR1    MR3    MR5   MR4
MR2  1.000 -0.209 -0.187 -0.047 0.001
MR1 -0.209  1.000  0.238  0.317 0.145
MR3 -0.187  0.238  1.000  0.214 0.205
MR5 -0.047  0.317  0.214  1.000 0.201
MR4  0.001  0.145  0.205  0.201 1.000

Mean item complexity =  1.5
Test of the hypothesis that 5 factors are sufficient.

The degrees of freedom for the null model are  300  and the objective function was  9.285 with Chi Square of  25902.42
The degrees of freedom for the model are 185  and the objective function was  0.931

The root mean square of the residuals (RMSR) is  0.031
The df corrected root mean square of the residuals is  0.04

The harmonic number of observations is  2800 with the empirical chi square  1643.362  with prob <  6.06e-232
The total number of observations was  2800  with Likelihood Chi Square =  2593.892  with prob <  0

Tucker Lewis Index of factoring reliability =  0.8472
RMSEA index =  0.0684  and the 90 % confidence intervals are  0.0659 0.0705
BIC =  1125.478
Fit based upon off diagonal values = 0.982
Measures of factor score adequacy             
                                                    MR2   MR1   MR3   MR5   MR4
Correlation of (regression) scores with factors   0.937 0.909 0.898 0.898 0.872
Multiple R square of scores with factors          0.877 0.827 0.806 0.807 0.761
Minimum correlation of possible factor scores     0.755 0.654 0.612 0.614 0.522

因子分析に関するメモ

落穂拾い的なエントリ。
以前のエントリー(http://ides.hatenablog.com/entry/2019/04/08/171145)で取り上げた清水和秋「因子分析的研究におけるmisuseとartifact」の続き部分である。

kansai-u.repo.nii.ac.jp

平行分析もMAPも主成分を使用

Horn(1965)の平行分析(Parallel Analysis)は、乱数により作成した相関行列の固有値と実際のデータから得られた相関行列からの固有値とを比較する方法であり、Screeグラフに乱数データから計算した固有値を加え、対応する実際の固有値を比較して、ランダムではないところを意味ある因子と判断しようとする。この方法でも、相関行列の対角項は 1 のままである。Velicer(1976)によるMAP(Minimum Average Partial)も主成分を操作する方法という点では同じである。堀(2005)は、これらの方法について、詳細な紹介と比較検討を行っている。その中で、相関行列の対角項に 1 ではなく、SMC(重相関係数の平方)を用いる方法にも言及している。ここでは、多くの因子分析的研究では、推定値の下限を与えるSMCよりも、主因子法の繰り返し法による共通性の推定がより使われていることを指摘しておきたい。

因子分析法によるスクリー

Rのパッケージであるpsych(Revelle, 2017)では、SMCによる共通性の推定をデフォルトとして、Horn(1965)の主成分分析法による固有値の表示に加えて、因子分析法による値の表示も行い、因子の数の決定には、因子分析法を採用している。

因子分析法によるScreeは下記のものだろう。

f:id:iDES:20190731031607p:plain

PCが主成分分析で、FAが因子分析である。ガットマン基準がややこしいが無視してみても、どこが崖(Scree)がわかりにくい。

コマンドは下記のように書く。

library("psych")
library("GPArotation")
data(bfi)
d1 <- bfi[1:25]
scree(d1, factors=TRUE, pc=TRUE, main="Scree plot", hline=NULL, add=FALSE)
VSS.scree(d1, main = "scree plot")  

VSS.scree (R Documentation) https://www.rdocumentation.org/packages/psych/versions/1.8.12/topics/VSS.scree

平行分析における相関係数の指定

なお、テトラコリックや多分相関係数に対応した平行分析もpsychでは使用することができる。

テトラコリックは2値データの相関分析。多分相関係数はポリコリック相関係数とも言って、3件以上の順序尺度の相関のことである。

平行分析のコマンドは"fa.parallel" である。

fa.parallel (R Documentation) https://www.rdocumentation.org/packages/psych/versions/1.8.12/topics/fa.parallel

相関係数については下記ように設定すると書かれてある。

相関の設定方法:"cor"はピアソン、"cov"は共分散、"tet"はテトラコリック、"poly"はポリコリック、"mixed" はテトラコリック、ポリコリック、ピアソン、バイセリアル(二系列相関係数)、ポリセリアル(多系列相関係数)を混合したものを使用し、"Yuleb"はYulebonett、"Yuleq"と"YuleY"は必要に応じてYule相関となる。これらのコマンドは"fa"への呼び出しコマンドと同じである。
How to find the correlations: "cor" is Pearson", "cov" is covariance, "tet" is tetrachoric, "poly" is polychoric, "mixed" uses mixed cor for a mixture of tetrachorics, polychorics, Pearsons, biserials, and polyserials, Yuleb is Yulebonett, Yuleq and YuleY are the obvious Yule coefficients as appropriate. This matches the call to fa.

記法は下記のようにすると良いのだと思う。適切なデータがないので実際に走らせたわけではない。

fa.parallel(data, cor="tet", correct=.5)

correctは「テトラコリックについては、連続性の補正が適用されるなければならない。0に設定すると修正は適用されず、デフォルトは".5"でそれ以外の場合は指定する」とされている。correctはコードに含めなくても、"correct=.5"が入るので、書く必要がない。