カテゴリカル因子分析

Rのpsychパッケージでカテゴリカル因子分析を行った。
まずは下準備。今回もIPIP-NEOのデータを使用する。

データ・パッケージの読み込み

library("psych")
library("GPArotation")
data(bfi)
d1 <- bfi[1:25]

通常の因子分析と異なるところは、"fa"が"fa.poly"になっているところだ。 polyとはポリコリック相関係数のことである。

カテゴリカル因子分析

res01 <- fa.poly(d1, nfactor = 5)
print(res01, digit = 3)

デフォルトでは、推定法は最小残差法(ミンレス法)= “minres”であり、回転はオブリミオン回転である。欠損の処理はリストワイズになっている。

デフォルト値を変更する場合には、psychパッケージのfaのところに記載がある。 https://www.rdocumentation.org/packages/psych/versions/1.8.12/topics/fa

結果

Factor Analysis using method =  minres
Call: fa.poly(x = d1, nfactors = 5)
Standardized loadings (pattern matrix) based upon correlation matrix
      MR2    MR1    MR3    MR5    MR4    h2    u2  com
A1  0.215  0.173  0.068 -0.474 -0.060 0.244 0.756 1.79
A2 -0.026  0.010  0.090  0.687  0.027 0.524 0.476 1.04
A3 -0.028  0.147  0.030  0.687  0.047 0.591 0.409 1.11
A4 -0.046  0.082  0.225  0.457 -0.171 0.330 0.670 1.88
A5 -0.115  0.262  0.015  0.557  0.047 0.526 0.474 1.54
C1  0.060 -0.038  0.580 -0.020  0.168 0.381 0.619 1.20
C2  0.168 -0.080  0.702  0.074  0.048 0.501 0.499 1.18
C3  0.041 -0.073  0.601  0.103 -0.074 0.357 0.643 1.13
C4  0.187  0.008 -0.659  0.022 -0.045 0.520 0.480 1.17
C5  0.202 -0.137 -0.589  0.014  0.099 0.479 0.521 1.42
E1 -0.061 -0.592  0.116 -0.098 -0.093 0.387 0.613 1.21
E2  0.108 -0.713 -0.017 -0.055 -0.057 0.605 0.395 1.07
E3  0.085  0.447  0.003  0.257  0.301 0.490 0.510 2.52
E4  0.009  0.634  0.024  0.293 -0.082 0.594 0.406 1.45
E5  0.165  0.453  0.301  0.037  0.218 0.461 0.539 2.59
N1  0.846  0.107  0.008 -0.127 -0.050 0.708 0.292 1.09
N2  0.808  0.047  0.013 -0.098  0.018 0.649 0.351 1.04
N3  0.740 -0.090 -0.042  0.074  0.022 0.594 0.406 1.06
N4  0.505 -0.390 -0.138  0.093  0.090 0.532 0.468 2.21
N5  0.521 -0.215 -0.013  0.231 -0.172 0.403 0.597 2.02
O1  0.014  0.122  0.081  0.018  0.559 0.382 0.618 1.14
O2  0.206  0.044 -0.092  0.165 -0.489 0.295 0.705 1.70
O3  0.026  0.179  0.016  0.078  0.648 0.525 0.475 1.19
O4  0.150 -0.355 -0.037  0.203  0.447 0.353 0.647 2.63
O5  0.133  0.102 -0.042  0.038 -0.597 0.367 0.633 1.18

                        MR2   MR1   MR3   MR5   MR4
SS loadings           2.828 2.492 2.328 2.254 1.898
Proportion Var        0.113 0.100 0.093 0.090 0.076
Cumulative Var        0.113 0.213 0.306 0.396 0.472
Proportion Explained  0.240 0.211 0.197 0.191 0.161
Cumulative Proportion 0.240 0.451 0.648 0.839 1.000

 With factor correlations of
       MR2    MR1    MR3    MR5   MR4
MR2  1.000 -0.209 -0.187 -0.047 0.001
MR1 -0.209  1.000  0.238  0.317 0.145
MR3 -0.187  0.238  1.000  0.214 0.205
MR5 -0.047  0.317  0.214  1.000 0.201
MR4  0.001  0.145  0.205  0.201 1.000

Mean item complexity =  1.5
Test of the hypothesis that 5 factors are sufficient.

The degrees of freedom for the null model are  300  and the objective function was  9.285 with Chi Square of  25902.42
The degrees of freedom for the model are 185  and the objective function was  0.931

The root mean square of the residuals (RMSR) is  0.031
The df corrected root mean square of the residuals is  0.04

The harmonic number of observations is  2800 with the empirical chi square  1643.362  with prob <  6.06e-232
The total number of observations was  2800  with Likelihood Chi Square =  2593.892  with prob <  0

Tucker Lewis Index of factoring reliability =  0.8472
RMSEA index =  0.0684  and the 90 % confidence intervals are  0.0659 0.0705
BIC =  1125.478
Fit based upon off diagonal values = 0.982
Measures of factor score adequacy             
                                                    MR2   MR1   MR3   MR5   MR4
Correlation of (regression) scores with factors   0.937 0.909 0.898 0.898 0.872
Multiple R square of scores with factors          0.877 0.827 0.806 0.807 0.761
Minimum correlation of possible factor scores     0.755 0.654 0.612 0.614 0.522

因子分析に関するメモ

落穂拾い的なエントリ。
以前のエントリー(http://ides.hatenablog.com/entry/2019/04/08/171145)で取り上げた清水和秋「因子分析的研究におけるmisuseとartifact」の続き部分である。

kansai-u.repo.nii.ac.jp

平行分析もMAPも主成分を使用

Horn(1965)の平行分析(Parallel Analysis)は、乱数により作成した相関行列の固有値と実際のデータから得られた相関行列からの固有値とを比較する方法であり、Screeグラフに乱数データから計算した固有値を加え、対応する実際の固有値を比較して、ランダムではないところを意味ある因子と判断しようとする。この方法でも、相関行列の対角項は 1 のままである。Velicer(1976)によるMAP(Minimum Average Partial)も主成分を操作する方法という点では同じである。堀(2005)は、これらの方法について、詳細な紹介と比較検討を行っている。その中で、相関行列の対角項に 1 ではなく、SMC(重相関係数の平方)を用いる方法にも言及している。ここでは、多くの因子分析的研究では、推定値の下限を与えるSMCよりも、主因子法の繰り返し法による共通性の推定がより使われていることを指摘しておきたい。

因子分析法によるスクリー

Rのパッケージであるpsych(Revelle, 2017)では、SMCによる共通性の推定をデフォルトとして、Horn(1965)の主成分分析法による固有値の表示に加えて、因子分析法による値の表示も行い、因子の数の決定には、因子分析法を採用している。

因子分析法によるScreeは下記のものだろう。

f:id:iDES:20190731031607p:plain

PCが主成分分析で、FAが因子分析である。ガットマン基準がややこしいが無視してみても、どこが崖(Scree)がわかりにくい。

コマンドは下記のように書く。

library("psych")
library("GPArotation")
data(bfi)
d1 <- bfi[1:25]
scree(d1, factors=TRUE, pc=TRUE, main="Scree plot", hline=NULL, add=FALSE)
VSS.scree(d1, main = "scree plot")  

VSS.scree (R Documentation) https://www.rdocumentation.org/packages/psych/versions/1.8.12/topics/VSS.scree

平行分析における相関係数の指定

なお、テトラコリックや多分相関係数に対応した平行分析もpsychでは使用することができる。

テトラコリックは2値データの相関分析。多分相関係数はポリコリック相関係数とも言って、3件以上の順序尺度の相関のことである。

平行分析のコマンドは"fa.parallel" である。

fa.parallel (R Documentation) https://www.rdocumentation.org/packages/psych/versions/1.8.12/topics/fa.parallel

相関係数については下記ように設定すると書かれてある。

相関の設定方法:"cor"はピアソン、"cov"は共分散、"tet"はテトラコリック、"poly"はポリコリック、"mixed" はテトラコリック、ポリコリック、ピアソン、バイセリアル(二系列相関係数)、ポリセリアル(多系列相関係数)を混合したものを使用し、"Yuleb"はYulebonett、"Yuleq"と"YuleY"は必要に応じてYule相関となる。これらのコマンドは"fa"への呼び出しコマンドと同じである。
How to find the correlations: "cor" is Pearson", "cov" is covariance, "tet" is tetrachoric, "poly" is polychoric, "mixed" uses mixed cor for a mixture of tetrachorics, polychorics, Pearsons, biserials, and polyserials, Yuleb is Yulebonett, Yuleq and YuleY are the obvious Yule coefficients as appropriate. This matches the call to fa.

記法は下記のようにすると良いのだと思う。適切なデータがないので実際に走らせたわけではない。

fa.parallel(data, cor="tet", correct=.5)

correctは「テトラコリックについては、連続性の補正が適用されるなければならない。0に設定すると修正は適用されず、デフォルトは".5"でそれ以外の場合は指定する」とされている。correctはコードに含めなくても、"correct=.5"が入るので、書く必要がない。

単純型統合失調症か自閉スペクトラム症か

yomidr.yomiuri.co.jp

yomidr.yomiuri.co.jp

このコラムの筆者はある女性患者を当初「統合失調症(鑑別不能型あるいは単純型)あるいは統合失調型障害」と診断した。
その後、児童青年精神医学に詳しい医師から「自閉スペクトラム症(広汎性発達障害)」と指摘がされたというエピソードである。

昔の感覚だと統合失調症だったものが現在では自閉スペクトラム症とみなされるケースなのだが、その歴史の変わり目が非常にわかりやすく記述されている。

臨床の場では、鑑別不能型あるいは単純型*1というものが頭に浮かぶのは、ああでもない、こうでもないと逡巡して、明確に当てはまる診断がないものの、統合失調症っぽい、どうしたものか、といったときに登場することが多いと思う。

「従来の精神医学の範疇からすれば、破瓜型か単純型かは判別が困難としても、少なくとも統合失調症でよかろう」
「いや、これからは、精神科といえども、発達の視点をもつことが不可欠となろう」

医局が二分されたそうである。

治療から考える

治療の面から考えると、実は、診断はどちらでも大差はない。 単純型の場合は少量の抗精神病薬を投与するのがセオリーであり、自閉スペクトラム症の成人例でも同様である。自閉スペクトラム症の方がエビリファイリスパダールが有効性が高いというエビデンスがあるため、抗精神病薬を選ぶ際にはやや有利かもしれない。

また、使える社会資源に差があるなら、有利に方を選べばよいし、患者の希望を聞いてもよいのではないだろうか。

自閉症の誤診問題

「(広汎性)発達障害統合失調症と誤診され、人生を台無しにさせられた例が後を絶たない」といった指摘も、散見されるようになった。

自閉スペクトラム症(広汎性発達障害)が喧伝される初期には、このような指摘は確かに何度か目にしたことがあるし、確かにそのようなケースは少なからず存在しているようだ。
統合失調症であると誤診された結果、高容量(=統合失調症であれば通常量)の抗精神病薬を投与され、廃人のように人生を過ごしてきてしまった、という経過が多い。

この問題の本質は誤診だと考えるのは誤りである。

自閉スペクトラム症の概念を知らなかったとしても、典型的な統合失調症ではないことは明らかであり、その場合は、このコラムを書いている医師のように、どの類型だろうか、どのような治療がよいかと逡巡することになる。

もし、単純型であれば、高容量の抗精神病薬を投薬してはいけないことは過去の知識でも明白である。
自閉スペクトラム症に高容量の抗精神病薬を投薬していたケースは、統合失調症の治療として失敗しているのである。

実際のところ、このコラムを書いた医師のように旧来の知識でも正解に限りなく近い考えに到達できる医師ばかりではない。
統合失調症=高容量の抗精神病薬という対応をとる治療者は意外に多い。

そのような医師の元で、自閉スペクトラム症に高容量の抗精神病薬を投与して廃人にするという事態が起こってきたと捉えるのが正しい。要するに、統合失調症の治療が間違っているか、ひどく下手であることがこの問題の本質なのである。

*1:日本では、単純型の診断は比較的つかわれる国である。ブロイラーの教えを忠実な守る風潮があるからだろうか。しかし、国際的には単純型の類型は早くから批判されている。1977年のICD-9の段階でも「可能であれば控えめに行うべき」とされ、1990年のICD-10では「いくつかの国々でまだ使われていること,およびそれ自体の本質の不明確さや統合失調質パーソナリティ障害と統合失調型障害との関連性にあいまいさがあり,その解明のためにさらに情報を付加する必要があろうと考えられるので,残されてきた」と使うために掲載しているのではないと明確に書かれている。

Mplusのデータファイルとパスの2バイト文字

Mplusのデータファイルの位置について。

絶対パスでデータファイルを指定しないといけないと思っていたのが、相対パスでも大丈夫だということに最近気づいた。

絶対パスとは以下のようなものだ。

DATA:
      FILE IS  "C:\Dropbox\Documents\Study\LCA\data.csv"

もし、LCAフォルダの中に実行ファイル(.inp)とdata.csvが揃っていれば、下記のように書いても大丈夫のようである。

DATA:
      FILE IS  "data.csv"

RStudioと同じく、Rmdとデータファイルを同じフォルダに入れておけばよいということだ。

ただRStudioとの違いもある。
Mplusでは2バイト文字が許可されていない。例えば、下記のようなパスだとエラーができる。

C:\Dropbox\ドキュメント\研究\潜在クラス分析\data.csv

2バイト文字が入ると、エラーが出るのは、絶対パスで指定した場合でも、相対パスで指定した場合でも同じである。

今までは、Cドライブ直下にMplusのフォルダを作ったり、DropboxやOneDrive直下にMplusのフォルダを作成していたのだが、この方法だと、Mplusは同じフォルダを使うため、どのファイルがどの分析に使われたのかが、よくわからなくなってしまっていたのだ。過去にした分析のファイルなども混じってよくわからないことになっていた。整理のことを考えるとこのような状態はあまり良くない。

Mplusの仕様に合わせるために、フォルダ分けのやり方を変えるモチベーションにつながるかはわからないが、計量系のフォルダは英語で整理した方が良いのかもしれない。

因子分析と標本サイズ

清水和秋(2018)「因子分析的研究におけるmisuseとartifact」『関西大学社会学部紀要』 49(2): 191-211.

kansai-u.repo.nii.ac.jp

標本サイズ

Cattell(1978)は、標本サイズと分析対象の変数の数との比として、3 対 1 を目安としている。この比についての基準は、主因子法を主な因子解抽出の方法としていた時代に検討 されたものであった。この時代の因子分析法のテキストの中には、標本サイズと分析での 適切性について、50(very poor)、100(poor)、200(fair)、300(good)、500(very good)、 1,000以上(excellent)とするものもある(Comrey & Lee, 1992など)。Gorsuch(1985) は、最小の標本サイズを100としている。このような数値は、因子分析研究の蓄積の上で提案された経験則(rules of thumb)による目安にすぎない。実際の研究でのサイズについて、Henson & Roberts(2006)は、探索的因子分析法を使用している59論文を対象として 分析内容を精査し、標本サイズの中央値が267.00で、平均が436.08、標準偏差が540.74、 最小が43、最大が3,113であったと報告している。MacCallum, Widaman, Zhang, & Hong(1999)は、標本サイズ(60、100、200、400)と変数の数と因子の数との比(10: 3 、20: 3 、20: 7 )そして変数の共通性(低い、幅広い、高い)に関してモンテカルロ実験を行い、この 3 種類の違いが結果に影響することを明らかにし、因子に負荷する変数の数が少なく、 共通性も低い場合には、500を超えるサイズが必要ではないかとしている。そして、共通性 が高く、因子に負荷する項目も多い、質の良いデータの場合には、100を超える程度でも十分としている。同様の報告をMundfrom, Shaw, & Ke (2005)も行っている。彼らの結果を要約すると次のようになる。変数の共通性が高い場合、変数と因子の比が 8 の場合には サイズは100、この比が 6 の場合には250、 4 の場合に500となる。共通性が低い場合には、変数と因子との比が 8 の場合には130、 6 の場合には260、 4 の場合には1,400となる。  最尤法(Jöreskog, 1967)が本格的に使用されるようになってからは、標本サイズにつ いては「十分におおきな標本」という表現が使われるようになった。そして、主因子法に よる探索的因子分析法ではそれほど強調されなかった分析対象の変数が「多変量正規分布」 に従うことが最尤法を使用するための条件であると暗黙のうちに考えられてきた。Boomsma(1982)は、構造方程式モデリングのソフトであるLISRELを使って、100より少ない標本 サイズでの推定は危険であり、200以上を勧め、そして、分布が正規分布から乖離していて も頑健であることを示した。Browne(1984)による漸近的方法の提案は、観測変数の分布に関しては、正規分布に限定をする必要はないということであり、順序尺度水準やカテゴリー変数を対象として因子分析法を適用することも可能となってきた(市川,2010; 繁桝,1990)。  標本サイズについては明確な基準がない。加えて、モンテカルロ実験で明らかにされて きたサイズに影響する変数と因子の比や変数の共通性、そして、因子の構造は、因子分析 結果から見えてくるものである。研究計画や調査計画を立てている段階では、サイズを決 めるための情報は先行研究あるいは仮説段階の情報だけであり、十分な根拠を手にして調 査計画を立てることができるとは考えられない。この状況の中で、標本サイズの少ないと 思われるデータから抽出された因子をどのように評価すればよいのであろうか。artifactではないといえるようにするには、どのような方法でデータ処理をすればよいのであろうか。 ここでの暫定的な答えは、Gorsuch(1985)が提示している「最低数は100で、できるだけ多く」かもしれない。そして、可能であれば標本計画に従ったランダムサンプリングを実施することではないだろうか。もう一つの回答は、印東(1974)が言及していたように、因子的不変性の検証である(Nesselroade & Baltes, 1984; 清水,2013)

  • サンプルサイズは100以上でできるだけ多く
  • ランダムサンプリング
  • 因子的不変性の検証

ということらしい。

ランダムサンプリング

母集団からのランダムサンプリングで抽出したデータを分析の対象とする研究は、日本だけではなく、欧米でも、社会学や教育学の分野と比べると非常に少ない。

確かに心理系の尺度作成は大学生が対象であることが多い印象がある。大学生とは作成者の教員が受け持っている授業でデータを取って分析をしているということだ。大学生と一般人口の間に違いがなければ、問題はないが、だいたいの場合は、大学生(ほとんどの場合は1つの大学)の学生の特性を調べていることになるので、やはり問題であろう。

現代ではウェブ調査が比較的安価になっているので、ウェブ調査で尺度研究をするのはできないのかなと思った。

ランダムサンプリングというと、選挙人名簿→郵送のようなイメージがあるが、ウェブ調査でも全く問題はないと個人的には思う。ウェブ関連の質問をしない限り、郵送や訪問と違いが出るのは切片であって、因子分析に大きな影響を与えるとは思えないからだ。

  • Cattell, R. B. (1978). The scientific use of factor analysis in behavioral and life science. New York, NY: Plenum.
  • Gorsuch, R. L. (1983). Factor analysis. (2nd ed.) Hillsdale, NJ: Lawrence Erlbaum.
  • Henson, R. K., & Roberts, J. K. (2006). Use of exploratory factor analysis in published research: Common errors and some comment on improved practice. Educational and Psychological Measurement, 66, 393-416
  • MacCallum, R. C., Widaman, K. F., Zhang, S., & Hong, S. (1999). Sample size in factor analysis. Psychological Methods, 4, 84-99.
  • Mundfrom, D. J., Shaw, D. G., & Ke, T. L. (2005). Minimum sample size recommendations for conducting factor analyses. International Journal of Testing, 5, 159-168.
  • Jöreskog, K. G. (1971). Simultaneous factor analyisis in several populations. Psychometrika, 36, 409-426.
  • Boomsma, A. (1982). The robustness of LISREL against small sample sizes in factor analysis models. In K. G. Jöreskog & H. Wold (Eds.), Systems under indirect observation: Causality, structure, prediction (part 1)(pp. 149-173). Amsterdam: North-Holland.
  • Browne, M. W. (1984). Asymptotically distribution-free methods for the analysis of covariance structures. British Journal of Mathematical & Statistical Psychology, 37, 62-83.
  • 市川雅教(2010).因子分析 朝倉書店.
  • 繁桝算男(1990).カテゴリカルデータの因子分析.行動計量学,18, 41-51.
  • 印東 太郎(1974).心理学における統計学の適用 応用統計学, 4, 1 -16
  • Nesselroade, J. R., & Baltes, P. B. (1984). From traditional factor analysis to structural-causal modeling in developmental research. In V. Sarris & A. Parducci (Eds.) Perspectives in psychological xperimentation: Toward the year 2000 (pp.267–287). Hillsdale, NJ: Erlbaum.
  • 清水 和秋(2013).構造方程式モデリング 日本パーソナリティ心理学会(企画) 二宮 克美・浮谷 秀 一・堀毛 一也・安藤 寿康・藤田 圭一・塩谷 真司・渡邊 芳之(編集)パーソナリティ心理学ハンドブック(pp.669-675) 福村出版.

素行障害の特定用語

素行障害とはConduct Disorderのことであり、以前は行為障害と翻訳されていた。翻訳が変化しただけで、同じものを指している。素行障害特定用語が4つあるのでDSM-5から引用しておこう。

サイコパスは様々な意味を含むが、その中核症状は、DSM-5では素行障害、特定用語「冷淡一共感の欠如」として位置づけられている。"Callous and unemotional traits"という用語が使われることが多い(https://en.wikipedia.org/wiki/Callous_and_unemotional_traits)。

▲該当すれば特定せよ
向社会的な情動が限られている:この特定用語に適合するには,その人は過去12カ月にわたって持続的に下記の特徴の2つ以上をさまざまな対人関係や状況で示したことがなければならない.これらの特徴は,この期間を通じてその人の典型的な対人関係と情動的機能の様式を反映しており,いくつかの状況でたまたま起こるだけのものではない.このため,この特定用語の基準を評価するためには,複数の情報源が必要になる.本人の自己報告に加え,長い期間にわたって本人をよく知っていた人物の報告を考慮する必要がある(例:親,教師,仕事仲間,拡大家族,同世代の友人).

後悔または罪責感の欠如:何か間違ったことをしたときに悪かったまたは罪責感を感じない(逮捕されたり,および/または刑罰に直面した場合だけ後悔することを除く).自分の行為の否定的な結果に関する心配を全般的に欠いている.例えば誰かを傷つけた後で後悔しないし,規則を破った結果を気にしない.
Lack of remorse or guilt: Does not feel bad or guilty when he or she does something wrong (exclude remorse when expressed only when caught and/or facing punishment). The individual shows a general lack of concern about the negative consequences of his or her actions. For example, the individual is not remorseful after hurting someone or does not care about the consequences of breaking rules.

冷淡一共感の欠如:他者の感情を無視し配盧することがない.その人は冷淡で無関心な人とされる.自分の行為が他者に相当な害を与えるようなときでも,その人は他者に対してよりも自分自身に与える効果をより心配しているようである.
Callous—lack of empathy: Disregards and is unconcerned about the feelings of others. The individual is described as cold and uncaring. The person appears more concerned about the effects of his or her actions on himself or herself, rather than their effects on others, even when they result in substantial harm to others.

自分の振る舞いを気にしない:学校,仕事,その他の重要な活動でまずい,問題のある振る舞いを心配しない.期待されていることが明らかなときでもうまくやるのに必要な努力をすることがなく,典型的には自分のまずい振る舞いについて他者を非難する.
Unconcerned about performance: Does not show concern about poor/problematic performance at school, at work, or in other important activities. The individual does not put forth the effort necessary to perform well, even when expectations are clear, and typically blames others for his or her poor performance.

感情の浅薄さまたは欠如:浅薄で不誠実で表面的な方法(例:示される情動動とは相反する行為,情動をすばやく“入れたり”"切ったり”切り替えることができる)以外では,他者に気持ちを表現したり情動を示さないか,情動の表現は利益のために用いられる(例:他者を操ったり威嚇するために情動が表現される).
Shallow or deficient affect: Does not express feelings or show emotions to others, except in ways that seem shallow, insincere, or superficial (e.g., actions contradict the emotion displayed; can turn emotions "on" or "off" quickly) or when emotional expressions are used for gain (e.g., emotions displayed to manipulate or intimidate others).

献本御礼:斎藤環『オープンダイアローグがひらく精神医療』

ひきこもりとオープンダイアローグのところを少し読ませていただきました。ネットワークを復活させるための支援、一対一で支援をするよりも一対数人で支援をする方が効果的というのはまったくその通りだと思いました。オープンダイアローグ全般はあま知らないので勉強させていただきます。