共変量を伴った潜在クラス分析 - 井出草平の研究ノート

潜在クラス分析の潜在変数を従属変数にして分析を行う場合の技法。パス・ダイアグラムで描くと次のようになる。

f:id:iDES:20171109122256p:plain

例えば、パーソナリティについて質問をして、潜在クラス分析をすると、パーソナリティが４つに分類できることが分かったとしよう。これらの各パーソナリティに性別が関連しているかを調べたいとする。

この場合、パーソナリティの質問項目は $u_1,$ $u_2,$ .... $u_n$ になる。潜在クラス分析を行ってできた潜在変数がcである。そして、性別がxであり、共変量となる。

共変量は連続変数でもカテゴリカル変数でも構わない。

ここではMuthénらのセミナーで使われた例を使う。 http://www.statmodel.com/download/Topic%205.pdf

サンプルはこちらから http://www.statmodel.com/examples/webnotes/webnote4.exe

自己解凍機能付きのzipファイルである。使用するのはzip内のasb.datというデータファイルである。

TITLE:     LCA of 9 ASB items with three covariates
DATA:      FILE = asb.dat;
           FORMAT = 34x 51f2;
VARIABLE:  NAMES = property fight shoplift lt50 gt50 force
           threat injure pot drug soldpot solddrug con auto
           bldg goods gambling dsm1-dsm22 male black hisp
           single divorce dropout college onset f1 f2 f3 age94;
           USEVARIABLES = property fight shoplift lt50 threat
           pot drug con goods age94 male black;
           CLASSES = c(4);
           CATEGORICAL = property-goods;
ANALYSIS:  TYPE = MIXTURE;
MODEL:
           %OVERALL%
           c#3 ON age94 male black;
           %c#1%
           [property$1-goods$1*0];
           %c#2%
           [property$1-goods$1*1];
           %c#3%
           [property$1-goods$1*2];
           %c#4%
           [property$1-goods$1*3];
OUTPUT:    TECH1 TECH8;

MODELの%c#1%以下の行はこのスクリプトを動かすだけであれば不要である。%OVERALL%の2行でOKだ。上のCATEGORICALオプションでカテゴリカル変数がproperty-goodsと指定されているので、潜在クラス分析に使用する変数はこの範囲だと認識しているためである。

とはいえ、もう少し複雑なモデル構築になるとどの変数を潜在クラス分析に含むかはきちんと指定しないといないので、長いモデルの記述の書式も重要である。 %c#1%はクラス1についてであり、property$1-goods$1は潜在クラス分析に含む変数の指定である。最後にクラス１から0を割り振る。潜在クラス分析で導かれた潜在変数が従属変数になるため、共変量の出力は３つのクラスだけ表示される。文末の数字はどの変数に対しての効果かを明確にするために必要とされる。従って、分析をする際に0から始まる数字を適宜振り分ける必要がある。

どのクラス数が適切かは事前に分析しておくとよい。Bootstrap Likelihood Ratio Test(TECH14)で数理的に最適なクラスを導く(参照)のが一般的だが、理論的に想定されるクラスに分けるであったり、所属ケースが非常に少ないので分析に支障があるためクラスを減らすという場合もある。

分析内容の説明だが、asbというのはAntisocial Behaviorの略で、犯罪行為がデータに入っている。propertyは財産犯であり、潜在クラスに入れる変数は犯罪種別ごとの集計結果である。共変量として入るage94=0は16歳、1は17歳、maleは男性(女性=0) black(黒人=1)である。

共変量の部分の出力以下のようになる。

Categorical Latent Variables

                                                    Two-Tailed
                    Estimate       S.E.  Est./S.E.    P-Value
 C#1        ON
    AGE94             -0.285      0.028    -10.046      0.000
    MALE               2.578      0.151     17.086      0.000
    BLACK              0.158      0.139      1.141      0.254

 C#2        ON
    AGE94              0.069      0.022      3.182      0.001
    MALE               0.187      0.110      1.702      0.089
    BLACK             -0.606      0.139     -4.357      0.000

 C#3        ON
    AGE94             -0.317      0.028    -11.311      0.000
    MALE               1.459      0.101     14.431      0.000
    BLACK              0.999      0.117      8.513      0.000

 Intercepts
    C#1               -1.822      0.174    -10.485      0.000
    C#2               -0.748      0.103     -7.258      0.000
    C#3               -0.324      0.125     -2.600      0.009

右列に有意確率が表示されるので仮説検定はそれを利用する。潜在クラス分析の部分の出力は以下のようになる。

Chi-Square Test of Model Fit for the Binary and Ordered Categorical
(Ordinal) Outcomes

          Pearson Chi-Square
          Value                           1120.441
          Degrees of Freedom                   472
          P-Value                           0.0000
          Entropy                            0.690

FINAL CLASS COUNTS AND PROPORTIONS FOR THE LATENT CLASS PATTERNS
BASED ON ESTIMATED POSTERIOR PROBABILITIES

    Latent
   Classes

       1        928.39438          0.12673
       2       1499.08710          0.20463
       3       2249.49632          0.30706
       4       2649.02219          0.36159

CLASSIFICATION OF INDIVIDUALS BASED ON THEIR MOST LIKELY LATENT CLASS MEMBERSHIP
Class Counts and Proportions

    Latent
   Classes

       1              920          0.12558
       2             1433          0.19560
       3             2154          0.29402
       4             2819          0.38479