井出草平の研究ノート

Guttmanのラムダ係数(Guttman’s Lambda Coefficients)

Guttman(1945)は古典的テスト理論に基づき、テスト得点の信頼性(真値分散/観測分散)に対する6つの下限(λ1〜λ6)を提示した。いずれも「下限」推定であり、真の信頼性を過小評価し得る。

$- Guttman L (1945). "A Basis for Analyzing Test-Retest Reliability." Psychometrika, 10, 255-282.

心理測定やテスト理論における「信頼性(reliability)」は、観測された得点の分散がどれだけ「真の得点」の分散に起因しているかを示す比率である。

理想的にはこの「真の信頼性」を知りたいが、実際のデータから直接は求められない。

Guttman のラムダ係数(λ1〜λ6)や Cronbachのα(=λ3)は、この「真の信頼性」に対して 必ずそれ以下か同等の値になるように設計された推定値となる。λやαの値は「最低でもこの程度の信頼性はある」ことを保証するということになるが、逆に言えば、実際の真の信頼性はもっと高い可能性がある。したがって 「過小評価し得る」 と表現される。

  • 項目数  k、テスト総得点  X=\sum_{i=1}^{k} X_i、総分散  \sigma_{X}^{2}、各項目分散  \sigma_{i}^{2}、項目間共分散  \mathrm{cov}_{ij}
  • 各項目の他項目に対する重回帰の決定係数を  R_{i}^{2}(= SMC)とする。

λ1(最も保守的)

項目間の共分散を“真の分散”と見なし、対角和(項目分散の総和)を誤差とみなす単純な下限。一般に α(=λ3)より小さくなりやすい。

λ2(改良版の下限)

λ1に項目間共分散に基づく調整項を加えて改良したもの。λ2は概ね α(=λ3)以上になりやすく、より良い下限とされる。

λ3(Cronbachのα)

Guttman自身が示した λ3=α。αも信頼性の下限である。

λ4(最大スプリットハーフ信頼性)

全ての二分割(スプリット)のうち信頼性が最大となる分割で定義される下限。「最大スプリットハーフ」= λ4。小標本や項目数が少ないと上振れバイアスに注意。

λ5(中間的な下限)

λ4 と λ6 の中間的性格を持つ下限(実装あり)。実務では λ2・α・λ6 と合わせて参照されることが多い。

λ6(最も緩やかな下限)

各項目を他項目で重回帰した残差分散 [tex: e_i2 = (1 - R_i2)\sigma_i2] を用いる

項目の共通性(SMC)を利用するため、αより大きくなることが多い下限。

αの限界(多次元性・タウ等価性の仮定違反など)が広く議論され、ω(McDonald’s omega)やglb等と併せて比較する流れが一般的。Revelle & Zinbarg は、λ群・α・ω・glb の比較を多数例で示している。

link.springer.com

λ2 が α より良いのか

https://www.semanticscholar.org/paper/Coefficient-alpha-and-related-internal-consistency-Osburn/c65ab8997cb48561a76c922ec971eb434986e78c

Osburnは「λ2は理論上α以上の下限だからときに良いが、多くの実データでは上積みは小さい。状況に応じて層別α・最大信頼性・最大化λ4を検討せよ」と書いている。

Lambda2 is interesting because it always gives a lower bound that is as good as coefficient alpha but in some circumstances may be considerably better.(p.346):λ2は下限推定として必ず α 以上で、条件次第ではかなり良くなることがある。

しかしシミュレーションでは「Lambda2 was a slightly better estimator than coefficient alpha, but the differences were not large.」(p.350)と述べ、改善は小幅にとどまる場面が多いと結論づけている。さらに「Most of the coefficients studied, including lambda2, did not improve the estimate to any great extent when the data were heterogeneous.」とも記し、項目が異質的な場合に λ2 を含む多くの係数は大きくは改善しないと明言している。

 \alpha \leq \lambda_2 \alpha は Ten Berge & Zegers の無限級数における第0項  u_0 \lambda_2 は第1項  u_1 で、一般に  \lambda_2 \alpha よりタイトな下限になる(=少なくとも同等、しばしば大きい)。

直感的には、αが「平均共分散」に強く依存するのに対し、λ2 は共分散の不均一性(一部が低い/負になる等)をよりよく取り込むため、αが過小推定しがちな状況で下限を引き上げやすい。この点は Guttman(1945)の原論文系譜や後続レビューでも整理されている。

多数の代替係数を比較し、本当に効くのはデータ構造に合わせた手法ということになる。

異質な下位群(サブテスト)に分けられるなら層別α(stratified α)や最大信頼性(maximal reliability)、小項目数なら最大化 λ4(maximized λ4)が最も安定して良かったと結論している(λ2よりも一貫して良好)。

Bendermacher(2010)

digitalcommons.wayne.edu

Bendermacher(2010)は、古典的テスト理論(CTT)の前提――観測得点を真値と独立誤差の和とみなし、項目共分散行列を真値部分と誤差部分に分解できる――を丁寧に敷いたうえで、「単一回実施のデータからは信頼性そのものではなく下限しか導けない」という出発点を明確にする。ここから、既知の下限係数を概観しつつ、Cronbachのαは「最も一般的ではあるが、より高い下限(=よりタイトな下限)がいくつも存在する」と位置づけ、最良の下限としてGLB(greatest lower bound)を導出する手順(アルゴリズム)を与える、というのが論文の骨子である。

CTTの枠内では、与えられた共分散構造のもとで誤差共分散のトレース(総和)を最小化する割り当てが最大の信頼性を与える、という最適化問題になる。このときGLBは理論的に到達可能な最高の下限である、とBendermacherは明言する。ただし、GLBは小標本では“偶然の取り込み(capitalization on chance)”により上方バイアスを受けやすい弱点があるため、解析的補正が難しい現状ではブートストラップによるバイアス緩和を推奨する、と実務的注意も添える。さらに、誤差の独立性が破れやすい具体例(スピードテスト疲労による系列相関)にも触れ、こうした前提違反が下限係数全般に及ぼす影響を読者に自覚させる書きぶりである。

要するに、この小論はαの「便利さ」と「限界」を踏まえ、より高い下限(λ2やGLBを含む)に目を向けよというメッセージを、概念整理と計算手順の提示で後押しする構成である。アブストラクトでも「αより確実に高い下限がいくつか存在し、最善の下限を与えるGLBを見つけるアルゴリズムを示す」と簡潔に宣言されている。

Osburn(2000)との対比

これに対して、Osburn(2000)は実証的(シミュレーション)検討に重心を置き、αがどの条件で真の信頼性を過小推定しやすいか、そして代替係数がどの程度その過小推定を補えるかを体系的に比較した。結論は実務志向で、データがヘテロな場合には多くの代替係数(λ2を含む)でも改善は大きくない一方、構造が下位群に分けられるなら層別α(stratified α)や最大信頼性(maximal reliability)がよく機能し、項目が少ない場合には最大化λ4が最も一貫して正確だった、と報告している。また、項目数が増えるほどαは真の信頼性に近づくため、十分な項目数がある場面ではαの過小推定は相対的に軽減されるという含意も与える。

両者の違いは明瞭である。Bendermacher(2010)は理論とアルゴリズムに立脚し、「αに固執せず、一般により高い下限を与える係数、とりわけGLBを用いるべきだ」という規範的提言を軸に据える。対してOsburn(2000)は、“どの係数がどの条件で実際に効くか”をシミュレーションで吟味し、「λ2は概念的にはαより高い下限になり得るが、実データ様のヘテロ条件で上積みは小さいことが多い。むしろデータ構造に合わせて層別α・最大信頼性・最大化λ4を使い分けよ」という実務指針に落としている。したがって、Bendermacherは“下限の理論的最適化”を強調し、Osburnは“現実的な改善幅と運用の意思決定”を強調している、と整理できる。

層別α(stratified alpha)

層別αは、複数の下位テスト(ストラタ)から合成した総合得点の信頼性を、各ストラタの信頼性と分散を使って推定する下限係数である。直感的には、各ストラタの“誤差分散”を取り除いて合成したときの全体の安定性を測る指標だ。Cronbach・Schönemann・McKie(1965)が概念を与え、実務で便利に使える形の式としては、Cronbach・Schönemann・McKie (1965) が概念を与え、実務で便利に使える形の式としては、各ストラタの信頼性 (r_i) と分散 (\sigma_i2)、合成得点の分散 (\sigma_c2) を用いて

と表される(Feldt & Brennan の一般式の特例としての導出)。多次元的な検査をサブスケールで構成して総合得点を報告する場面で、とりわけ素朴なαより適切になりやすい(各サブスケールの内部はほぼ単一因子=同質とみなすとき)。ただしストラタ内の負荷のバラつきが大きいほど、層別αと真の合成信頼性の差が広がるなどの性質も知られている。

最大信頼性(maximal reliability)

最大信頼性は、各項目(またはサブテスト)に重みを自由に付けて作る線形合成の中で、信頼性が最大になる重み付けを選んだときの信頼性である。概念的には、合成得点の「真値分散/観測分散」を最大化する重みを求め、そのときの比が最大信頼性になる。実務では因子分析/CFAの枠組みで計算されることが多く、Hancock & Mueller の係数Hがこの最大信頼性に相当する(単因子モデルでは負荷と誤差分散から閉じた形で計算でき、Hは“最適重みづけ”により合成信頼性が最大になることを満たす)。最大信頼性は単純合計(単位重み)を前提とするαや合成信頼性よりも高くなるのが普通で、重み付けにより“強い”指標に比重を置くためである。一方、最大化はモデル依存(因子構造・誤差独立など)であり、サンプルが小さいと推定の不安定化や過大化に注意が必要になる。

link.springer.com

pmc.ncbi.nlm.nih.gov

https://quantpsy.org/pubs/geldhof_preacher_zyphur_2014.pdf

最大化λ4(maximized λ4 = Guttman’s λ4)

λ4はスプリットハーフ信頼性をすべての二分割について計算し、その値が最大になる分割での信頼性をいう(これを慣習的にλ4と呼ぶ)。計算はシンプルで、半テスト得点𝑋・𝑌の共分散と全得点の分散から

を用いる(最良の二分割で最大化)。仮定が比較的ゆるく、αより小さく出にくいという実務的メリットがある一方、項目数が多い/標本が小さいと上方バイアス(過大推定)が起こりやすいという欠点が指摘されている。最適分割の探索は組合せ的に重いので、現実にはヒューリスティック(逐次交換、クラスタ法など)で近似的に最大値を探す実装が使われる。

https://www.cambridgeassessment.org.uk/Images/141299-an-empirical-assessment-of-guttman-s-lambda-4-reliability-coefficient.pdf

  • 層別α:下位テスト(サブスケール)を合算して総合スコアを作るときのベースライン。各下位テストの内部は概ね単一因子で、サブテスト間相関も踏まえて全体信頼性を出したいときに妥当。
  • 最大信頼性(H):重み付けされた合成を正式に使う、あるいはCFAで測定モデルが妥当と判断できるときに有力。単位重み合成に縛られないため、理論上もっとも高い信頼性を持つ合成得点を得られる反面、モデル仮定やサンプルサイズに敏感。
  • 最大化λ4:モデルを置きにくい・簡便にαより保守的でない下限を得たい、といった場面で有用。ただし小標本・多項目では過大推定に注意し、可能ならバイアス検討や他係数(ωやGLB等)と併用する。