リッカート尺度の問題点とサーストーンスケーリングの復権

下記の論文から。

www.cambridge.org

「リッカートから75年：サーストンは正しかった！」
DRASGOWとCHERNYSHENKOとSTARKらのの論文。

サーストンの計測

1920年代後半、ルイス・サーストンは一連の注目すべき論文の中で、「態度は測定できる」（1928）と主張した（Thur stone (1927, 1929)も参照）。彼のアプローチの中心は、良心的な人は自分の態度を反映した発言を支持するが、「発言の不完全さ、不明瞭さ、無関係さ、被験者の不正確さ、不注意の結果」、誰もが正確に回答するとは限らないという仮定であった（1929, p.224）。

Thurstone, L. L. (1928). Attitudes can be measured. The American Journal of Sociology, 33, 529 – 554.
Thurstone, L. L. (1927). A law of comparative judgment. Psychological Review, 34, 273 – 286.
Thurstone, L. L. (1929). Theory of attitude measurement. Psychological Review, 36, 222 – 241.

f:id:iDES:20220106043421p:plain

重要なのは、サーストンの採点方法である。その人の態度は、その人が支持する範囲（発言）の平均値で示される」（p.539）。例えば、図2のfとdを支持する人、eとbを支持する人、cとaを支持する人、それぞれ2つの項目を支持しているが、その態度は全く異なっている。サーストンの採点方法は、単純な数ではなく、どの項目を支持したかに注目することで、同じ数の項目を支持しても、態度が異なる個人を区別することができるのです。

リッカートの計測

1932年、リッカートはサーストーンスケーリングに代わるより簡便な方法を提示した。いくつかのアプローチを検討したが、リカートは5段階評価尺度（選択肢は「強く賛成する」「反対する」）を使用することが有効であることを見出した。「賛成」「どちらともいえない」「反対」「強く反対」、そして整数点（「強く賛成」＝5...「強く反対」＝1）で採点すると、サーストン・スケーリングと「少ない項目で同じ信頼性、同じ数の項目で高い信頼性」が得られた（p.34）。

Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 22, 1 – 55.

Likertはその手順について心理学的モデルを明確にしていないが、彼のアプローチはCoombs（1964）が優位性反応プロセスと呼ぶものを含意している。

Coombs, C. H. (1964). A theory of data. New York: Wiley.

私たちは、心理学でよく見られるように、Likertが線形関係だけを調べたために、誤解されたと考えている。

リッカートの計測で測れないもの

リッカートとサーストンの決定的な違いは、「すべての国の強制的な軍事訓練は減らすべきだが、なくすべきでない」（p.34）のような中間的な表現にかかわるものである。リカートは、「この文の『減らす』という側面と『なくさない』という側面のどちらに賛成なのか反対なのかがわからない」ため、「この状態文は二重構造で、人の態度を区別しないので価値がない」（p34）と主張した。したがって、リッカートはこの中間的な記述のような項目を削除することを推奨した。一方、サーストンは、図2の文eのように、この文は中間的な立場の人の意識を正確に測定するために必要なものだと考えていた。そのため、サーストンはあえて中間的な項目を作成し、測定に取り入れた。
リッカートは、項目-総相関をもとに、二重棒状の項目は価値がないと結論づけた。彼は「相関係数がゼロか非常に低い場合、その文は他の文が測定していることを測定できていないことを示している」（48頁）、「したがって項目分析は、与えられた態度尺度に含まれる限り、どの文の満足度を明らかにする」（49頁）と主張した。

結論

1932年にリッカートが論文を書いてから75年が経過し、彼のアプローチは、人が内省的な判断を行う根本的なプロセスを正当化するものではないことを示す有力な証拠があると我々は考えている。確かに、大まかなアプローチとしてはリッカートの尺度はうまく機能する。しかし、選択過程を忠実に表現する必要のある研究や応用にはリッカート方式は欠点がある。
心理学者が研究に必要なアセスメントツールを開発する際には、測定方法が回答者の意思決定プロセスと調和していることが重要である。P-Oフィットやパーフォマンス評価は、測定方法が人々の判断方法と一致するように設計できる領域の良い例である。これにより、調査参加者はアンケートへの回答がより簡単でわかりやすくなり、収集されるデータの質も向上するはずである。
また、回答者の作業を容易にするだけでなく、研究者はより良い評価ツールを設計することができるはずである。Frederic Lord (1980)が、彼の代表的な論文「Applications of Item Response Theory to Practical Testing Problems」を出版してから30年が経ち、今日、そのデザイン、管理、採点に3PLMまたはRaschモデルを使用していない認知能力テストを見つけることは困難であるだろう。おそらく、あと30年もすれば、内観を必要とする領域（例えば、性格、価値観、パフォーマンス）のテストにおける理想点IRTモデルの使用について同じことが言えるようになるだろう。
先に述べた性格、P-Oフィット、職務遂行能力に加え、理想点モデルは産業・組織心理学における他の多くの重要な変数にも有用に適用することができます。例えば、職務満足度、組織コミットメント、リーダー行動、主観的幸福感、知覚的組織支援、その他多くの変数が理想点モデルによって有益に概念化され、評価される可能性がある。
つまり、適切な測定モデルを用いることで、研究や実践の改善に大きな期待が持てると考えている。理想点モデルは、測定器の改善、項目内容と心理測定パラメータのより分かりやすい関連付け、CATのような洗練されたアプリケーションを促進するはずである。もちろん、まだ多くの問題や課題が残っているが、過去100年間、心理学者がドミナンスモデルに多大な努力を注いできた。それに対して、理想点モデルの研究は、ごく少数の心理測定学者によって行われ、応用測定問題への応用もほとんど行われていない。新しい創造的な研究のチャンスは非常に大きい。

多次元ペアワイズ選好（MDPP）形式

多次元ペアワイズ選好（MDPP）形式に対する我々のIRTモデルは、多次元ペアワイズ選好モデル（MUPPM; Stark, 2002; Stark et al.2005）は、人々はまず2つの状態のそれぞれが自分を記述しているかどうかを決定すると主張する。この最初のステップは、GGUM2000 (Roberts et al., 2001)によってモデル化される。そして、どちらか一方（両方ではない）が記述されていると判断された場合、その記述を選択する。両方、あるいはどちらも選ばれなかった場合、回答者はThurstone（1927）の判別プロセスに似た方法でそれぞれの文を再考し、正確に一つの文が自分を記述していると認識されるまで、その文を選択する。我々のシミュレーションと経験的研究（Chernyshenko et al.、2009；Stark et al.、2005）により、MUPPMを用いて一対の選好反応を分析した場合、正確な潜在特性推定値（すなわち、規範スコア）を得ることができることが示されている。
強制選択式の状態選択を適切に表現できるIRTモデルを用いることで、新しいタイプの評価手法の開発において興味深い可能性が広がる。例えば、テストプールの記述数が増加すると、形成可能な強制選択項目の数は飛躍的に増加し、コンピュータ適応型テスト（CAT）には理想的である。このため、MDPP形式を用いたアダプティブ・テストでは、適度な大きさのテストプール（例えば、性格面ごとに40〜50個）を用いれば、テストの社会的望ましさや位置パラメータに制約があっても、数万件の項目を生成することが可能である。従来のIRTモデルと同様に、シミュレーション研究により、CATは、非適応型テストと比較して、良好な測定精度を達成するために必要なMDPP項目数を大幅に削減することが示されています（Stark & Chernyshenko, 2007）。重要なのは、多数の潜在的な組み合わせがあることで、プロクタリングされていないWebベースのテスト環境では、テストの妥協点が少なくなることである。

Stark, S. (2002). A new IRT approach to test construction and scoring designed to reduce the effects of faking in personality assessment. Unpublished doctoral dissertation, University of Illinois at Urbana–Champaign.
Stark, S., Chernyshenko, O. S., & Drasgow, F. (2005). An IRT approach to constructing and scoring pairwise preference items involving stimuli on different dimensions: The multi-unidimensional pairwise-preference model. Applied Psychological Measurement, 29, 184–203.
Roberts, J. S. (2001). GGUM2000: Estimation of parameters in the generalized graded unfolding model. Applied Psychological Measurement, 25,38.
Chernyshenko, O. S., Stark, S., Chan, K.-Y., Drasgow, F., & Williams, B. (2001). Fitting item response theory models to two personality inventories: Issues and insights. Multivariate Behavioral Research, 36, 523–562.

多次元ペアワイズ選好モデル(IRT model for the multidimensional pairwise preference)というのは分からないので調べてみるしかない。