ウェブ調査におけるSatisfice

ウェブ調査で「ちゃんと答えない人」をどのように見極めるかという問題に関しての論文。ウェブ調査に限ったことではないのだろうが、ウェブ、オンラインといった新しい方法はケチがつけられるものなので、この種の研究は重要であろう。

もちろんウェブ調査で起こりやすいエラーは存在している。ウェブ調査では、会社のモニターがポイントなどの謝礼を受け取る代わりに、調査を受けるタイプのものが多いので、適当に書いてもバレなければ、適当に答えて、楽に報酬を受け取るケースは実際に生じている。

ci.nii.ac.jp

この研究はManiaci & Rogge 2014)を踏まえた研究であり、ARSとDQSという尺度はこの研究から邦訳されて使用されている。ただ、全体的な研究目的は異なっている。

Maniaci, M. R. & Rogge, R. D. (2014). Caring about carelessness: Participant inattention and its effects on research. Journal of Research in Personality, 48, 61–83. https://www.sciencedirect.com/science/article/abs/pii/S009265661300127X

Satisfice

Satisficeとは「調査協力者が調査に際して応分の注意資源を割かない行動」(Krosnick 1991)という意味だそうで、要するに質問文をきちんと読んで答えない、適当に答えるなどである。ウェブモニターなどではポイントなど報酬があることが多く、報酬を最適化して得ようということである。三浦・小林は「努力の最小限化」という訳語を充て ている。

Satisficeを日本語に翻訳してほしいと査読者からは言われたそうで、苦労の末「努力の最小限化」という訳語を作ったものの「正直あんまりぴったりしっくり来ているわけではない」と下記のインタビューでは答えている。確かに日本語でぴったりくる言葉はなさそうなので、このエントリでもSatisficeとしておく。

大学生はオンライン調査に“まともに”答えているか?

www.socialpsychology.jp

ARSとDQS

The Attentive Responding Scale(ARS; Maniaci & Rogge 2014)

Inconsistency尺度は、「私は活動的な生活を送っている」と「私は活動的な人間だ」など、意味は似ているが文章表現が異なる項目ペア(11組)間の回答値の差分を指標とするもので、値が大きいほど一貫性の低い回答をする努力の最小限化傾向が強いことを示す。
Infrequency尺度は、「人には好かれるより嫌われたい」「スピード違反の切符を切られるのは嫌だ」など回答値の度数分布が大きく歪む(前者は「まったくあてはまらない」、後者は「よくあてはまる」に回答が集中することが予想される)項目に対する回答と「回答が集中する選択肢」との差分を指標とするもので、値が大きいほど質問文を精読しない努力の最小限化傾向が強いことを示す。

Directed Questions Scale(DQS; Maniaci & Rogge 2014) 「これはダミーの質問です.何も選択しないで下さい」「「一番右」の選択肢を選んで下さい」などの質問から構成される尺度。

英語:
http://psy2.fau.edu/~maniaci/publications.html

日本語:
https://osf.io/ba6y9/
三浦・小林の論文のオンライン付録のページ。

Satisficerの検出力の高い2項目

Lasso: Least absolute shrinkage and selection operatorを用いた分析がされている。

ARSのInfrequency尺度に含まれる「スピード違反の切符を切られるのは嫌だ」という項目で、「あてはまる」と回答する人ほど映像関連設問での正答率が高かった。言い換えれば、スピード違反の切符を切られるのは万人にとって不快な体験であるため、「そう思わない」と回答する人は項目を精読していない可能性が高く、そうした人ほど正答率が低くなる(努力の最小限化をしやすい)ということになる。

努力の最小限化傾向の自己評定尺度に含まれる「回答をなるべく早く終えようとする」という項目が選択結果に追加された。しかしこの項目は「回答をなるべく早く終えようとする」人ほど正答率が高く、解釈には曖昧さが残った。

ということで、下記の2項目が候補になるとのこと。

  • 「スピード違反の切符を切られるのは嫌だ」
  • 「回答をなるべく早く終えようとする」

ちなみにLassoは回帰分析の中での予測子を減らしたり、重要な予測子を発見したりする方法である。ステップワイズ回帰を改善したものというとわかりやすいかもしれない。

マーケティング畑には、ステップワイズ回帰はまだ現まだ役だと言われる人もたぶんいるのだろうが、それは少し時代錯誤であって、Lasso以前はリッジ回帰が予測精度を改善するために使われいた。ただ、オーバーフィットが起こることがあるため、Lassoの方が優れている時の方が多いとされている。また、2000年代に入りリッジ回帰とLassoを組み合わせたElastic Netという方法も発表されている。

考察

Maniaci & Rogge(2014)によると、Satisficerは3.5%(Johnson 2005)、10–12%(Meade & Craig, 2012)、35–46%(Oppenheimer et al. 2009)のようだ。Oppenheimer et al.(2009)の割合が多いのが気になるので、また読んでみようと思う。

Maniaci & Rogge(2014)によるとSatisficeは「努力の最小限化による不注意回答が研究知見を劣化させることを示している。一方で、顕著な努力の最小限化傾向をもつ協力者は3~9%とごく少数である」とのことだ。

大学生サンプルでは努力の最小限化の出現率が低い傾向が示された。
Maniaci & Rogge(2014)では大学生とAmazon Mechanical Turkでほとんど変わらず、Donnellan, Lucas, & Cesario(2015)ではむしろ大学生サンプルの方が強い努力の最小限化傾向を示している。

海外のテストでは、一般のウェブ調査モニターと大学生でSatisficerの数は変わらない、むしろ大学生の方が多いくらいだったが、三浦・小林の研究での調査モードでは、大学生のSatisficerは少ない傾向がみられている。大学間のSatisficeの違いがなかったということも書いてあり、個人的な印象とは異なっていたので、意外だった。

大学生サンプルを対象とする際は、回答者の特性依存的な努力の最小限化傾向の検出に「躍起になる」必要はなく、むしろ調査内容によっては回答環境や端末を制御する(例えば映像刺激を含む調査なら自宅からPCでの回答を指示するなど)ことの方が重要であると考えられる。

映像を見るにはスマホは忌避されるだろう。Satisficeというよりも、パケットの消費が心配で動画再生をしたくない学生が多い気がするのだがどうだろうか。

もし、可能であるなら、DQSの「一番右の選択肢を選んで下さい」といった種類の設問で一番右以外を答えている学生を従属変数にした分析を見てみたい。

Satisficerといっても意図的なタイプ、例えば、全問真ん中を選ぶなどの場合、正しい情報が得られないので、どのような人がSatisficerになりやすいかという分析は難しそうだ。Maniaci & Rogge(2014)によるとSatisficerは少なくて3%でその場合、少数者の研究になるため、サンプルサイズを多少大きくする必要がある。9%ならば一番嘘をつかないだろう面接を調査法に混ぜることもできるかもしれない。ただ、Satisficerと面接は一番相性が悪い気もする。Satisficerを発見、電話で追跡調査が実現可能なところだろうか。

不注意なタイプの場合、DQSの質問が複数固まってあると、質問の異質さに気づいて、もう一回読み直して答える可能性も考えられる。検出項目を1項目か2項目にして他の質問に紛れさせる設定の方が有効そうなので、その種の研究も探して読んでみたい。

あと、気になったのは以下のものだろうか。

調査会社にIMCを含む調査実施を委託すると「「正しく答えない」ことを求める設問はモニタの信頼を損ねる」と拒絶される場合がある

確かに、調査会社は嫌がりそうだ。

参考文献
Krosnick, J. A. (1991). Response strategies for coping with the cognitive demands of attitude measures in surveys. Applied Cognitive Psychology, 5, 213–236. https://onlinelibrary.wiley.com/doi/abs/10.1002/acp.2350050305

Johnson, J. A. (2005). Ascertaining the validity of individual protocols from webbased personality inventories. Journal of Research in Personality, 39, 103–129. https://www.sciencedirect.com/science/article/abs/pii/S0092656604000856

Meade, A. W., & Craig, S. B. (2012). Identifying careless responses in survey data. Psychological Methods, 17, 437–455. http://www.gac-usp.com.br/resources/Identifying%20Careless%20Responses%20in%20Survey%20Data.pdf

Oppenheimer, D. M., Meyvis, T., & Davidenko, N. (2009). Instructional manipulation checks: Detecting satisficing to increase statistical power. Journal of Experimental Social Psychology, 45, 867–872. https://www.sciencedirect.com/science/article/pii/S0022103109000766