Whooleyの2項目質問票の性能 - 井出草平の研究ノート

www.cambridge.org

Tsoi, K. K. F., Chan, J. Y. C., Hirai, H. W., & Wong, S. Y. S. (2017/2018). Comparison of diagnostic performance of Two-Question Screen and 15 depression screening instruments for older adults: Systematic review and meta-analysis. The British Journal of Psychiatry, 210(4), 255–260. https://doi.org/10.1192/bjp.bp.116.186932

Two-Question Screen（Whooley questions）

English: During the past month, have you often been bothered by little interest or pleasure in doing things?
日本語（私家訳）：この1か月間、物事に対する興味や喜びがほとんどないことで、しばしば苦しめられましたか。

English: During the past month, have you often been bothered by feeling down, depressed, or hopeless?
日本語（私家訳）：この1か月間、気分が落ち込む・憂うつになる・絶望的な気持ちになることで、しばしば苦しめられましたか。

回答は各項目 Yes / Noで行う。運用上は「どちらか1つでもYesなら陽性」として、追加評価へ進む。

要約

本論文は、高齢者におけるうつ病スクリーニングとして推奨されているTwo-Question Screen（2項目スクリーニング）の診断精度を体系的に整理し、GDS（Geriatric Depression Scale）など他の15種類のスクリーニング尺度と比較したシステマティックレビュー／メタ分析である。高齢者では身体疾患や施設入所など背景が多様で、うつ病の見逃しは自殺リスクや機能低下、医療利用増加にもつながるため、短時間で実施でき、かつ妥当な精度をもつ検査の選定が重要となる。

方法として、Medline・EMBASE・PsycINFOを各DBの最古年から2015年10月31日まで検索し、Google Scholar（各尺度名で検索し上位10ページを走査）と参考文献の手作業探索も併用した。対象は、参加者の平均/中央値が60歳以上で、うつ病の参照基準（gold standard）としてDSM/ICD、GMS–AGECAT、アルツハイマー病のうつ病暫定診断基準などの標準診断基準を用い、感度・特異度（または算出可能な2×2データ）を報告する研究である。英語の査読論文に限定し、検索で3件以下しか見つからない「稀な尺度」は除外した。バイアス評価はQUADAS-2を用い、研究品質の8項目評価も行った。統合解析は基本的に二変量ランダム効果モデルで感度・特異度をプールし、HSROC曲線とAUCで総合性能を示した（不安定な場合は別法へ切替）。

結果として、最終的に132研究（143コホート）・46,506名が含まれ、平均年齢は60〜87歳、うつ病診断は6,811名（14.8%）であった。対象尺度は計16種類で、自己記入/面接型の自己評価尺度が13、臨床家評価尺度が2（HRSD/HDRS、MADRS）、臨床家＋情報提供者評価が1（CSDD）である。全体として、多くの尺度は良好な診断精度を示し、例外的にOne-Question Screen（1項目）は最も低い性能（AUC 78%）として位置づけられた。

本題であるTwo-Question Screenについては、6研究7コホートが該当し、いずれもカットオフは「1（＝どちらか1つでも“はい”）」で統一されていた。プールした感度は91.8%（95%CI 85.2–95.6）、特異度は67.7%（58.1–76.0）、AUCは90%（87–92）であり、陰性尤度比は0.12と低く、「陰性であればうつ病を除外しやすい」特性が示唆される。一方で特異度は中等度であり、陽性尤度比は2.84にとどまるため、陽性者をそのまま診断確定とみなすのではなく、次段階評価（面接や精密評価）につなぐ前提の“スクリーニング”としての使い方が適する。また異質性は大きく、I²は感度で52.7%、特異度で94.1%であった。

他尺度との比較では、GDSが最も多く用いられており、短縮版（例：GDS-4）と長版（GDS-15/30）が概ね同等の性能で、運用上は短縮版が選好され得るという含意が述べられる。PHQ-2もTwo-Question Screen同様に2項目で良好な性能を示すが、PHQ-2は0–3の4件法で重症度を測るのに対し、Two-Question ScreenはYes/Noのみで運用がさらに簡便であるため、同一尺度としては統合せず別物として扱っている。

主要うつ病性障害（MDD）に限定したサブグループ解析（51研究から9尺度が対象）でも、Two-Question Screenは感度89.8%、特異度66.2%と「短くても十分良好」な水準に位置づけられた。PHQ-2は感度が非常に高い推定となるが信頼区間が極端に広く、根拠コホート数が少ない点が注意される。

著者らは結論として、自己評価尺度は臨床家評価尺度に匹敵する診断性能を持ち得ること、そしてTwo-Question Screenは1〜2分で実施可能な極めて簡便な尺度であり、他尺度と同等の診断性能を示すため高齢者スクリーニング・プログラムに好適であることを示した。限界としては、(1)多言語化に伴う文化差の影響、(2)スクリーニング前の重症度分布が十分に記録されていないこと、(3)同一集団でのヘッド・トゥ・ヘッド比較研究が少なく細かなサブ解析が困難なこと、(4)未公表研究の取りこぼしによる出版バイアスの可能性が挙げられている。