井出草平の研究ノート

網膜眼底写真の特徴でADHDをスクリーニング

www.nature.com

  • Choi, H., Hong, J., Kang, H. G., Park, M.-H., Ha, S., Lee, J., Yoon, S., Kim, D., Park, Y. R., & Cheon, K.-A. (2025). Retinal fundus imaging as biomarker for ADHD using machine learning for screening and visual attention stratification. Npj Digital Medicine, 8(1), 164. https://doi.org/10.1038/s41746-025-01547-9

報道など

www.mk.co.kr

https://www.koreabiomed.com/news/articleView.html

chadd.org

論文サマリー

背景と目的

網膜は脳と発生学的に近く、ドーパミン作動性機能とも関連するため、ADHD非侵襲バイオマーカーになり得るという仮説に基づき、網膜眼底写真+機械学習ADHDスクリーニングと実行機能(EF)下位領域の層別化が可能かを検証した研究である。

対象・デザイン

韓国の2病院でADHD 323名(<19歳、2022年4–10月)を前向きに募集し、年齢・性別をマッチさせた典型発達(TD)323名は眼科で後ろ向き収集(2007–2024年)。合計646名・1108眼のカラー眼底画像を解析した。ADHD群の一部はK-ARS、EF評価としてCAT(VSA/ASA/SART等)を施行。

画像処理・モデル

AutoMorphで視神経乳頭・血管・動静脈などをセグメント化し、血管密度、平均血管幅、フラクタル次元、カップディスク比など多数特徴量を抽出。RF/XGBoost/ExtraTrees/ロジスティック回帰で学習し、5分割層化CV(各foldで60/20/20=学習/検証/テスト)。予測は参加者単位に確率集約。解釈はSHAPで実施。

主結果

  • ADHD vs TD識別:AUROC 95.5–96.9%。最良のXGBoostで感度91.6%/特異度92.0%。重要特徴は血管密度動脈フラクタル次元血管幅CDRなど。
  • EF層別化視覚選択的注意(VSA)SARTは良好(多くのモデルでAUROC≥0.7〜0.8)だが、聴覚選択的注意(ASA)は不良。K-ARS重症度はAUROC<0.6。
  • ADHD vs ASD弁別は低成績(最高AUROC 0.63)。

公開情報

外部独立データでの検証は未実施。データは一部AI-Hubを使用。解析コードはGitHubで公開

含意

本手法は診断の代替ではなく、非侵襲のスクリーニング候補として有望性を示した段階である。特に視覚系の注意に関する層別化に手掛かりを与える一方、実臨床導入には外部検証と鑑別妥当性の強化が不可欠である。


以下、解釈

この研究の主な限界・懸念点

1. 外部検証なし(internal CVのみ)
5分割の層化クロスバリデーションで「学習60%・検証20%・テスト20%」を回しただけで、独立データでの外部検証は行っていない。高いAUC(〜0.97)はデータ内評価ゆえに楽観的に出やすく、汎化性能は不明。報告指針(TRIPOD+AI)は外部検証の重要性を強調。

2. ユニット(眼)とラベル(人)との不整合とリークのリスク
多くの参加者で両眼の写真が解析に使われている。方法には被験者単位での分割を明示しておらず(補足でも外部検証なしと明記)、片眼が学習・もう片眼がテストに入る「類似サンプルの混入」で成績が過大化するおそれがある。臨床では人単位の判定が必要で、その集約評価(人単位の感度・特異度)は報告されていない。

3. サンプル選択の偏り(spectrum bias)と一般化可能性
ADHD群は薬物歴なし(当日・既往とも)で、ASDや不安など併存精神疾患を除外。対照群は**眼科の後ろ向き収集(2007–2024年)**で、年齢レンジも狭い(平均9.5歳)。現実の外来は併存症や薬物治療例が多く、ここまで「きれいな」サンプルで得た所見は一般臨床へ外挿しにくい。著者も限界として明記している。

4. デバイス/施設・時期差というバッチ効果の懸念 ADHD画像は2022年の2施設、対照は同一施設眼科で2007–2024年に収集。カメラや撮像条件・時期の違いがクラスに紐づいた交絡になりうる(モデルがADHDではなく「機器/施設の違い」を学習)。論文はAutoMorphで解像度差を考慮したと書いてあるが、施設やデバイスを交絡として統計的に制御した記述はない。施設横断の検証(leave-one-hospital-out等)が必要。

5. ADHD“特異性”の不足
ADHDASDの弁別はAUC最大0.63と低く、網膜所見が「ADHDに特異的」ではない。併存・鑑別が多い実臨床では、偽陽性や誤分類の懸念が残る。

6. 臨床有用性(PPV/NPV)評価が楽観的
報告されたPPV/NPVは50:50に近いバランスサンプルで推定されている。一般集団のADHD有病率は約5%なので、同じ感度0.916・特異度0.920でも事前確率5%での陽性的中率(PPV)は約38%に低下する(=陽性の約6割が偽陽性)。集団スクリーニングの実装を論じるなら、現実的な有病率での指標が必要。

7. 重要交絡(近視・眼軸長・屈折等)の扱いが不十分
本研究で有力特徴とされた血管密度・口径・フラクタル次元・視神経乳頭形状はいずれも近視・眼軸長・屈折状態の影響を強く受けるが、これら眼科的パラメータの測定・調整は記載がない。最近の研究でも眼軸長や近視が血管密度やフラクタル次元を系統的に変えることが示されている。

8. 生物学的外挿の範囲(視覚優位)
本研究が視覚系課題(VSA・SART)では良好聴覚系課題(ASA)では不良という非対称な成績を示したこと自体、網膜(=視覚)由来のシグナルがADHDの一部側面(視覚注意)には効くが全体像はカバーしないことを示唆する。ADHDは前頭線条体回路だけでなく小脳ネットワークの異常も再現良く報告され、病態は不均一。網膜バイオマーカーが全サブタイプを拾える前提は置けない。

9. 薬物影響と対象集団の乖離
著者らも指摘する通り、メチルフェニデート(MPH)など中枢刺激薬が網膜循環や厚みに影響しうる報告がある。本研究は薬物未使用例に限定しており、治療中の多数派が来る実臨床への一般化に注意が必要。


現実の有病率に合わせたPPV/NPV試算、既存の客観的検査(QbTestなど)との比較表

前提(根拠データ)

  • 網膜眼底×ML(Choi 2025, npj Digital Medicine) ADHD vs 典型発達のベストモデル(XGBoost):感度 91.6%・特異度 92.0%、AUROC 0.969(いずれも内部CV)。外部検証は無し。

  • 一般小児のADHD有病率:概ね 約5%。試算では 5%(一般集団)・15%(学校紹介など中等リスク)・30%(専門外来の高リスク)を使用。

  • QbTest NICEの診断ガイダンスDG60は6〜17歳で標準的臨床評価に「補助的に」使用可と推奨(単独使用は不可)。性能のメタ解析では単独では識別能は中等度(AUC 0.7前後、感度・特異度は研究により幅)。本表では文献レンジを代表する2条件で試算: ①楽観的ケース 感度0.65・特異度0.83(レンジ上限寄り)/②悲観的ケース 感度0.48・特異度0.65(下限寄り)。

  • CPT(例:CPT-3)総説
    小児思春期のCPT総合スコアで感度0.75・特異度0.71(プール解析)。単独では鑑別能は「せいぜい中等度」。

PPV/NPV 試算(有病率別)

公式:PPV = (感度×有病率) / [(感度×有病率)+{(1−特異度)×(1−有病率)}],    NPV = (特異度×(1−有病率)) / [(特異度×(1−有病率)) + {(1−感度)×有病率}]

検査 / 仮定 有病率 PPV NPV
網膜×ML(感度0.916・特異度0.920) 5% 37.6% 99.5%
15% 66.9% 98.4%
30% 83.1% 96.2%
QbTest(楽観)感度0.65・特異度0.83 5% 16.8% 97.8%
15% 40.3% 93.1%
30% 62.1% 84.7%
QbTest(悲観)感度0.48・特異度0.65 5% 6.7% 96.0%
15% 19.5% 87.6%
30% 37.0% 74.5%
CPT総合(感度0.75・特異度0.71) 5% 12.0% 98.2%
15% 31.3% 94.1%
30% 52.6% 86.9%
  • 網膜×MLは有病率が低い現場(一般集団5%)ではPPVが37.6%に留まる。一方でNPVは99.5%と非常に高く、「陰性でADHDの可能性が低い人をふるい落とす」用途には理論上向く可能性がある。ただし外部検証なし・交絡の懸念が大きく、臨床導入は時期尚早。
  • QbTestはガイドラインで「補助的に可」だが、単独での識別能は中等度。PPVは有病率に強く依存、5%では16.8%(楽観ケース)〜6.7%(悲観ケース)。陰性的中率は高いため、除外補助としては一定の価値があり、RCTでも診断までの時間短縮が示されている。
  • CPT(例:CPT-3)も単独では中等度で、PPVは低め(5%で12.0%)。臨床判断・問診・評定尺度を中核に、客観検査は補助という立ち位置が妥当。