日常臨床における診断横断的CGIスコアリング

www.ncbi.nlm.nih.gov

Dunlop, B., Gray, J., & Rapaport, M. (2017). Transdiagnostic Clinical Global Impression Scoring for Routine Clinical Settings. Behavioral Sciences, 7(3), 40. https://doi.org/10.3390/bs7030040

要旨

日常診療の場で患者の経時的変化を追跡する能力を向上させることに大きな関心が寄せられているが、多忙な臨床医が適用できる標準化された経診断的尺度は現在のところ存在しない。Clinical Global Impression（CGI）尺度は、精神科臨床試験のアウトカムとして広く用いられている簡便な尺度である。しかし、CGIはアンカーが明確に定義されていないことに苦しんでいる。アンカー記述を強化することでアンカーを改善する努力は有用であることが証明されているが、疾患特異的であることから限界があり、CGIの日常的な臨床採用の障壁となっている。より広範に適用可能なCGIスコアリングのアンカーを開発するために、我々は24人の臨床試験責任者を対象に調査を行い、CGI-Severity（CGI-S）スコアリングに反映される7つの要素の順位付けを依頼した。症状の重症度はCGI-Sスコアを決定する上で最も重要な要素として浮上し、患者の機能的状態は2番目の要素として浮上した。自己申告による症状スコア、スタッフの観察、副作用はあまり重要視されなかった。各要素の重要度の相対的順位は、治験責任医師の経験や通常患者とともに過ごす時間による差はなかった。我々は、これらの結果を公表されている疾患特異的CGIアンカーと統合し、精神疾患全体に適用可能な標準化された得点アンカーを用いたTransdiagnostic CGI（T-CGI）を開発した。妥当性と信頼性の評価を待つまでもなく、T-CGIは日常的な臨床の場に取り入れたり、治療効果の簡便で有用な尺度として電子カルテに取り入れたりするのに適していることが証明されるであろう。

1. はじめに

精神疾患の治療において基本的なことは、介入によって患者が病気から回復しているかどうかを臨床家が判断できることである。臨床試験において、新しい治療法の潜在的な有効性を判断するためには、正確で一貫性のある改善度の測定が極めて重要である。しかし、患者の転帰を改善するために測定に基づくケアの価値が実証されているにもかかわらず、日常的な臨床現場では標準化された変化の尺度の導入が遅れている [1,2,3] 。臨床の一環として症状評価尺度を日常的に使用している精神科医は20％未満である [4] 。この採用率の低さは、時間のかかる疾患別の評価尺度が多忙な臨床現場では現実的な選択肢でないことや、既存の評価尺度の臨床的有用性が限定的であるという臨床家の認識に起因している [4,5] 。疾患の重症度や経時的変化を簡単かつ確実に捉えることのできる他覚的評価尺度の開発は、この満たされていない臨床的ニーズに応えるものである。

歴史的には、症状評価尺度が有効性を評価するための主要な手段であった。なぜなら、症状評価尺度は心理測定学的特性が確立されており、さまざまな症状を評価できるからである。しかし、臨床試験で一般的に用いられている様々な尺度の信頼性と妥当性にはいくつかの懸念が存在し、評価尺度の得点は、マスクされた評価者または自己報告式の質問票で患者が新たな症状として得点する薬剤の副作用（食欲や睡眠の変化など）によって混乱する可能性がある [6,7] 。さらに、治療効果の有意義な評価には、QOLや機能レベルなど、症状の変化だけではない要素を考慮する必要がある [8,9] 。患者が自分自身のQOLをどのように認識しているかは、症状評価尺度のスコアでは部分的にしか説明できず [10] 、機能的状態の変化を尺度で完全に把握することはできない [11] 。一般的に、症状の軽減に伴って機能は改善するが、これらの概念は必ずしも一致せず、機能的変化 [12] やQOLの向上 [13] は症状の変化に遅れることが多い。

Clinical Global Impression（CGI）尺度は、患者の状態に対する臨床医の全体的な印象（CGI-重症度、CGI-S、「正常」から「最も重症の部類に入る」まで1～7で評価）と経時的変化（CGI-改善度、CGI-I、「非常に改善した」から「非常に悪化した」まで1～7で評価）を反映する簡略化されたグローバル尺度として開発された [14] 。CGI尺度の魅力は、臨床ケアへの転用が容易なことである；CGI尺度は、臨床医が患者を評価し、治療を決定する際に用いられる一般的なヒューリスティック指標である [15] 。しかしながら、オリジナルのCGI尺度の重要な限界は、アンカーポイントが明確に定義されていないことである [15] 。古典的な症状評価尺度の改訂では、アンカーポイントの記述があいまいであったり、存在しなかったりすることが、採点における信頼性を欠く重大な原因であることが指摘されており、数値得点に明示的な記述を追加することで対処されている [16,17,18] 。CGIでは、評価者の経験もばらつきの原因となる可能性があり、これは尺度が評価を行う際に「指定された集団に関する総合的な臨床経験を考慮する」と指示しているためである [14] 。したがって、評価者間の信頼性を向上させるためには、CGI尺度のより詳細なアンカーポイントの記述が必要であり、CGIの疾患別バージョンについては、いくつかのグループによって開発されている [19,20,21,22,23,24,25,26] 。

評価者間信頼性に関する懸念に加え、CGIの心理測定学的評価では、疾患集団によっては妥当性、スケーリング、試験再現信頼性に潜在的な問題があることが確認されている [27,28,29,30] 。このような懸念にもかかわらず、LeonらはCGI尺度が良好な内的一貫性と同時妥当性を有することを明らかにした。実際、CGI尺度は、大うつ病 [32] 、社会恐怖症 [33] 、心的外傷後ストレス障害 [34] 、パニック障害 [35] 、むちゃ食い障害 [36] 、複雑性悲嘆 [25,26] など、さまざまな病態の臨床試験において主要転帰尺度として用いられている。臨床試験における採点の信頼性を向上させることを目的としたCGIの最近の修正版であるStructured Interview Guide for Global Impressions [37] の実施には約10分が必要である。臨床試験の受診時に尺度を実施するのに10分は過大ではないが、これは精神科の外来診察に割り当てられる時間の33～50％に相当し、日常臨床の場では非現実的である。

まとめると、CGI尺度は日常的な臨床場面での評価ツールとして潜在的な有用性があると思われるが、疾患間で適用可能なアンカーを持つことで採用率が向上し、採点に使用するアンカーポイントを明確にすることで信頼性を高めることができるであろう。これらの目標を達成するために、我々は大うつ病の臨床試験においてCGI評価を実施している研究者を対象に調査を行い、CGI-S評価に用いられる要素の重要性を検討した。この調査結果を、いくつかの精神疾患の臨床試験で使用されたCGIの採点ガイドラインと統合することにより、精神疾患を横断して（transdiagnostically）CGIを採点するためのアンカーを開発することを目指した。

2. マテリアルと方法

トランス診断的CGIのスコアリング・アンカーを作成するために、気分障害、不安障害、精神病性障害に精通した臨床試験担当者グループに、大うつ病性障害の研究のための研究者会議に参加してもらった。我々は、彼らがCGI-Sスコアを作成する際に最も重要と考える要素を評価するための質問票を作成した。この質問票はエモリー大学施設審査委員会の承認を得て、会議中に配布された。

質問票は1ページで構成され、CGI-S評価を決定する際に使用する7つの要素の重要度を1から7までランク付けするように指示した。質問票には、「1」が最も重要な要素であり、「7」が最も重要でないと記されていた。質問票には、ある薬物の8週間のプラセボ対照試験の4週目の患者を評価するかのように答えるよう指示されていた。今回の会議はうつ病試験のためのものであったので、我々は以下の7つの要素を選び、表1に示した。質問票には空欄があり、CGI-S評価に関連するその他の要素を記入することができた。

表1 Clinical Global Impression-Severity (CGI-S)スコアを作成する際に考慮した構成要素をランク付けするための質問票。因子順位（1-7）問診時に患者が口頭で報告した症状の重症度
機能状態に関する患者の口頭による報告
患者の行動の観察可能な側面客観的評価尺度得点（ハミルトン、モンゴメリー・アスバーグ）主観的評価尺度得点（ベック、抑うつ症状目録）
患者が経験した副作用の程度患者を観察した研究コーディネーターまたは他の研究スタッフのコメントその他（記入してください）：

CGI評価に寄与する要素に加えて、質問票には、(1)研究者の学位、(2)研究者がCGI評価を実施した研究の数、(3)試験途中の来院で患者と過ごす通常時間（10分未満、10〜19分、20〜29分、30分以上のカテゴリーがある。）治験責任医師の個人情報は収集されなかった。

質問票データはSPSS version 24.0（SPSS Inc.）連続データについては平均値と標準偏差を計算し、カテゴリーデータは度数として評価した。各要素の総合順位は、強制順位データを平均して算出した。治験責任医師は、過去の研究でCGI評価を20件以上実施したか、20件未満実施したかに基づいて、経験の多いカテゴリーと経験の少ないカテゴリーにそれぞれ分類された。同様に、患者との面会時間を分析するために、調査者は2群に分けられた： <20分未満と20分以上である。これらの群間のCGI評価要素の平均値の比較はマン・ホイットニーのU検定で行い、CGI-S評価のランク付けされた要素間の関係を調べるためにスピアマンの相関を用いた。

3. 結果

24名の研究者（医師20名、博士3名、回答者不明1名）がアンケートに回答した。CGI評価を行った試験の範囲は0から150（中央値＝20）であった。10人の研究者が20件未満の試験でCGIを実施し、12人が20件以上の試験でCGIを実施したと報告した（2人は回答漏れ）。13人（54.2％）の治験責任医師が、試験途中の来院で患者と20分以上、11人（45.8％）が20分未満を過ごしたと報告した。報告された面接時間は、CGI評価の経験が多いか少ないかで差はなかった（p = 0.868）。

CGI-S評価の決定に用いられた要素の平均順位は図1に示されている。2つの最も重要な要素は、調査者の面接に基づく症状の重症度と、客観的な臨床医の評価に基づく症状スコアであり、平均順位はほぼ同等であった。また、臨床医の問診に基づく機能、および患者の観察可能な行動も高い順位を示した。自己申告による症状スコア、スタッフの観察、副作用は比較的重要視されなかった。CGI-S得点に寄与する要素の相対的順位は、治験責任医師の経験（すべてp≥0.159）または患者と共に過ごした時間（すべてp≥0.163）によって差がなかった。また、CGI-Sの評価を作成する際に他の情報を用いたことを示すために、質問票の空欄を使用した調査者はいなかった。

図1 CGI-S得点に寄与する要素の平均順位。説明のために、より重要な要素がより高いスコアで表されるように、スコアリングは逆になっている。縦棒は95％信頼区間を表す。

スピアマンの相関から、客観的尺度得点に割り当てられた順位と主観的尺度得点に割り当てられた順位との間（rho = 0.425、p = 0.049）、および観察された行動と副作用の順位との間（rho = 0.466、p = 0.029）に中程度の正の相関が認められた。その他の要素の順位間には臨床的に有意な相関はみられなかった。

4. 議論

臨床試験における治験責任医師がCGI-S評価をどのように行っているかを検討した結果、CGI-Sスコアを決定する上で最も重要な要素は、臨床医による評価尺度であれ、治験責任医師による問診であれ、臨床症状の評価であることがわかった。患者の機能的状態は、スコアリングの2番目に重要な要素であった。対照的に、自己申告による症状スコア、スタッフの観察、副作用はあまり重視されなかった。これらのCGI-S得点要素の相対的な重要性は、治験責任医師の経験や、治験責任医師が来院時に患者と過ごした時間によって有意に影響されることはなかった。CGI-Sスコア作成における経験の多い治験責任医師と少ない治験責任医師との間のCGI要素の強調のこの一貫性は、CGI尺度の直感的価値を反映している [15] 。

これらの結果は、治験責任医師のCGI評価に関する先行研究と一致している。2件の先行研究では、治験責任医師のCGI得点は自己報告得点よりも評価者ベースの尺度得点との関連性が高いことが明らかにされている [31,38] 。抑うつ障害とパニック障害を併存する患者の研究では、症状スコアの変化がCGI-Sスコア（分散の38～40％）とCGI-Iスコア（分散の26～40％）の最大の要因であった [31] 。社交不安障害の研究では、CGI-S得点は主に自己報告による社交不安症状（分散の28～55％）によって駆動され、症状の重症度、抑うつ、障害の臨床家評価による評価が他の有意な割合を占めていた [33] 。同様に、統合失調症の臨床試験のプール解析では、臨床医が評価した症状の重症度の変化はCGI-I得点と密接に相関していた [39] 。

最近、Shear氏らは、複雑性悲嘆を有する患者におけるCGI-SとCGI-Iの得点のアンカーポイントが明確に定義された2つの大規模試験において、主要アウトカムとしてCGI-Iを用いて、新しい形態の心理療法である複雑性悲嘆治療の価値を示した [25,26] 。抑うつ気分に加え、複雑性悲嘆は、故人への強い慕情、故人を想起させることの回避、愛する人の死の現実を受け容れられないという強い感情によって特徴づけられる [25] 。これらの症状は、複雑性悲嘆のCGI得点アンカーに統合されており、他の精神疾患の研究にこれらのアンカーを直接適用することを妨げている。しかしながら、これらの試験における構造化CGI-Iの成功と証明された評価者間信頼性は、明示的なCGI得点アンカーを開発することで、より広く臨床治療設定における尺度の有用性を改善できることを示唆している。

測定に基づくケアの擁護者は、治療決定は症状評価尺度の得点のみに基づいてはならず、測定に基づくケアは臨床的判断の代用にはならないことを認めている [40,41] 。患者は一貫して、症状、機能、QOLのすべてが重要な治療目標であると精神疾患全体で認識しており、これらの因子をとらえる診断横断的なグローバル尺度が臨床的価値を持つ可能性を示唆している。したがって、症状尺度のみから得られる以上の患者理解を捉える臨床状態の実用的な尺度を開発する必要がある [42,43] 。

この必要性を満たすために、我々はTransdiagnostic CGI（T-CGI）を作成した（表2）。診断横断的な適用と評価の信頼性向上という目的を達成するために、我々はCGI-SとCGI-Iについて、特定の疾患要素に依存しない明確なスコアリング・アンカーを定義した。このアンカーは、研究者の調査結果と公表されている疾患別CGI評価のアンカーを比較して作成した。これらの比較により、調査者が強調した因子と、様々な疾患特異的CGIアンカーに含まれる構成要素との間に一貫性があることがわかった [19,20,21,22,23,24,25,26] 。疾患特異的CGIアンカーのうち、Shearらによって複雑性悲嘆のために開発されたアンカーは、診断横断的バージョンに最も適切に拡張されたアンカーであると考えられた。具体的には、これらのアンカーは、症状レベルと機能的状態との間の最も大きな統合を示し、個々の患者のCGI-S得点とCGI-I得点との間の論理的関係を同定した [25,26] 。その結果、T-CGIを複雑性悲嘆のCGI修正に倣ってモデル化した（表3）。T-CGIアンカーは、各スコアリングレベルの症状負担とともに機能的状態を意図的に記述しており、すべての重症精神疾患で考慮されるべき自殺念慮以外の特定の症状には言及していない。

図2　診断横断的CGI-SおよびCGI-I（CGI-I）のスコアリング・アンカー

T-CGI-重症度		T-CGI-改善
深刻度評価	深刻度レベルの説明	改善度評価	改善レベルの説明
1. 通常	症状はめったに現れず、適切な状況下でのみ発現する。患者は、自分の能力をフルに発揮しているか、それに近い状態で機能していると報告する。	1. 非常に改善された	患者も臨床家も、症状および役割機能の両面で、ベースラインから大きく改善したことに同意している。T-CGI-Sスコアは軽度(3)以下であるべきであるが、まれにベースラインの重症度が非常に高い場合は中等度(4)になることもある(7)。T-CGI-Sスコアが正常(1)であれば、T-CGI-Iスコアは1であるべきである。
2. 境界病理	症状の数は少なく、断続的にしか現れず、通常は軽度の重症度しかない。役割機能への支障はほとんどない。	2. 非常に改善された	患者は、臨床的に意味のある明確な症状の軽減と役割機能の改善を経験しているが、疾患による苦痛または障害が持続している。T-CGI-Sスコアは中等度(4)以下でなければならないが、ベースラインの重症度が非常に高い場合は、まれに著明(5)になることがある(7)。
3. 軽症	症状は明らかに存在し、苦痛の原因となっているが、機能の低下はごくわずかか、まったくない。	3. ほとんど改善されていない	症状には検出可能な改善が見られるが、役割機能にはほとんど改善が見られない。変化の臨床的意義はごくわずかである。
4. 中等症	症状は毎日またはほぼ毎日みられるが、時に軽減することもある。かなりの苦痛が存在するが、耐えられる。重要な役割の機能はいくぶん低下しているか、高いレベルの努力によってのみ維持されている。自殺念慮が存在することもあるが、通常は生きたいという願望がある。	4. 変化なし	症状も役割機能も、ベースラインから意味のある変化はない。
5. 重症	症状は強い苦痛を伴い、患者は人生の重要な役割を果たすのに非常に苦労する。積極的な自殺念慮がみられることもある。	5. 軽度の悪化	症状の悪化は認められるが、役割機能にはほとんど変化がない。その変化の臨床的意義はごくわずかである。
6. 重症	症状はほぼ一定で強い苦痛を伴い、患者は人生の重要な役割を果たすことができない。積極的な自殺念慮がみられることもある。	6. かなり悪い	症状や役割機能がベースラインから明らかに悪化している。治療の変更を強く考慮すべきである。
7. 最重症の患者	症状が非常に重篤なレベルで継続的に存在する。患者は基本的な機能を維持することができない。積極的な自殺念慮が通常みられる。通常、入院が必要である。	7. 非常に悪い	症状も役割機能もベースラインより劇的に悪化している。治療の変更は間違いなく必要である。

表3 参考文献[26]の2つの複雑性悲嘆CGIスコアリング・アンカーとT-CGIスコアリング・アンカーとの比較。[26]とT-CGIスコアリング・アンカーとの比較。

複雑性悲嘆 CGI-S 中等度（スコア = 4）	T-CGI-S中等度（スコア＝4）
複雑性悲嘆の症状が存在し、ほとんどの日に、苦痛を伴うが耐えられるレベルで侵入してくる。活動や人間関係に若干の支障があるが、機能が大きく損なわれることはない。喪失を思い出させるものを避けることがある。目的意識または意味意識は通常存在するが、これについて混乱がある場合もある。自殺念慮が存在することもあるが、通常は生きたいという願望がある。一時的に気をそらすことは可能であるが、症状は持続的で臨床的に重要である。	症状は毎日またはほぼ毎日みられるが、時に軽減することもある。かなりの苦痛が存在するが、耐えられる。重要な役割の機能はいくぶん低下しているか、高いレベルの努力によってのみ維持されている。自殺念慮が存在することもあるが、通常は生きたいという願望がある。
複雑な悲嘆 CGI-I 大幅に改善（スコア = 2）	T-CGI-I 大幅に改善（スコア = 2）
ベースラインと比較して、CGによる苦痛と障害が確実に改善されたという証拠があり、この改善は確実に臨床的に有意である。患者は、悲嘆が自分の人生で果たす役割に何らかの違いがあることに気づいている。CG-CGI-Sスコアは通常、中等度（4）以下である。しかし、ベースラインの重症度が非常に高い場合(7)、患者はかなり改善しても悲嘆症状がまだ顕著であることがある(5)。	患者は、臨床的に意味のある明確な症状の軽減と役割機能の改善を経験しているが、疾患による苦痛または障害が持続している。T-CGI-Sスコアは中等度(4)以下でなければならないが、ベースラインの重症度が非常に高い場合は、まれに著明(5)になることがある(7)。

T-CGIの利点は、さまざまな疾患の患者を評価できる柔軟性に加えて、臨床医が周辺症状よりも中核症状を強調できることである。ほとんどの症状評価尺度では、症状の重み付けに差はない。例えば、MADRSでは、自殺傾向の項目が4点減少しても、睡眠の項目が4点改善したのと同じにカウントされるが、臨床医はこれらの変化の相対的な重要性を区別する。T-CGI測定法は、日常的な臨床場面で実施される大規模な実用的試験にも有用である。

T-CGIは、臨床試験においても役割を見出すことができる。第Ⅱ相から第Ⅳ相の規制当局による臨床試験の準備のために開催される治験責任医師会議では、通常、主要評価項目（通常は症状に基づく尺度）の評価者間信頼性を達成することに焦点が当てられ、CGI評価を実施するための標準化は軽視される。このように評価者訓練が行われていないことを考えると、CGI測定がほとんどの試験で症状評価尺度に匹敵する良好なシグナル検出を示したことは注目に値する [45,46] 。標準的なCGIを適用している臨床試験担当者の間で実証されているように、詳細なT-CGIスコアリングアンカーに関するトレーニングによって評価者間の信頼性を向上させれば、試験におけるこれらの評価の有用性が増す可能性が高い [47] 。T-CGI評価を行う際には、機能障害の程度と機能の変化の重要性を、この尺度に関するトレーニングの一環として強調すべきである。さらに、我々が提案するT-CGIアンカーを臨床試験と日常臨床環境の両方で使用することにより、T-CGI-Iスコアがどちらの環境でも同じ基準に基づいているため、臨床試験結果の一般化可能性と解釈が大幅に向上するであろう。T-CGIが単純であることから、臨床医が評価する症状尺度のトレーニングや信頼性評価に現在費やされている労力よりもかなり少ない労力で、トレーニングや評価を完了することができる。

この研究にはいくつかの限界がある。治験責任医師のサンプル数が多くなかったため、別の治験責任医師サンプルでのランキングの再現性は検討されなかった。経験豊富な治験責任医師と経験の浅い治験責任医師との間の差は、もしこの研究がより強力なものであったならば、明らかになったかもしれない。さらに、うつ病患者に対する仮想的なシナリオについてのみ質問された。他の精神疾患に対する項目の順位付けについては尋ねられなかったが、既存の文献によれば、疾患間で最も関連性の高い項目は同じであることが示唆されている。この尺度が、様々な文化的背景を持つ患者や臨床家間で適切に機能するかどうかは不明である。最後に、本研究では、提案したT-CGIスコアリング・アンカーの有用性の前向き評価を組み込んでいない。要素の順位付けの一貫性は、CGI-Sデータの評価についてある程度の安心感を与えるが、本研究では、個々の患者について作成された実際のCGI-S得点の評価者間信頼性については言及できなかった。

T-CGIの次のステップは、診断プロファイルと社会人口統計学的特徴の両面から、多様な患者集団における妥当性と評価者間信頼性を確立することである。収束的妥当性は、T-CGI-Sの得点と患者の主な精神医学的診断に対する症状評価尺度の得点との相関を評価することによって評価される。同様に、T-CGIの変化に対する感度を調べるために、症状評価尺度での変化とT-CGI-I得点との相関を調べる。収束妥当性は、T-CGI得点と機能およびQOLを評価する尺度との相関を用いて評価する。T-CGIには患者の複数の側面が組み込まれているため、T-CGIの得点は、これらの個々の要素を評価する尺度よりも、症状、機能、QOLの尺度から導き出される組み合わせの得点との相関が高いと予想される。評価者間信頼性は、同じ患者を同じ診察室で異なる臨床医が採点することで検証される。

5. 結論

T-CGIは、病気ごとに別々の採点ガイドがあることから生じる、CGIの日常臨床への障害を克服することを目的としている。多忙な臨床医が各疾患について独自のCGIアンカーを学習し、適用することは期待できないが、疾患間で標準的なアンカーを持つ統一版の導入は達成可能な目標である。電子カルテが急速に普及し、臨床データの収集が望まれる中、T-CGIは治療効果を容易に把握できる指標として価値があるかもしれない [48] 。

要旨