井出草平の研究ノート

バクロフェンと強化学習

www.ncbi.nlm.nih.gov

概要

ヒトと同様にげっ歯類においても、効率的な強化学習腹側被蓋野 ventral tegmental area(腹側被蓋野ニューロンから放出されるドーパミンドーパミン)に依存している。マウスの脳切片において、低濃度のGABAB受容体アゴニストは腹側被蓋野-ドーパミンニューロンの発火頻度を増加させ、高濃度の発火頻度は減少させることが明らかにされている。しかし、バクロフェンがヒトの強化学習に影響を与えるかどうかは不明である。本研究では、高親和性GABAB受容体アゴニストであるバクロフェンの低濃度および高濃度経口投与による金銭報酬を伴うギャンブル課題への影響を、34名の健常人ボランティアによる二重盲検試験で検証した。低用量(20 mg)のバクロフェンは、報酬関連学習の効率を高めるが、金銭的損失の回避には影響を与えなかった。一方、高用量(50 mg)のバクロフェンは、学習曲線に影響を与えなかった。課題終了時、20mgのバクロフェンを投与された被験者は、対照群と比較して、最も高い確率で金銭を獲得できる記号をより正確に選択した(89.55 ± 1.39 vs. 81.07 ± 1.55%, p = 0.002)。この結果は、バクロフェンが低濃度でドーパミンニューロンの抑制を引き起こし、ドーパミンレベルを増加させ、その結果、強化学習を促進するというモデルを支持するものである。


嗜癖への示唆

嗜癖の神経回路において、中脳皮質辺縁系が重要な役割を担っていることは一般に認められている(Koob and Volkow, 2010)。これらの経路は、薬物曝露後長い時間を経ても嗜癖行動に関与している可能性がある(Lüscher and Bellone, 2008)。依存性薬物は非常に異なる分子標的を持つが、いずれも中脳皮質辺縁系投射標的構造におけるドーパミン濃度の上昇を引き起こす(Lüscher and Ungless, 2006)。さらに、乱用薬物は腹側被蓋野ドーパミンニューロンの興奮性シナプスを増強させるという強い証拠がある(Kauer and Malenka, 2007)。したがって、シナプス可塑性は、嗜癖患者において病的である道具学習の基礎となる細胞メカニズムである可能性がある(Balland and Lüscher, 2008)。Gタンパク質共役型受容体(GPCR)に結合する薬物は、モルヒネ、δ-9-テトラヒドロカンナビノール(THC)、GABAB受容体作動薬であるγ-ヒドロキシ酪酸(GHB;Lüscher and Ungless, 2006)などの嗜癖性薬物の第一群に属する。これらの薬物の作用は、通常ドーパミンニューロンを抑制するGABA介在ニューロンに対して優先的に作用する。したがって、GABAニューロンの抑制は、ドーパミンニューロンの正味の活性化とドーパミン放出の増加をもたらすが、このメカニズムはdisinhibitionと呼ばれる。

以上のように、低用量バクロフェンはドーパミンニューロンを優先的に抑制し、報酬信号の学習を増加させるため、嗜癖性を有する可能性がある。しかし、GABAB受容体アゴニストでもあるバクロフェンでは、GHBとは対照的に、嗜癖性はあまり観察されない(European Monitoring Centre for Drugs and Drug Addiction, 2010)。この明らかな矛盾は、GABAB受容体に対する親和性の違い(バクロフェンは高親和性、GHBは低親和性;Cruz et al., 2004)によって説明することができる。したがって、バクロフェンの典型的な治療用量は、特に反復投与された場合、生理的なドーパミン発火を抑制するのに十分であると考えられ、バクロフェンが通常乱用されない理由を説明できる(Labouèbe et al. 2007)一方、GHBを典型的に娯楽的に使用した場合の濃度は、腹側被蓋野GABAニューロンに対してより優先的な影響を与えると思われる。

この解釈と一致するように、げっ歯類の研究は、バクロフェンが多くの薬物の自己投与を減少させることを示し(Brebner et al., 2002)、ヒトにおいて推定上の抗渇望化合物とみなされている(Cousins et al., 2002)。比較的低用量(30mg/日)のバクロフェンを用いた二重盲検比較試験で、アルコール依存症患者の断酒と脱落に対するプラセボに対する効果が示されているが(Addolorato et al., 2007)、ほとんどの事例報告では、同じ効果を得るために120mg/日まで用いられている(Ameisen, 2005; Agabio et al., 2007; Bucknam, 2007)。また、80mg/日という比較的高い用量で、タバコの消費量が減少したこともよく知られている(Franklin et al.、2009)。しかし、他の研究では、症状の緩和がわずかであることが報告されており、これらのレジメンの有効性については、依然として議論の余地がある(Garbutt et al., 2010) 患者のアドヒアランス(バクロフェンの半減期が短い)および疾患の不均一性(例えば、不安な集団と非不安な集団)が、これらの研究を制限している可能性がある。したがって、薬物断絶の開始、緩和、維持に役立つとされる抗渇望化合物としてのバクロフェンの可能性は、依然として大いに議論されている話題であり、さらなる臨床研究が必要であることは確かである。


中脳辺縁系ドーパミンシステムは腹側被蓋野に端を発し、側坐核(NAc)および前頭前野に投射している。生理的条件下では、中脳辺縁系投射は、種の存続に重要な食物や性などの自然報酬に応答してドーパミンを放出する。この過程は、生物にとって報酬が得られる状況を学習することが重要であることを反映している(Balland and Lüscher, 2008)。外的報酬が与えられると、ドーパミンニューロンは、現在の状態の値が、幸福感や喜び(Balland and andLüscher, 2008年)ではなく、予測(シュルツら、1997年)よりも良いか悪いかを示す強い学習シグナルを誘発する。そのため、この信号によって予測手がかりを迅速に獲得し、報酬を得ることに成功した効率的な行動が可能になる(Becharaら、1998年)。

中脳辺縁系ドーパミンシステムは腹側被蓋野腹側被蓋野)に端を発し、側坐核(NAc)および前頭前野に投射しています。生理的条件下では、中脳辺縁系投射は、種の存続に重要な食物や性などの自然報酬に応答してドーパミンを放出する。この過程は、生物にとって報酬が得られる状況を学習することが重要であることを反映している(Balland and Lüscher, 2008)。ドーパミンニューロンは、外部から報酬が与えられると、多幸感や快感ではなく、現在の状態の価値が予測よりも良いか悪いかを示す強い学習シグナルを発する(Schultz et al.、1997)(Balland and Lüscher、2008)。そのため、この信号によって予測手がかりを迅速に獲得し、報酬を得ることに成功した効率的な行動が可能になる(Bechara et al., 1998)。

ドーパミンが学習に及ぼす影響は、行動の計画や意思決定に関わる回路の中皮質辺縁系を調節することで説明できる。多くの哺乳類では、行動の価値を予測するために少なくとも2つのシステムが存在する:与えられた状況を受け止め、結果を予測し、その結果を評価する計画システムあるいは明示システム、与えられた状況を受け止め、取るべき最も記憶に残る行動を特定する習慣システムあるいは暗黙システム(Redish et al., 2008)。柔軟計画系には、腹内側線条体大脳辺縁系内側前頭前皮質、眼窩前頭前皮質、嗅内皮質、海馬が関与し、腹側被蓋野からのドーパミン入力が関与している。習慣系には、背外側線条体、内側前頭前皮質頭頂葉が含まれ、黒質緻密部(SNc; Redish et al.) このように、中脳皮質辺縁系は意思決定や計画立案時に予測された結果の価値を評価する上で中心的な役割を担っている。ドーパミンシステムによる予測値の過大評価は、意思決定システムを変化させ、嗜癖的な行動を引き起こす可能性がある(Redish et al.、2008)。また、背側線条体へのフィードバックループを介した側坐核による習慣系のリクルートも、自動的な意思決定、さらには依存症につながるメカニズムである可能性がある(Koob and Volkow, 2010)。したがって、ドーパミンを調節することで評価や意思決定がどのように変化するかを理解することは、意欲的行動や依存症を理解する上で非常に重要な意味を持つ。

バクロフェン(p-chlorophenyl-GABA)は、高親和性のγ-アミノ酪酸B型(GABAB)受容体アゴニストとして作用する。鎮痙薬としての主な作用は、K+コンダクタンスの増加により、シナプス後抑制をもたらします(Cruzら、2004;Katzung、2009)。さらに、バクロフェンは、脳と脊髄におけるCa2+の流入と興奮性伝達物質の放出確率を減少させることにより、シナプス前抑制を引き起こします(Katzung, 2009)。興味深いことに、バクロフェンは腹側被蓋野ニューロンを標的とすることにより、中脳皮質辺縁系におけるドーパミン放出を調節する可能性もある(Lomazzi et al.) Cruzら(2004)によって提案された最近のモデルは、バクロフェンの高用量によるドーパミン活性の双方向制御を示すものである。このモデルでは、低用量のバクロフェンが、ドーパミンニューロンの活動を一部制御しているγ-アミノ酪酸(GABA)ニューロンを優先的に阻害し、ドーパミンニューロンの抑制が解除される。逆に、高用量のバクロフェンはドーパミンニューロンの発火を抑制し、腹側線条体のNAcへの伝達物質放出を減少させる。この現象の説明として、GABAB受容体、Gタンパク質、RGSタンパク質、Gタンパク質ゲート型内向き整流カリウムチャネル(GIRK/Kir3)が高分子シグナル伝達複合体を形成し、結合効率が異なることが考えられている(Lomazzi et al.、2008)。実際、バクロフェンの最大効果の50%をもたらす濃度(EC50)は、ドーパミンニューロンよりもGABAニューロンで1桁低いことが示されている。したがって、低用量のバクロフェンはGABAニューロンの活動を優先的に抑制する(Cruzら、2004;Labouèbeら、2007)。

これらの結果は、ほぼ同じ学習課題を用いた最近の研究で、L-DOPAによって利得条件では学習が改善されたが損失条件では改善されなかったという結果と一致する(Pessiglione et al.2006)。この改善はfMRIで測定された線条体活動の増加と相関していた。同様の効果は、ギャンブルや買い物の問題を抱えるパーキンソン病の集団でも報告されている(Voonら、2010年)。ドーパミンが報酬処理に関与していることは、現在ではよく知られている。予測誤差仮説によれば、ほとんどのドーパミンニューロンは、報酬の確率、大きさ、予測された報酬が期待される時間に区別なく反応する「報酬-予測誤差」(Schultzら、1997)を符号化している(Schultz、2007)。さらに、ドーパミンニューロンの1/3は、報酬予測刺激と報酬の間のインターバルに、比較的ゆっくりとした、中程度の、しかし有意な活性化を示す。この活性化はリスクに応じて単調に変化し、予測された報酬と実際の報酬の間の不一致をコード化する可能性がある(Fiorillo et al.)。このようなデータから、ドーパミンシグナルは、異なる報酬の手がかりに関連するリスクの不確実性を評価、確認し、最終的に学習するための学習課題の利得条件において重要な役割を果たす可能性が示唆された。バクロフェン20mgの効果は、線条体シナプスでのドーパミン放出の増大によるこのプロセスの強化、強力な学習シグナルとしての作用、腹側被蓋野ニューロン(Ungless et al., 2001; Saal et al., 2003; Borgland et al., 2004)、NAc(Kourrich et al., 2007)および前頭前野ニューロン(Sun et al., 2005)におけるグルタミン酸依存型の可塑性に関与することで説明可能である。さらに、中脳皮質辺縁系ドーパミンシステム以外にも報酬のコード化に関与する脳構造が存在することを忘れてはならない。さらに、中脳皮質辺縁系ドーパミンシステム以外にも、眼窩前頭皮質線条体扁桃体からも識別情報が提供されている可能性がある(Schultz, 2010)。

ドーパミンアゴニストによる学習促進以外にも、腹側被蓋野系への強い抑圧作用で知られるドーパミン受容体拮抗薬ハロペリドールによる学習曲線の有意な減少も報告されている(Pessiglione et al. (2006)。同様に、バクロフェン50 mgの投与では、20 mgやプラセボと比較して学習速度が低下すると予想された。しかし、そのような効果は観察されなかった。この否定的な結果は、脳脊髄液中のバクロフェン濃度が低すぎて(0.5μM)ドーパミンニューロンを十分に抑制できなかった可能性が高い。発火を完全に停止させるには、in vitroで100μMの濃度に達する必要がある(Cruz et al., 2004)。しかし、この濃度は実質的にほぼ10gのバクロフェンp.o.に相当し、これは通常の最大用量(80mg/日)よりも2桁高い用量である。さらに、これらの用法・用量は、各個人の薬物動態に強く影響される可能性もあります。腹側被蓋野系を効率的に抑制するためには、最大投与量に近い濃度、あるいはそれ以上の濃度が必要となるが、疲労感、筋力低下、頭痛などの副作用の発現が問題となる場合がある。