バクロフェンと強化学習 - 井出草平の研究ノート

www.ncbi.nlm.nih.gov

Abstract

ヒトと同様にげっ歯類においても、効率的な強化学習は腹側被蓋野 ventral tegmental area（腹側被蓋野）ニューロンから放出されるドーパミン（DA）に依存している。マウスの脳切片において、低濃度のGABAB受容体アゴニストは腹側被蓋野-ドーパミンニューロンの発火頻度を増加させ、高濃度の発火頻度は減少させることが明らかにされている。しかし、バクロフェンがヒトの強化学習に影響を与えるかどうかは不明である。本研究では、高親和性GABAB受容体アゴニストであるバクロフェンの低濃度および高濃度経口投与による金銭報酬を伴うギャンブル課題への影響を、34名の健常人ボランティアによる二重盲検試験で検証した。低用量（20 mg）のバクロフェンは、報酬関連学習の効率を高めるが、金銭的損失の回避には影響を与えなかった。一方、高用量（50 mg）のバクロフェンは、学習曲線に影響を与えなかった。課題終了時、20mgのバクロフェンを投与された被験者は、対照群と比較して、最も高い確率で金銭を獲得できる記号をより正確に選択した（89.55 ± 1.39 vs. 81.07 ± 1.55%, p = 0.002）。この結果は、バクロフェンが低濃度でドーパミンニューロンの抑制を引き起こし、ドーパミンレベルを増加させ、その結果、強化学習を促進するというモデルを支持するものである。

Introduction

ソーンダイクは「効果の法則」という論文の中で、次のように規定している。「同じ状況に対してなされたいくつかの反応のうち、動物が満足を伴うかそれに密接に続くものは、他の条件が同じであれば、その状況とより強く結びついており、その状況が再現されると、より再現しやすくなる」（Thorndike，1898）。それ以来、中脳辺縁系ドーパミン（DA）系が「報酬予測エラー」をコード化することでこの学習に関与していることが示唆されている（Schultz et al.、1997）。中脳辺縁系ドーパミンシステムは腹側被蓋野（VTA）に端を発し、側坐核（NAc）および前頭前野に投射している。生理的条件下では、中脳辺縁系投射は、種の存続に重要な食物や性などの自然報酬に応答してドーパミンを放出する。この過程は、生物にとって報酬が得られる状況を学習することが重要であることを反映している(Balland and Luscher, 2008)。外部から報酬が与えられると、ドーパミンニューロンは、現在の状態の値が多幸感や喜び(Balland and andLuscher, 2008) ではなく、予測 (Schultz et al., 1997) よりも良いか悪いかを示す強力な学習シグナルを引き出す。そのため、このシグナルによって予測手がかりを迅速に獲得し、報酬獲得に成功する効率的な行動をとることができる（Bechara et al.、1998）。

このシステムがドーパミン機能の変化によって薬理学的に調節されうるという証拠が、Pessiglione et al.によって示されている(2006)。彼らの研究では、ヒトのボランティアが金銭の得失を伴う学習課題を行い、機能的磁気共鳴画像（fMRI）が収集された。L-DOPAによって中脳皮質辺縁系ドーパミンが増強されると、被験者はより速く学習し、より多くの金銭を獲得することができた。逆に、ハロペリドールによってドーパミンシグナルが阻害されると、参加者は対照群に比べて学習速度が遅くなり、獲得金額も少なくなった。興味深いことに、参加者が損失条件にあるときには学習曲線のシフトは観察されなかった。このことは、回避的学習には他のプロセスが関与していることを示唆している。アイオワ賭博課題を用いた別の研究でも、腹側線条体の活性化がfMRIによって示されている(Li et al., 2010)。

ドーパミンが学習に及ぼす影響は、行動の計画や意思決定に関わる回路の中皮質辺縁系を調節することで説明できる。多くの哺乳類では、行動の価値を予測するために少なくとも2つのシステムが存在する：与えられた状況を受け止め、結果を予測し、その結果を評価する計画システムまたは明示システム、与えられた状況を受け止め、取るべき最も記憶に残る行動を特定する習慣システムまたは暗黙システム(Redish et al., 2008)である。柔軟計画系には、腹内側線条体、大脳辺縁系内側前頭前皮質、眼窩前頭前皮質、嗅内皮質、海馬が含まれ、腹側被蓋野からのドーパミン入力が関与している。習慣系には背外側線条体、内側前頭前皮質、頭頂葉が含まれ、黒質緻密部（SNc; Redish et al.、2008）からのドーパミン入力が関与している。このように、中脳皮質辺縁系は意思決定や計画立案時に予測された結果の価値を評価する上で中心的な役割を担っている。ドーパミン系による予測値の過大評価は、意思決定システムを変化させ、嗜癖行動につながる可能性がある（Redish et al, 2008）。また、背側線条体へのフィードバックループを介した側坐核による習慣系の増強も、自動的な意思決定、さらには依存症につながるメカニズムである可能性がある（Koob and Volkow, 2010）。したがって、ドーパミンを調節することで評価や意思決定がどのように変化するかを理解することは、意欲的行動や嗜癖を理解する上で非常に重要な意味を持つ。ここでは、GABAB受容体アゴニストであるバクロフェンを用いてドーパミン放出を薬理学的に調節することを提案し、この調節が道具学習課題に与える影響を観察する。

バクロフェン（p-chlorophenyl-GABA）は、高親和性のγ-アミノ酪酸B型（GABAB）受容体アゴニストとして作用する。鎮痙薬としての主な作用は、K+伝導を増加させ、シナプス後抑制をもたらすことによるものである (Cruz et al., 2004; Katzung, 2009)。さらに、バクロフェンは、脳と脊髄におけるCa2+の流入と興奮性伝達物質の放出確率を減少させることにより、シナプス前抑制を引き起こす（Katzung, 2009）。興味深いことに、バクロフェンは腹側被蓋野ニューロンを標的とすることで、中脳皮質辺縁系におけるドーパミン放出を調節する可能性もある(Lomazzi rt al., 2008）。Cruz et al.（2004）によって提案された最近のモデルは、バクロフェンの高用量によるドーパミン活性の双方向制御を示すものである。このモデルでは、低用量のバクロフェンが、ドーパミンニューロンの活動を一部制御しているγ-アミノ酪酸（GABA）ニューロンを優先的に阻害し、ドーパミンニューロンの抑制が解除される。逆に、高用量のバクロフェンはドーパミンニューロンの発火を抑制し、腹側線条体の側坐核への伝達物質放出を減少させる。この現象の説明として、GABAB受容体、Gタンパク質、RGSタンパク質、Gタンパク質ゲート型内向き整流カリウムチャネル（GIRK/Kir3）が高分子シグナル伝達複合体を形成し、異なる結合効率を示すことが考えられている（Lomazzi et al.,2008）。実際、バクロフェンの最大効果の50％をもたらす濃度（EC50）は、ドーパミンニューロンよりもGABAニューロンにおいて1桁低いことが示されている。したがって、低用量のバクロフェンはGABAニューロンの活動を優先的に抑制することになる（Cruz et al, 2004; Labouebe et al, 2007）。

本研究では、健常者における報酬信号（ドーパミンニューロンの発火）の予測誤差が、バクロフェンの増量によって調節されるかどうかに焦点を当てた。低用量のバクロフェンはドーパミンニューロンの抑制を解除し、最終的にはドーパミン放出を増加させ、行動的な道具学習過程をより効率的にすると予測した。逆に、高用量ではドーパミンニューロンが抑制され、その結果、学習速度が低下することが予想された。

Discussion

本研究では、バクロフェンの腹側被蓋野への影響に関するネズミのモデル（Compendium Suisse des Medicaments, 2011）にヒントを得て、GABAB受容体作動薬バクロフェンが、若い健康な男性ヒトにおいて報酬駆動型学習を有意に調節することを実証することができた。

報酬学習

今回使用した2つの投与量のうち、低用量のバクロフェン投与群でのみ、道具学習の増強が観察された。20mgのバクロフェンを投与された参加者は、他の2群に比べ、お金を稼ぐ確率が最も高い刺激を選択する頻度が有意に高くなった。この効果は、最初の6回の試行でプラセボ群に比べてこの群の学習曲線がより急峻になり、その後はより高いプラトーになることで反映されている。この時点から、すべてのグループが比較的安定した成績に達したが、20-mgグループの方が概して高い精度を示した。さらに、20-mgバクロフェン群の参加者は、他の群に比べ、課題終了後の獲得金額が多い傾向にあった（ただし、これは有意には至らなかった）。しかし、被験者は利得条件において間違った記号を選択してもお金を得ることができるため（お金を得る確率は0.2）、全体の金額は学習の信頼できる指標とはならない。

この結果は、ほぼ同じ学習課題を用いた最近の研究で、L-DOPAによって利得条件では学習が改善したが損失条件では改善しなかったという結果と一致している(Pessiglione et al., 2006)。この改善はfMRIで測定された線条体活動の増加と相関していた。同様の効果は、ギャンブルや買い物の問題を抱えるパーキンソン病の集団でも報告されている(Voon et al., 2010)。ドーパミンが報酬処理に関与していることは、現在ではよく知られている。予測誤差仮説によれば、ほとんどのドーパミンニューロンは、報酬の確率、大きさ、予測された報酬が期待される時間に明確に反応し、「報酬-予測誤差」（Schultz et al, 1997）を符号化する (Schultz, 2007)。さらに、ドーパミンニューロンの1/3は、報酬予測刺激と報酬の間のインターバルに、比較的ゆっくりとした、中程度の、しかし有意な活性化を示す。この活性化はリスクに応じて単調に変化し、予測された報酬と実際の報酬の間の不一致をコード化する可能性がある（Fiorillo et al, 2003）。このようなデータから、ドーパミンシグナルは、異なる報酬の手がかりに関連するリスクの不確実性を評価、確認し、最終的に学習するための学習課題の利得条件において重要な役割を果たす可能性が示唆された。バクロフェン20mgの効果は、線条体シナプスでのドーパミンの大量放出によるこのプロセスの強化、強力な学習シグナルとしての作用、腹側被蓋野ニューロン（Ungless et al, 2001; Saal et al, 2003; Borgland et al, 2004）、側坐核（Kourrich et al, 2007）および前頭前野ニューロン（Sun et al, 2005）におけるグルタミン酸依存性の可塑性の関与によって説明できるかもしれない。さらに、中脳皮質辺縁系ドーパミンシステム以外にも報酬のコード化に関与する脳構造が存在することを忘れてはならない。さらに、中脳皮質辺縁系ドーパミンシステム以外にも、眼窩前頭皮質、線条体、扁桃体からも識別情報が提供されている可能性がある（Schultz, 2010）。

ドーパミンアゴニストによる学習促進以外にも、腹側被蓋野系への強い抑圧作用で知られるドーパミン受容体拮抗薬ハロペリドールによる学習曲線の有意な減少が報告されている(Pessiglione et al., 2006)。同様に、バクロフェン50 mgの投与では、20 mgやプラセボと比較して学習速度が低下すると予想された。しかし、そのような効果は観察されなかった。この否定的な結果は、CSF中のバクロフェン濃度が低すぎる（0.5μM）ためにドーパミンニューロンが十分に抑制されない可能性が最も高いと思われる。発火を完全に停止させるためには、in vitroで100μMの濃度に達する必要がある（Cruz et al.、2004）。しかし、この濃度は実質的にほぼ10gのバクロフェンp.o.に相当し、これは通常の最大用量（80mg/日）より2桁高い用量である。さらに、これらの用法・用量は、各個人の薬物動態に強く影響される可能性もある。腹側被蓋野系を効率的に阻害するためには、最大投与量に近い濃度あるいはそれ以上の濃度が必要であるが、疲労感、筋力低下、頭痛などの副作用の発現により混乱が生じる可能性がある。

嫌悪学習

損失条件では3群間の差は観察されなかったが、これは以前のデータと一致する(Pessiglione et al., 2006)。ドーパミン作動性ニューロンは、嫌悪刺激に対して主に発火率を低下させて反応する(Ungless et al., 2004; Schultz, 2007)。しかし、最近の研究では、嫌悪刺激に反応して興奮または抑制されるドーパミンニューロンの異なる亜集団が同定されている(Brischoux et al., 2009; Matsuboto and Hikosaka, 2009)。したがって、抑制応答する下位集団は、回避刺激に対する予測誤差を符号化している可能性がある（Matsumoto and Hikosaka, 2009）。このようなニューロンは、腹内側SNcと腹側被蓋野に位置し、主に腹側線条体に投射しており、古典的に想定される報酬値を処理すると考えられている（Matsumoto and Hikosaka, 2009）。しかし、外側手綱核（Matsumoto and Hikosaka, 2008）や扁桃体（Parton et al, 2006）のような他の構造にも、報酬刺激と嫌悪刺激の両方に反応する神経細胞が存在する。これらの構造は、Pessiglione et al. (2006)や我々の研究で用いられたドーパミン操作の影響を受けることなく、損失条件の学習に寄与している可能性がある。

嫌悪条件におけるドーパミンニューロンの重要性については、今後の研究で検討し明らかにする必要がある。ヒトでは、健常者とパーキンソン病患者のfMRIによる同様の道具学習課題中のデータから、前島、背側線条体、前頭葉眼窩皮質を含む異なる脳ネットワークが負の結果からの学習に影響を与えることが指摘されている（Pessiglione et al, 2006; Voon et al, 2010）。腹側被蓋野のドーパミンニューロンは、回避的な事象で活性化するものもあるが、最も活性化するのは報酬に関するものである(Ungless et al., 2004)。あるいは、より具体的には、パーキンソン病における嗜癖行動は、強化の合図に対する反応が腹側（障害）から背側線条体に移行し、反応自体が行動-結果表現ではなく刺激-反応から支配されるようになることと関連しているかもしれない (Everitt and Robbins, 2005)。

嗜癖への示唆

嗜癖の神経回路において、中脳皮質辺縁系が重要な役割を担っていることは一般に認められている（Koob and Volkow, 2010）。これらの経路は、薬物曝露後長い時間を経ても嗜癖行動に関与している可能性がある（Luscher and Bellone, 2008）。依存性薬物は非常に異なる分子標的を持つが、いずれも中脳皮質辺縁系投射標的構造におけるドーパミン濃度の上昇を引き起こす（Luscher and Ungless, 2006）。さらに、乱用薬物は腹側被蓋野ドーパミンニューロンの興奮性シナプスを増強させるという強い証拠がある（Kauer and Malenka, 2007）。したがって、シナプス可塑性は、嗜癖患者において病的である道具学習の基礎となる細胞メカニズムである可能性がある（Balland and Luscher, 2008）。Gタンパク質共役型受容体（GPCR）に結合する薬物は、モルヒネ、δ-9-テトラヒドロカンナビノール（THC）、GABAB受容体作動薬であるγ-ヒドロキシ酪酸（GHB；Luscher and Ungless, 2006）などの嗜癖性薬物の第一群に属する。これらの薬物の作用は、通常ドーパミンニューロンを抑制するGABA介在ニューロンに対して優先的に作用する。したがって、GABAニューロンの抑制は、ドーパミンニューロンの正味の活性化とドーパミン放出の増加をもたらすが、このメカニズムはdisinhibitionと呼ばれる。

上記のように、低用量のバクロフェンはドーパミンニューロンを優先的に抑制し、報酬シグナルの学習を増加させるため、嗜癖性を有すると考えられる。しかし、GHBとは対照的に、同じGABAB-受容体アゴニストであるバクロフェンでは、嗜癖行動はあまり観察されない（European Monitoring Centre for Drugs and Drug Addiction, 2010）。この明らかな矛盾は、GABAB受容体に対する親和性の違い（バクロフェンは高親和性、GHBは低親和性；Cruz et al, 2004）により説明することが可能である。したがって、バクロフェンの典型的な治療用量は、特に反復投与された場合、生理的なドーパミン発火を抑制するのに十分であると考えられ、バクロフェンが通常乱用されない理由を説明できる（Labouebe et al, 2007）一方、GHBの典型的な娯楽的使用で得られる濃度は腹側被蓋野GABAニューロンに対してより優先的な影響を与えると考えられる。

この解釈と一致するように、げっ歯類の研究は、バクロフェンが多くの薬物の自己投与を減少させることを示し（Brebner et al., 2002）、ヒトにおいて推定上の抗渇望化合物とみなされている（Cousins et al., 2002）。比較的低用量（30mg/日）のバクロフェンを用いた二重盲検比較試験で、アルコール依存症患者の断酒と脱落に対するプラセボに対する効果が示されているが（Addolorato et al., 2007）、ほとんどの事例報告では、同じ効果を得るために120mg/日まで用いられている（Ameisen, 2005; Agabio et al., 2007; Bucknam, 2007）。また、80mg/日という比較的高い用量で、タバコの消費量が減少したこともよく知られている（Franklin et al.、2009）。しかし、他の研究では、症状の緩和がわずかであることが報告されており、これらのレジメンの有効性については、依然として議論の余地がある（Garbutt et al., 2010）患者のアドヒアランス（バクロフェンの半減期が短い）および疾患の不均一性（例えば、不安な集団と非不安な集団）が、これらの研究を制限している可能性がある。したがって、薬物断絶の開始、緩和、維持に役立つとされる抗渇望化合物としてのバクロフェンの可能性は、依然として大いに議論されている話題であり、さらなる臨床研究が必要であることは確かである。

結論

我々の無作為化二重盲検プラセボ対照試験により、金銭報酬を伴う道具学習課題において、バクロフェン20mgを単回投与した健康な被験者に正の強化が生じることが明らかになった。この投与量では、プラセボ群と比較して、金銭を得る確率が最も高い刺激を選択する効率が高かった。これらの結果は、報酬刺激に対するバクロフェンによる予測誤差学習信号の強化を示唆しており、低用量のバクロフェンによってドーパミンニューロンの活性化が促進されるというin vitroの研究結果を裏付けている。しかし、これらのメカニズムは、fMRIや carbon-11で標識したバクロフェンを用いて確認する必要があり、最終的には、中脳皮質辺縁系ドーパミンシステムと関連領域の活性上昇と我々の知見を関連づけることになる。一方、バクロフェン50mgという高用量では、学習には影響がなかった。このような知見は、in vivoで腹側被蓋野報酬系を効率的に抑制し、最終的に抗渇望治療として機能させるためには、さらに高用量が必要であることを示唆している。