井出草平の研究ノート

嗜癖の統一フレームワーク:意思決定過程における脆弱性

www.ncbi.nlm.nih.gov

  • Redish, A. D., Jensen, S., & Johnson, A. (2008). A unified framework for addiction: Vulnerabilities in the decision process. The Behavioral and Brain Sciences, 31(4), 415–437; discussion 437-487. https://doi.org/10.1017/S0140525X0800472X

要旨

近年、意思決定システムに関する理解が進み、哺乳類脳における意思決定は、複数の相互作用するシステム(計画システム、習慣システム、状況認識システム)から生じているという統一理論が形成されつつある。この統合された意思決定システムには、不適応な選択、特に特定の薬物や行動を求めるような選択をさせる可能性のあるアクセスポイントが複数存在する。すなわち、(1)恒常性からの逸脱、(2)アロスティックセットポイントの変化、(3)多幸感的な「報酬様」信号、(4)計画システムの過大評価、(5)状況-行動-結果関係の誤った探索、(6)状況の誤分類、(7)習慣システムの過剰評価、(8)二つの判断システムのバランスの不一致、(9)過早割引過程、(10)学習レートの変化である。これらの脆弱性は、意思決定システムの潜在的な問題を分類したものである。各脆弱性は、嗜癖的な選択に戻るようエージェントを駆り立てるが、各脆弱性はまた、特徴的な症状を意味する。異なる薬物、異なる行動、そして異なる個人は、異なる脆弱性にアクセスする可能性がある。このことは、個人の嗜癖に対する感受性や嗜癖への移行、再発の可能性、治療の可能性に影響を与える。

1. はじめに

嗜癖は、操作的に、異なる選択をしたいと明示的に述べているにもかかわらず、不適応な選択をし続けることと定義できる(精神障害の診断と統計マニュアル [DSM-IV-TR], American Psychiatric Association 2000; International Classification of Diseases [ICD-10], World Health Organization 1992を参照されたい)。特に、依存症者は、恐ろしい結果にもかかわらず、薬物や他の不適応行動を追求し続ける(Altman et al. 1996; Goldstein 2000; Koob & Le Moal 2006; Lowinson et al.1997)。嗜癖性薬物は、正常な学習システムのために進化した神経生理学的メカニズムとの薬理学的相互作用を通じて、不適応な意思決定を促すと仮定されている(Berke 2003; Everitt et al.2001、Hyman 2005、Kelley 2004a、Lowinson et al.1997、Redish 2004)。嗜癖行動は、正常な学習システムとある行動の報酬配分との相互作用を通して、不適応な意思決定を促すと仮定されてきた(Custer 1984; Dickerson & O'Connor 2006; Dowling et al.) しかし、これらの相互作用がどのように不適応な意思決定を引き起こすかは、依然として重要で未解決の問題である。

過去30年以上にわたって、薬物や不適応行動を求め続ける理由を説明しようとする多くの理論が提案されてきた。これらの理論は、以下の主要なカテゴリーに分類することができる:(1)相手のプロセス:エージェントのニーズを変化させる恒常性およびアロスタティックレベルの変化に基づく(Becker & Murphy 1988; Koob & Le Moal 1997; 2001; 2005; 2006; Solomon & Corbit 1973; 1974); (2)脳内の快楽的にポジティブな信号への薬理学的アクセスに基づく報酬に基づくプロセスと快楽的な成分(Kalivas & Volkow 2005; Volkow et al. 2003; 2004; Wise 2004)、(3)脳内の動機信号の感作に基づくインセンティブの顕著性(Berridge & Robinson 1998; 2003; Robinson & Berridge 1993; 2001; 2003; 2004)、(4)非代償性ドーパミンは、行動を起こす価値の予測の誤りを知らせる役割に基づいており、薬物探索の過大評価につながる(Bernheim & Rangel 2004; Di Chiara 1999; Redish 2004)、(5)衝動性、すなわち、使用者が後のコストを考慮せずに軽率な選択をすること(Ainslie 1992; 2001; Ainslie & Monterosso 2004; Bickel & Marsch 2001; Giordano et al. 2002; Odum et al. 2002)、(6)状況の認識と分類、利益と損失の両方を生み出す状況の誤った分類に基づく(Custer 1984; Griffiths 1994; Langer & Roth 1975; Redish et al. 2007; Wagenaar 1988)、および(7)実行系と習慣系のバランスにおける欠陥。この場合、習慣系の過剰なパフォーマンス(Robbins & Everitt 1999; Tiffany 1990)または柔軟な実行系、抑制系の過小なパフォーマンス(Gray & McNaughton 2000; Jentsch & Taylor 1999; Lubman et al. 2004)、またはそれらの間のバランスの変化(Bechara 2005; Bickel et al.2007; Everitt et al.2001; Everitt & Wolf 2002)。(表1参照)。

これらの理論はそれぞれ不完全であり、すべての嗜癖データを説明することはできないと批判されているが、各理論は互いに相容れないものではない。むしろ、各理論が意思決定プロセスシステムにおける異なる脆弱性を説明し、エージェントに嗜癖的な選択をさせることが可能であることを我々は主張する。このように、一連の理論は、嗜癖的な選択行動を引き起こす可能性のある原因の集合を提供する。それぞれの異なる乱用薬物や不適応行動は、その潜在的な機能不全の集合にアクセスする可能性がある。個人差は、個人の機能障害に対する各脆弱性の重要性を定義する可能性が高い。治療の成功は、個人の選択の原動力となっているそれらの脆弱性を治療することにかかっている。嗜癖が生物学的意思決定システムの脆弱性として特定されたことは、嗜癖を理解するためには、(人間を含む)動物がどのように意思決定を行うかを理解することが必要であることを意味する。

近年、意思決定プロセスの理解が集まり、複数の相互作用するシステム(Cohen&Squire 1980;Daw et al.2005;Dickinson 1980;1985;Nadel 1994;O’Keefe&Nadel 1978;Packard&McGaugh 1996;Redish 1999;Squire 1987) から生じる意思決定の統一理論が形成された。簡単に言えば、決定は、結果を考慮できる柔軟な計画システムから、または行動が状況と関連している柔軟性の低い習慣システムから生じることができる(Daw et al.2005;Redish&Johnson 2007) 。行動制御は、行動訓練(Balleine&Dickinson 1998;Colwill&Rescorla 1990;Killcross&Coutureau 2003;Packard&McGaugh 1996) の統計に応じて、一方のシステムから他方のシステムに移行することができる。また、どちらのシステムでも、エージェントが自身を発見した状況(Dow et al.2006;Redish et al.2007;Redish&Johnson 2007) を認識する必要がある。これらのプロセスは、複数のアクセスポイントと脆弱性を提供し、それを通じて意思決定プロセスを不適応な選択に導くことができる。

2. 対象範囲

嗜癖は複雑な現象であり、社会的(Davis & Tunks 1991)、環境的(DeFeudis 1978; Dickerson & O'Connor 2006; Maddahian et al.1986; Morgan et al.2002) 、法的(Dickerson & O'Connor 2006; Kleber et al.)など多くの観点から原因を特定できる(Volkow & Li 2005a; West 2001)。1997; MacCoun 1993)、心理学・神経生物学(Goldman et al. 1987; 1999; Heyman 1996; 2000; Koob & Le Moal 2006; Redish 2004; Robinson 2004; Robinson & Berridge 2003; Tiffany 1990)、経済(Ainslie 1992; 2001; Becker & Murphy 1988; Bernheim & Rangel 2004; Hursh 1991; Hursh et al. これらの視点はいずれも嗜癖の原因について説明力を持ち、嗜癖の治療方法についても示唆を与えている。しかし、これらすべての視点から嗜癖を徹底的に扱うことは、本論文のような論文の範疇を超えている。この対象論文では、動物学習理論、学習と記憶の神経科学、人間の意思決定、神経経済学に基づく依存症的意思決定の説明を取り上げる。これらは、意思決定が二つの学習システム(素早く学習し、柔軟だが、実行するのに計算量が多い計画システム、ゆっくりと学び、柔軟性はないが、実行するのに安価な習慣システム)間の相互作用から発生するという統一理論に収束している、と私たちは主張する。

2.1. 私たちの目標

この目標論文の目標は、確立された意思決定システムにおける「脆弱性」として、依存症の新しい説明を打ち出すことである。我々が説明する脆弱性の多くは、現在の依存症理論と密接に同定することができるが(例えば、表5参照)、それらの理論は一般に特定の実験の説明から生じ、いずれも不完全なものとして攻撃されてきた。我々の論文は、それらを統一的な意思決定システムにおける「失敗点」として初めて明らかにしたものである。この理論は、薬物関連と行動関連の両方の嗜癖の分類法、および予防と治療に対する示唆を与えている。これらの含意については、論文の最後で述べている。

社会・環境・政策レベルの理論には直接触れていないが、私たちが提案するフレームワークは、これらの嗜癖の視点に示唆を与えるものと考えている。例えば、薬物価格、税金、合法性、取り締まりレベルの変化は、嗜癖物質や行動に至るまでに必要なコストを変化させることができる(Becker et al. 1994; Grossman & Chaloupka 1998; Liu et al. 1999)。カジノの存在は、学習された連想を引き起こす手がかりとなりうる(Dickerson & O'Connor 2006)。使用に対する許容度と罰は、報酬とコストの関係に影響を与える(Goldman et al. 1987; 1999)。遺伝は、先に述べた潜在的な失敗のポイントに対するその人の脆弱性を形成し、その人の治療計画の重要な部分を占めなければならない(Goldman et al. 2005; Hiroi & Agatsuma 2005)。

この理論の意味するところに進む前に、まず、意思決定システムの統一的なモデルを整理する必要がある(3項)。このシステムを構成する要素について説明しながら、特定可能な脆弱性を指摘する。第4章では、特定された各脆弱性に順番に戻り、その脆弱性と特定の薬物や問題行動との相互作用について論じる。第5節では、この理論が、個人の嗜癖への感受性、再発への複数の経路、および適切に導かれた複数の治療レジメンを利用できるようにする必要性について論じる。第6節では、社会的、政治的、臨床的な意味合いに目を向け、未解決の問題を整理し、依存症研究の今後の方向性を示唆する。最後に、付録として、6つの薬物と問題行動の既知の効果をレビューし、この論文で特定された脆弱性に照らして考察した(A:コカイン、B:アヘン、C:ニコチン、D:アルコール、E:カフェイン、F:ギャンブル)。

3. 意思決定

動物がどのように意思決定を行うかについては、過去50年間に経済学(Ainslie 1992, 2001; Becker & Murphy 1988; Bernheim & Rangel 2004; Bickel & Marsch 2001; Glimcher & Rustichini 2004; Petry & Bickel 1998)、心理学および神経科学(Daw 2003; Glimcher 2003; Hastie 2001; Herrnstein 1997; Heyman 1996; Kahneman et al. 1982; Kahneman & Tversky 2000; Sanfey et al. 2006; Slovic et al. 1977)、および機械学習(Sutton & Barto 1998) が挙げられる。これらの文献は、意思決定は価値または意思決定の期待効用の予測に基づくという概念に収斂している1。これらの用語は、報酬を受け取る確率と報酬を受け取るまでの遅延を考慮した、将来の報酬の合計、期待値と定義することができる。これらの分析では、コストは通常、負の報酬として含まれるが、いくつかの定式化では個別に含まれることもある。エージェントは、自分の行動の価値(割引後の報酬総額から期待される費用総額を引いたもの)を正しく予測できれば、どの行動をとるべきかについて適切な判断を下すことができる。これまで提案されてきた嗜癖の理論(表1)は、いずれも価値やコストの予測を変化させ、嗜癖性薬物の探索や不適応な行動を繰り返し続けるように仕向けるものであった。

ある行動をとることの価値を導き出す方法として、前方探索と caching の 2 つが考えられる (Bernheim & Rangel 2004; Daw et al. 2005; Redish & Johnson 2007; Sutton & Barto 1998)。最初のケース(前方探索)では、自分の行動の可能な結果を考える。エージェントは、この状況でこの行動をとれば、これが起こり、この報酬を得るが、他のことをすれば、異なる結果が起こり、異なる報酬を得ることになると認識する。もう一つの場合(caching)は、エージェントが特定の行動を与えられた状況に関連付けることを学習した場合です。時間の経過とともに、エージェントはこの状況ではこの行動をとるのが最善であることを学習した。前方探索システムは、実行に時間がかかるが(可能な経路を精神的にたどる必要があるため)、非常に柔軟である。その柔軟性があるからこそ、素早く学習しても大丈夫なのだ。自分の行動の潜在的な結果を知ることは、その行動を約束するものではなく、むしろその行動を選択する前にその行動の結果を考慮する可能性を開くものである。これに対して、Cachingシステムは、実行は非常に速いが(与えられた状況に対して最適な行動を取り出すだけでよいから)、非常に硬直的である。その柔軟性のなさは、習慣システムに記憶された刺激と行動の関係をあまりに早く学習することが危険であることを意味する。

この二律背反は、いつ探索プロセスを停止するかという問題と関連することができる(Nilsson et al.1987;Simon1955)。古典的な人工知能の文献で研究されているヒューリスティック探索過程と同様に、一時的にキャッシュされた値にアクセスして探索木の一部を切り離す不完全探索過程が利用できるかもしれない(Nilsson et al.1987; Rich & Knight 1991; Russell & Norvig 2002)。同様に、どのような決定においても、潜在的なパスの一部しか探索されないと想像することができる。最適解を見つけるには時間がかかり、探索時間と見つけられた解の最適性との間にはトレードオフがある(Simon 1955)。進化の観点からは、素早く発見された許容可能な解は、ゆっくりと発見された最適解よりも効率的かもしれない(Gigerenzer 2001; Gigerenzer & Goldstein 1996; Simon 1955)。しかし、真のキャッシングシステムは探索プロセスを伴わず、探索プロセスの単一ステップと同等と見なすべきではない(Daw et al. 2005; Gigerenzer 2001)。探索過程の単一ステップでは、そのステップの結果が特定され、その結果の変化により再学習することなく性能を変化させることが可能である。これに対して、キャッシングシステムは、記憶された値と与えられた状況で行われるアクションを比較し、パフォーマンス中に結果を特定しないため、その結果の値の変化に対して反応を変えることができない。この区別は、後述する切り捨ての文献に見ることができる。

多くの文献は、この2つのシステムに合致する学習システムの区分に収斂している。動物のナビゲーションに関する文献では、この2つのシステムはそれぞれ認知マップシステムとルートシステムと呼ばれている3(O'Keefe & Nadel 1978; Redish 1999)。動物の学習理論の文献では、これらのシステムは、パブロフ学習システム(状況-結果、S→(a)O)、道具学習システム(行動-結果、→aO)、習慣学習システム(S→a)の3つの別々のシステムとして識別される4。

また、認知学習システムや習慣学習システムとも呼ばれ(Mishkin & Appenzeller 1987; Poldrack & Packard 2003; Saint-Cyr et al. 1988; Yin & Knowlton 2006)、宣言的学習と手続き的学習の間の区別(Cohen & Eichenbaum 1993; Cohen & Squire 1980; Redish 1999; Squire 1987; Squire et al. 1984)、明示的学習システムと暗黙的学習システム(Clark & Squire 1998; Curran 1995; Doyon et al. 1998; Ferraro et al. 1993; Forkstam & Petersson 2005; Knopman & Nissen 1987; 1991; Nissen et al. 1987; Willingham et al. 1989)、さらに制御的処理理論と自動処理理論(Kahneman & Frederick 2002; Schneider & Chein 2003; Schneider & Shiffrin 1977)間の区別もなされている。我々は、これらの多様な文献が、(1)柔軟で認知的な計画系と(2)硬直的で自動的な習慣系という一対の意思決定システムに収束していると主張する。

この二項対立は、古典的な動物学習論の文献における「期待値」についての歴史的な議論と関連している(Bolles 1972; Hull 1943; 1952; Munn 1950; Tolman 1938; 1939; 1948)。Tolman (1938; 1939; 1948)は、動物は将来起こりうる結果に対する期待(あらゆる報酬成分に対する期待を含む)を維持し、これが潜在的学習効果をもたらすとともに、与えられたニーズの変化に応じた選択の速い変化を可能にすると主張し、一方、Hull (1943; 1952) は、動物は刺激と反応の単純な関連を学習し、自動化の遅い発達を可能にすると主張した(Carr & Watson 1908; Dennis 1932)。Guthrie(1935; Balleine & Ostlund 2007; Bolles 1972参照)が指摘したように、Tolman の認知的期待値の理論の一つの意味は選択の遅れであろう。このような遅延は、学習初期、特に計画系を必要とする課題において見られる。ラットは困難な決断を迫られたとき、決断を下す前に一時停止し、さまざまな選択肢を身を持って体験する(Brown 1992; Meunzinger 1938; Tolman 1938; 1939)。この「代理試行錯誤」(VTE)行動は海馬の損傷で消失し(Hu & Amsel 1995)、海馬依存の課題では海馬の活動に関連している(Hu et al.) 最近の神経アンサンブルの記録から、VTE様行動において海馬の発火パターンが一過性に選択地点の前方の位置を表すことが分かってきた(Johnson & Redish 2007)。このことは、VTEが計画系における能動的な処理のシグナルである可能性を示唆している(Buckner & Carroll, 2007; Johnson & Redish 2007; Tolman 1938; 1939)。

この2つのシステムは、心理学における古典的な2過程理論(Domjan 1998; Gray 1975)と、より最近の刺激-刺激(SS, S→O)、刺激-結果(SO, SAO, S→aO)、行動-結果(AO, →aO)、刺激-反応または刺激-行動(SA, S→a)という区別(Balleine & Ostlund 2007; Dickinson 1985)とが一致している(表2を参照のこと)。前者(S→O)は因果関係の認識を伴うが、実際の判断は伴わない。第二の(S→aO)は古典的なパブロフの条件付けであり、与えられた結果を予期して状況に対応した行動をとることを伴う(Domjan 1998; Pavlov 1927; Rescorla 1988)。3つ目の→aOは古典的道具的条件づけ(Balleine & Ostlund 2007; Domjan 1998; Ferster & Skinner 1957)で、即時刺激がない場合でも結果を達成するために行われる行動を伴うものである。しかし、行動と結果の関連付けには文脈という刺激が含まれることに注意が必要である(行動は常に行われるわけではなく、ある促進的な文脈の中でのみ行われる)5。第4(S→a)は状況と行動の関連付けであり、習慣学習である(Domjan 1998; Hull 1943; 1952)。

これら4つの連想は、その期待値の観点から区別することができる(表2)。S→Oの連想は、ある結果を予期しているが、決定がないため、その結果についてさらなる処理をする必要はないが、何らかの感情の準備が必要である可能性がある。もし動物がその結果に対して準備、生成、または変更するために何かをすることができれば、その連合は状況-行動-結果(S→aO)の1つとなる。行動を引き起こす直接的な刺激がない場合、その連合は→aOの連合となる。このとき→aO連合は文脈依存的なゲーティング要素を含み続けるので、→aO連合はまさにS→aO連合となる。しかし、私たちの目的からすれば、この2つの連合は同様に扱うことができる。つまり、この2つの連合は、値の予想を生成するために評価されなければならない結果の予想を含んでいる。つまり、どちらも計画的な要素を必要とし、状況が直接行動に関連づけられる習慣学習(S→a)とは区別される。S→a の関連付けでは、状況と行動の組が直接的に価値の期待を伴うので、結果の認識がなくても、それが行動の原動力となる。

この区別に従って、我々はこれら4つの連合システムを、決定を行わない観察システム、与えられた状況(刺激、文脈、またはそれらの組み合わせから得られる)を受け取り、結果を予測し、その結果を評価する計画システム、与えられた状況(刺激、文脈、またはそれらの組み合わせから得られる)を受け取り、取るべき最も記憶に残る行動を特定する習慣システムという、三つの決定システムに分類した。

もちろん、これらのシステムは重複し相互作用する構造の中に存在する(Balleine & Ostlund 2007; Corbit et al. 2001; Dayan & Balleine 2002; Devan & White 1999; Kelley 1999a; 1999b; Voorn et al. 2004; Yin et al.) 柔軟なプランニングシステムは、内嗅皮質(Corbit & Balleine 2000)、海馬(O'Keefe & Nadel 1978; Packard & McGaugh 1996; Redish 1999)、腹内側および背内側線条体(Devan & White 1999; Martin 2001; Mogenson 1984; Mogenson et al.1980; Pennartz et al. 2004; Schoenbaum et al. 2003; Yin et al. 2005)、肢端内側前頭前皮質(Jung et al. 1998; Killcross & Coutureau 2003; Ragozzino et al. 1999)、眼窩前頭前皮質(Davis et al. 2006; Padoa-Schioppa & Assad 2006; Schoenbaum et al. 2003; 2006a; 2006b; Schoenbaum & Roesch 2005)です。習慣系には、背外側線条体(Barnes et al. 2005; Packard & McGaugh 1996; Schmitzer-Torbert & Redish 2004; Yin & Knowlton 2004; 2006)、肢端内側前頭前皮質(Coutureau & Killcross 2003; Killcross & Coutureau 2003)、さらに頭頂皮質(DiMattia & Kesner 1988; Kesner et al. 1989)などが含まれている(表3参照)。

3.1. 意思決定システム間の遷移

行動は一般に柔軟な計画システムで始まるが,繰り返しの行動では,柔軟性の低い(しかし計算量も少ない)習慣システムによって駆動されるようになることがある.このような展開の例は我々の経験からよく知られている。例えば、新しい職場に初めて車で行くとき、私たちは旅行計画が必要で、道路標識やその他の目印に注意を払う。しかし、何年も毎日同じ道を運転していると、旅行にはあまり注意を払わなくなり、授業や論文、夕食の計画など、他の認知プロセスに資源を自由に使えるようになる。しかし、道路工事で通勤路が閉鎖され、新しいルートを探す必要がある場合などには、柔軟なシステムを利用することができます。例えば、間違った計画を立てたり、あまりに自動的な移動のため、注意を怠ると、他の場所に行くつもりだったのに、偶然にも車で出勤してしまったというようなエラーは、どちらのシステムにも存在しうる。この相互作用は動物の文献でよく研究されており、習慣システムによる計画の重ね合わせなどがある(Dickinson 1980; Hikosaka et al. 1999; Packard & McGaugh 1996; Schmitzer-Torbert & Redish 2002)、変化に直面したときの計画の復元(Gray & McNaughton 2000; Isoda & Hikosaka 2007; Sakagami et al.2006)、2つのシステム間の衝突(Gold 2004; McDonald & White 1994; Packard 1999; Poldrack & Packard 2003; Redish et al. 2000)。

動物の文献でよく研究されている例として、プラス迷路における場所戦略から反応戦略への移行(Chang & Gold 2004; Packard & McGaugh 1996; Yin & Knowlton 2004)、行動経路の規則性の発達(Barnes et al. 1999; Schmitzer-Torbert & Redish 2002)、動物学習研究におけるdevaluationの消失(Adams & Dickinson 1981; Balleine & Dickinson 1998; Colwill & Rescorla 1985; Tang et al.2007) 、Go/No-Go課題における習慣性反応の抑制(Gray & McNaughton 2000; Husain et al.2003; Isoda & Hikosaka 2007)などが挙げられる。

プラス迷路では動物が特定の場所に行くことで解決できる行動(Tolman et al. 1946)と迷路に置かれたことに反応する行動(Hull 1952)をとるように訓練さ れる。これらのアルゴリズムは適切にデザインされた探索試行によって区別することができる(Barnes et al. 1980; Packard & McGaugh 1996; Restle 1957)。ラットはこの課題(および他の類似課題)でまず場所戦略を用い、それが反応戦略へと発展する(McDonald & White 1994; Packard & McGaugh 1996; Yin & Knowlton 2004)。場所戦略は海馬、腹内側線条体の完全性に依存し、反応戦略は背外側線条体の完全性に依存する (Packard & McGaugh 1996; Yin & Knowlton 2004; 2006; Yin et al. 2005)。 一般的な課題に対して、日ごと、あるいはセッションごとに変化する具体的な事例を与える課題では、動物は非常に速く具体的な事例を学習することができる。このような課題では、行動の正確さが急速に向上し、その後、動物がとる行動の規則性がゆっくりと発達する(ラット, Jog et al. 1999; Schmitzer-Torbert & Redish 2002; サル, Hikosaka et al. 1999; Rand et al. 1998; 2000; ヒト, Nissen & Bullemer 1987; Willingham et al. 1989)。これらの課題では、初期(正確、柔軟、遅い)行動は海馬の完全性に依存し、海馬の活動と相関している(Ferraro et al. 1993; Johnson & Redish 2007; Knopman & Nissen 1987)、一方、後期(正確だが柔軟性に欠け、速度が速い)の行動は、背外側線条体の完全性に依存し、背外側線条体活動と相関がある(Barnes et al.2005; Doyon et al.1998; Hikosaka et al.1998; Jackson et al.1995; Jog et al.1999; Knopman & Nissen 1991)。

価値の計算における複数の意思決定システムの意味は、報酬の評価の変化におけるこれらの2つの意思決定システムの効果にも見ることができる(Adams & Dickinson 1981; Balleine & Dickinson 1998; Colwill & Rescorla 1985; Dickinson 1980; 1985)。古典的には、これらの違いは、(1)報酬Rを受け取るために行動(または一連の行動)をとるようにエージェントを訓練し、(2)通常は異なる文脈で、エージェントに対する報酬Rの価値を変更することによって測定されます。報酬の価値は、過剰な報酬を与えること(satiation, Balleine & Dickinson 1998)、報酬を塩化リチウムなどの嫌悪刺激とペアにすること(devaluation, Adams & Dickinson 1981, Colwill & Rescorla 1985, Holland & Rescorla 1975, Holland & Straub 1979, Nelson & Killcross 2006, Schoenbaum et al.2006a) で変化することが可能です。最後に、(3) エージェントに行動を起こす機会を提供する。行動選択過程が報酬の現在価値を考慮したものであれば、エージェントはその変化に応じて行動を修正するが、行動選択過程が状況と行動の関連付けであれば(したがって報酬の価値を考慮しない)、エージェントはその反応を修正しない。腹側線条体(Corbit et al. 2001; Schoenbaum et al. 2006c)や 前縁内側前頭前野prelimbic medial prefrontal cortex(Killcross & Coutureau 2003)、眼窩前頭前野(Ostlund & Balleine 2007; Schoenbaum et al.)に病変がある場合、行動選択過程が状況と行動の関連である場合(つまり報酬の価値を考慮しない場合)、エージェントは反応を修正しない。2006a; 2006b)は評価低下を抑制し、背外側線条体(Yin et al. 2004; Yin & Knowlton 2004; Yin et al. 2006)や嗅覚下皮質(Coutureau & Killcross 2003; Killcross & Coutureau 2003)への病変は評価低下の過程を促進させることがわかった。内嗅皮質(Corbit & Balleine 2000)、背内側線条体Adams et al. 2001; Ragozzino et al. 2002a; 2002b; Yin et al. 2005)の損傷は予測可能性の変化に対する柔軟性を破壊するが(随伴性劣化)、背外側線条体の損傷はそうならない(Yin & Knowlton 2006)。

すべての移行が計画系戦略から習慣系戦略への移行である必要はないことに注意することが重要である。計画系戦略は柔軟で素早く学習されるが、習慣系戦略はより硬直的でゆっくりと学習されるため、多くの課題は初期段階では計画系で、後期段階では習慣系で解決される(Dickinson 1980; Hikosaka et al.1999; Packard & McGaugh 1996; Restle 1957)。しかし、習慣システムは、利用可能な計画システムがない場合にも学習することができる(Cohen & Squire 1980; Day et al. 1999; Knowlton et al. 1994; Mishkin et al. 1984)。適切な条件下では、go/no-go課題(Goldman et al. 1970; Gray & McNaughton 2000; Isoda & Hikosaka 2007; Iversen & Mishkin 1970) や反転学習 (Hirsh 1974; Mackintosh 1974; Ragozzino et al. 2002a)のように十分に発達した自動応答が制御型(計画型)システムによってオーバーライドできることがある。どのシステムがどのタイミングで行動を起こすかは、課題のパラメータに依存し(Curran 1995; McDonald & White 1994; O'Keefe & Nadel 1978; Redish 1999)、同じ実験条件下でも個人差がある場合もある。多くの場合、同じ行動が2つのシステムによって駆動され、特殊なプローブ試行によってのみ両者を区別できる(Barnes 1979; Curran 2001; Hikosaka et al., 1999)。

3.2. プランニングシステム

計画システムでは、状況および/または文脈Sの認識、状況Sにおいて行動aをとった場合の結果の特定(結果Oを達成する手段の認識)、結果Oを達成する価値の評価が必要であり、その行動がもたらす潜在的結果を考慮して最も適切な行動を選択するシステムである。このシステムに関わる重要な行動パラメータは、高速な記憶と低速な検索である。先に述べたように、このシステムでは、各ステップでの価値の計算には、可能性の検討による処理が必要なため、検索が遅くなることがある。可能性の検討は一つの選択にコミットしないので、このシステムは行動の選択を柔軟に行うことができる。また、状況Sにおける行動aの価値は、現在の欲求からオンラインで計算される期待結果Oの達成価値から計算されるため、結果に対する欲求(ニーズ)が変化すれば(別の文脈でも)、価値計算にその変化を反映させることが可能である。

すなわち、文脈と刺激の複雑な相互作用を分類し、動物が置かれている状況を特定する状況認識部、潜在的な行動の結果を計算する予測部、その結果の価値(時間、労力、報酬を受け取る確率を考慮)を計算する評価部である。

状況認識部では、利用可能な手がかりと文脈のセットをエージェントの記憶と統合し、状況の分類を行う必要がある。このシステムは、皮質の感覚系と連合系において競合学習によって生じる可能性が高い(Arbib 1995; Grossberg 1976; Redish et al.2007; Rumelhart & McClelland 1986)。数理的には、大脳皮質認識系はアトラクターネットワークダイナミクスでモデル化することができる(Durstewitz et al.1999; 2000; Kohonen 1984; Laing & Chow 2001; Redish 1999; Seamans & Yang 2004; Wilson & Cowan 1972; 1973)。この内容アドレス可能な記憶は、観察された一連の手掛かりを、推論可能な定義された(記憶された)状況へと変換する分類プロセスを提供する(Redish et al.2007)。

予測要素は、エージェントが状況stで行動aをとった場合に、状況st+1に到達する確率を予測することを含んでいる。P(st+1|st, a)である。この機能は海馬 (Jensen & Lisman 1998; 2005; Johnson & Redish 2007; Koene et al. 2003) や前頭皮質 (Daw et al. 2005) にあることが示唆されている。海馬は刺激-刺激連関 (Devenport 1979; 1980;Devenport & Holloway 1980; Hirsh 1974; Mackintosh 1974; White & McDonald 2002)、エピソード記憶 (Cohen & Eichenbaum 1993; Ferbinteanu & Shapiro 2003; Ferbinteanu et al. 2006; Squire 1987)、柔軟行動(Devenport et al. 1981b; Gray & McNaughton 2000)、柔軟なナビゲーション行動(認知地図、すなわち。また、シーケンス学習(Agster et al.2002; Cohen & Eichenbaum 1993; Fortin et al.2002; Levy 1996; Levy et al.2005 )においても同様である(Redish [1999] の総説を参照)。同様の機能は前頭皮質にあることが提案されており(Daw et al.2005)、前頭皮質は状況を再分類する能力と長い間関連してきた(Baddeley 1986; Clark & Robbins 2002; Dalley et al. 2006; Rushworth et al. 2007)、遅延した事象の記憶(Baddeley 1986; Fuster 1997; Goldman-Rakic et al. 1990)、報酬の予測(Davis et al. 2006; Fuster 1997; Watanabe 2007)、シーケンス計画(Averbeck & Lee 2007; Kolb 1990; Mushiake et al. 2006; Owen 1997)と関連する。

評価成分によって、予測された各結果に対する価値を計算することができる。解剖学的には、評価成分には扁桃体(Aggleton 1993; Dayan & Balleine 2002; Phelps & LeDoux 2005; Rodrigues et al. 2004; Schoenbaum et al. 2003), 腹側線条体 (nucleus accumbens)(Daw 2003; Kelley 1999a; 1999b; Kelley & Berridge 2002; Mogenson 1984; Pennartz et al. 1994; Stefani & Moghaddam 2006; Wilson & Bowman 2005)および関連構造(Tindell et al.2004; 2006)、および/または前頭葉眼窩皮質(Feierstein et al.2006; Padoa-Schioppa & Assad 2006; Plassmann et al.2007; Sakagami & Pan 2007; Schoenbaum et al.2003; 2006a; Volkow et al.2003) 。腹側線条体神経細胞は報酬相関を示し(Carelli 2002; Carelli et al. 2000; Carelli & Wondolowski 2003; Lavoie & Mizumori 1994; Martin & Ono 2000; Miyazaki et al. 1998; Schultz et al. 1992; Yun et al. 2004)、予測報酬を予測する(Martin & Ono 2000; Miyazaki et al.) 腹側淡蒼球神経細胞は快楽信号の識別に関連している(Tindell et al. 2004; 2006)。海馬と前頭前野はともに腹側線条体に投射しており(Finch 1996; McGeorge & Faull 1989; Swanson 2000)、腹側線条体の発火パターンは海馬と前頭前野の神経活動を反映している(Goto & Grace 2005a; 2005b; Kalivas et al.2005; Martin 2001; Pennartz et al.2004). また、前頭葉眼窩皮質の神経細胞は、潜在的な選択肢の価値に関するパラメータを符号化している(Padoa-Schioppa & Assad 2006; Schoenbaum & Roesch 2005)。

これらの構造はすべて腹側被蓋野から強いドパミン神経入力を受けている。神経生理学的には、腹側線条体ドーパミンシグナルは、ドーパミン作動性投射ニューロンからの神経記録(Schultz 1998; 2002)および腹側線条体自体のボルタメトリ信号(Roitman et al.2004; Stuber et al.2005) によって測定され、予期せぬ報酬や報酬を予測する予期せぬ手がかりに対して発火が増加することが示されている。習慣システムの計算モデルでは、これらのシグナルは価値予測エラー情報を伝えるという仮説が立てられている(さらに詳しく参照)。多くのデータは、腹側被蓋部からのドーパミンが同様の役割を果たすことを支持しているようである(de la Fuente-Fernandez et al.2002; Ljungberg et al.1992; Roitman et al.2004; Stuber et al.2005; Ungless et al.2004 )。しかし、プランニングシステムに関しては、解剖学的にインスタンス化された詳細な計算モデルはまだ得られていない。計画システムにおけるドーパミンの役割を扱う理論には、動機づけと努力(Berridge 2006;Berridge&Robinson 1998;2003;Niv et al.2007;Robbins&Everitt 2006;Salamone&Correa 2002;Salamone et al.2005;2007) と学習 (Ikemoto&Panksepp 1999;Reynolds et al.2001) がある。しかし、重要な未解決の問題は、ドーパミンがどの程度実際の動機づけのシグナルを運んでいるか(Berridge 2007)、ドーパミンの効果がどの程度皮質線条体シナプスcorticostriatal synapsesに依存しているか(Anagnostaras et al.2002; Li et al.2004; McFarland & Kalivas 2001; McFarland et al.2003; Nicola & Malenka 1998; Reynolds & Wickens 2002)、ということだ。最後に、前頭前野ドーパミンも分類過程の深さを制御する役割を持つと仮定されている(Durstewitz et al.1999; 2000; Redish et al.2007; Seamans et al.2001; Seamans & Yang 2004; Tanaka 2002; 2006)。

神経薬理学的には、これらのシステム、特に腹側線条体は、オピオイドシグナルが関与するメカニズムに強く依存していることもわかっている。オピオイドシグナルは快楽的なプロセスに関与しているという仮説がある(Berridge & Robinson 1998; 2003; Kelley et al.2002)。 これらの考えと一致して、Levineら(Albisi et al.1999;Levine&Billington 2004) は、オピオイド拮抗薬は甘味のある液体を摂取しているヒトで報告されている快楽の質に直接干渉し、味の識別には干渉しないと報告している。我々は、哺乳類の脳に存在する複数のオピオイド受容体(μ、κ、δ;De Vries & Shippenberg 2002; Herz 1997; 1998)が、ポジティブ(euphorigenic、μオピオイド活性化でシグナル伝達)とネガティブ(dysphorigenic、κオピオイド信号伝達)で評価する過程に関連していると示唆している(Redish & Johnson 2007)。μ-受容体作動薬が報酬性、多幸感、自己投与をサポートするのに対し、κ-受容体作動薬は回避性、不快感、自己投与を妨害する(Bals-Kubikら1989、Chavkinら1982、De Vries & Shippenberg 2002、Herz 1997、1998、Kieffer 1999、Matthesら1996、Meyer & Mirin 1979、Mucha & Herz 1985)6。

また、探索過程で起こる評価機構(エージェントのニーズとS→(a)O関係が与えられたときの期待値から期待値を計算する)の一部にはオピオイド系も関与している可能性を提唱している(Redish & Johnson 2007)。このことから、極端な報酬を期待してμオピオイドアゴニスト(エンケファリンなど)が放出されることが予想される。薬物に関連した場所に置かれたラットは、生理食塩水に関連した区画に置かれた場合に比べて、側坐核に放出されるエンケファリンの劇的な増加を示し、おそらく薬物に関連した区画から生じる予期があるのだろう(Mas-Nietoら、2002年)7。

3.2.1. 計画システムにおける潜在的脆弱性

計画システムは動物の知覚された欲求Nの定義の変化、その欲求の充足(報酬の模倣)の誤った特定、結果の期待値の誤った評価、S→(a)O関係自体の誤った探索、また状況の誤分類に潜在的な故障点を提供する。

脆弱性1:ホメオスタシスの変化 ニーズNの定義変更

脆弱性2:アロスタティックの変化。ニーズの定義の変更 N

生物は、大きな挑戦の変動があっても、重要な生物学的パラメータ(体温、ホルモンレベル、神経伝達物質レベルなど)を非常に特異的なレベルに維持するように進化してきた。これらの特定のレベル(「セットポイント」)は、文脈、生物学的、社会的、その他の要因、例えばサーカディアンリズムや季節のリズムによって変化しうるため、一部の著者は、より古典的なホメオスタシスという言葉ではなく、一定のセットポイントに対するホメオスタシスという言葉を提案している(Koob & Le Moal 2006)。薬物やその他の操作によって動物のニーズが変化するのは、システムが恒常性のセットポイントそのものから遠ざかり(たとえば薬物使用後の禁断症状)、システムを恒常性に戻すために薬物が必要になるか、システムの望ましいセットポイントそのものが変化し、したがって新しい不適切なセットポイントを達成するために薬物が必要になるかである (Koob & Le Moal 2006)。いずれの場合も、これらの変化によって、エージェントの知覚されたニーズが変化し、その結果、期待される結果の評価値が変化することになる。

脆弱性3:予測された結果の期待値の過大評価-報酬の模倣

前述したように、計画システムには期待される結果を直接評価するコンポーネントが必要である。この評価プロセスはもちろん記憶プロセスであり、期待される結果に対する経験の履歴を考慮しなければならない。つまり、エージェントが結果そのものを達成する(つまり知覚されたニーズを満たす)ときに、結果の価値を認識する生物学的シグナルが存在するはずである。このシグナルは、多幸感や不快感といったクオリアと関連していると考えられる(Berridge & Robinson 1998; 2003)。したがって、この信号は主観的な快楽信号と同定することができる。エージェントが潜在的なS→(a)O行動シーケンスの結果を探索するとき、同じ評価プロセスが使用されると思われ、このシグナルが渇望に関与している可能性がある(Redish & Johnson 2007)。このシグナルは部分的に内因性オピオイドシグナル(Berridge & Robinson 1998; 2003; Kelley et al. 2002)、潜在的には腹側基底核(Tindell et al. 2004; 2006)によって担われている可能性が高い。さらに、価値の記憶は経験値の記憶に依存し、経験値は表象の偏りにより実際よりも一般に肯定的に記憶される傾向がある(Kahneman & Frederick 2002; Schreiber & Kahneman 2000)。社会的な要因は、実際の不快な出来事の記憶された価値に影響を与えることもある(Cummings 2002; Goldman et al.1999; Jones et al.2001)。

脆弱性4:計画システムで予測された結果の期待値の過大評価

実際、予測された結果の価値が高まるようなメカニズムには、計画系が特定の結果を過剰に評価する脆弱性が存在することになる。現時点では、プランニングシステムの計算モデルは、結果が過大評価されるメカニズムの具体的な予測や説明につながるほど詳細ではないが、実験的証拠から、側坐核でのドーパミン放出が重要な要素であることが示唆されている(Ikemoto & Panksepp 1999; Robinson & Berridge 1993; Roitman et al 2004; Salamone et al 2005; Robinson & Berridge 2001; 2003, reviewを参照)。また、前頭葉眼窩皮質は潜在的な報酬の評価にも関与しており(Padoa-Schioppa & Assad 2006; Sakagami & Pan 2007; Schoenbaum & Roesch 2005)、前頭葉眼窩皮質から届く不正な信号も、薬物や行動に関する期待結果の過大評価を促す可能性がある(Kalivas & Volkow 2005; Schoenbaum et al.) 前頭葉眼窩皮質(Stalnaker et al. 2006; Volkow & Fowler 2000)および腹側線条体(Careli 2002; German & Fields 2007b; Peoples et al. 1999)の活動の変化は、この脆弱性に重要な役割を果たすと思われる。

脆弱性5:S→(a)O関係の不正確な探索

もし薬物や他のプロセスによって特定のS→(a)Oの関係を思い出す可能性が高まれば、探索される可能性のセットが制限され、代替案に対する認知的盲検化として現れると予想される(Redish & Johnson 2007)。また、この脆弱性は、エージェントが状況Sに戻ったとき、他の潜在的な結果よりも結果Oの利用可能性を記憶する可能性が高く、結果Oに関連する高い価値を記憶しやすくなり(脆弱性3および4参照)、したがって状況Sで渇望を経験しやすくなる。この渇望により同じS→(a)O経路を繰り返し探索し、これが認知的盲検化や強迫として現れると考えられる。このプロセスはまた、アルコールとヘロイン中毒者の両方に見られる、薬物に関連した手がかりへの注意の増加をもたらす可能性がある(Lubman et al. 2000; Schoenmakers et al. 2007)。

脆弱性6:状況の誤判定

S→(a)O 関係を検索するためには、エージェントは自分がいる状況が以前の 状況に十分に類似していることを認識し、関係をうまく検索し、結果を予測し、評価 する必要がある。S→(a)O 関係はもちろん与えられた状況での結果の予測可能性に依存しており、それゆえ、与えられた状況と行動の組からの結果の予測可能性が低下する(したがって S→(a)O 関係が変化する)偶発性の劣化に敏感である(Corbit & Balleine 2000; Corbit et al. これらの関係は、実際には同じである2つの状況を異なるものとして誤分類する過剰分類や、実際には別の2つの状況を同じものとして誤分類する過剰汎化によって誤解されることがある。

過剰なカテゴリー化。したがって、例えば、ギャンブルの負けが以前のギャンブルの勝ちと同じ状況で発生したと認識されない場合、エージェントは2つのS→(a)O関係、1つは状況S1から勝ちの結果につながり、1つは状況S2から負けの結果につながることを(誤って)学習する可能性がある。もしエージェントが状況S1と状況S2を分ける手がかりを識別できれば、エージェントは(誤って)いつ勝利の結果を得られるか知ることができると予測することになる。これは「コントロールの錯覚」と呼ばれている (Custer 1984; Griffiths 1994; Langer & Roth 1975; MacKillop et al. 2006; Redish et al. 2007; Wagenaar 1988)。

過剰な一般化。状況を(実際の変化を認識することによって)再分類することができないと、反応の持続や、失敗や損失に直面したときの反応の切り替えができなくなることがある。多くの薬物使用者や病的ギャンブラーは、新しい悪条件に反応して行動選択の逆転や切り替えに失敗している(Bechara et al. 2001; Clark & Robbins 2002; Everitt et al. 1999; Grant et al. 2000; Jentsch et al. 2002; Verdejo-Garcia et al. 2006)。状況を再分類する能力の開発は、嗜癖を治療する手段の1つとして提案されている(McCaul & Petry 2003; Sylvain et al. 1997)。手がかりを再分類する能力が欠如した模擬エージェントは、手がかりと嗜癖の関連性を断ち切ることが困難である8 (Redish et al. 2007)。

3.3. 習慣システム

計画システムの複雑さとは対照的に、習慣システムは状況と行動の間の単純な 関連付けを必要とする。したがって、習慣システムは状況 S の認識と、その状況下でとるべき単一の識別された行動 を必要とする。この単純さによって、習慣システムは素早く反応することができる。しかし、この単純さは習慣システムを硬直化させる。学習された関連は、本質的にエージェントが状況Sで行動aをとることを約束する。このことは、信頼できない関連を記憶することは危険であることを意味する。したがって、習慣の関連付けは、一貫性のある関連付けを広範に経験した後にのみ記憶されるべきなのである。

計画システムとは対照的に、習慣システムは潜在的な結果についての考察を含まない(すなわち、S→a関係にはO項が存在しない;表2)。したがって、計画系とは対照的に、習慣系は利用可能な結果の予測を含まず、それらの潜在的な結果をオンラインで評価することができない。したがって、エージェントの現在の知覚されたニーズ(欲望)を考慮することはできない。習慣システムは依然としてエージェントの全体的な覚醒レベルに敏感である。したがって、空腹のラットは満腹のラットより速く走り、一生懸命働く (Bolles 1967; Munn 1950; Niv et al. 2007)。しかし、習慣システムはエージェントの現在の欲求を反映しないので、報酬が切り下げられたとき、習慣システムは反応を修正することはない。同様に、習慣系は一つの状況に対して複数の行動を選択できない9 。つまり、ナビゲーションにおいて、習慣系は与えられた状況に対して一つの行動しかとれないのである。例えば、計画システムが損傷したラットは、ある日、喉が渇いたときに水を求めて左折し、次の日、空腹時に餌を求めて右折することを決定できない10。

計算上、習慣システムがどのように機能するかについて非常に優れたモデルが存在する。これらのモデルは一般に強化学習の時間差インスタンスに基づいている(Daw 2003; Daw et al. 2005; 2006; Dayan et al. 2000; Doya 2000b; Montague et al. 1996; Redish 2004; Schultz et al. 1997; Suri & Schultz 1999; Sutton & Barto 1998)。このモデルの最も単純なバージョンでは、各状況と行動のペアは、値(Q(S、a)と呼ばれる; Sutton&Barto1998)と関連付けられています11 エージェントが状況から行動を取るとき、エージェントは状況Sで行動aを取って期待値(すなわち、Q(S、a))と観測値(受け取った報酬から費やしたコストを引いた値とエージェントが終了した状態にあることの価値)を比較できるようになる。

ここで、R(t)は観察された報酬、C(t)は費やしたコスト、max[Q(Snew, a)] はエージェントが置かれている状況 (Snew) から得られる最大の価値、そして Q(Sold, a) はエージェントが置かれていた状況 (Sold) で行動 a をとったときの推定値である。Q(Sold, a)をδだけ更新することで、エージェントはその推定値Q(Sold, a)を真の値に近づける。γは割引パラメータ(γ<1)で、将来の報酬に達するまでの時間を確実に考慮する(Daw 2003; Sutton & Barto 1998)。これらのモデルは、複雑な状況-行動シーケンスを学習するために訓練することができる。

習慣連合のゆっくりとした発達は、速い計画系と対照的に最も研究されている。背外側線条体(Yin & Knowlton 2004; Yin et al. 2004; Yin et al. 2006)と脳下垂体皮質(Coutureau & Killcross 2003; Killcross & Coutureau 2003)の損傷や不活性化により経験による切り離しの喪失が防止される。背外側線条体(McDonald &White 1994; Packard & McGaugh 1992; 1996; Potegal 1972; White & McDonald 2002; Yin & Knowlton 2004)や頭頂皮質の損傷や不活性化により、ラットはナビゲーション課題において応答戦略から地図戦略へと移行する。

このような場合、S→a の関連付けを正しく行うために、手がかりと文脈のセットをエージェントの記憶と統合し、状況を分類する。計画系での議論と同様に、皮質の感覚系と連合系は競合的学習過程を通して状況を分類することが示唆される(Arbib 1995; Grossberg 1976; Redish et al.2007、Rumelhart & McClelland 1986)。この状況分類システムが計画システムに用いられるものと解剖学的に別個であることを示唆する神経生理学的データはないが、習慣システムは線条体の背側と外側を含むネットワーク、計画システムは線条体の腹側と内側をより含むネットワークと識別されることから、関与する特定の皮質システムが異なる可能性があることが示唆された。S→a連合そのものは、状況信号が最終的に分類されて一つの行動を決定するメカニズムを含み、大脳皮質から背外側線条体への求心性結合を含むと仮定されている(Beiser et al.1997; Houk et al.1995; Samejima et al.2005; Wickens 1993; Wickens et al.2003 )。

神経薬理学的には、習慣系は黒質緻密部 (SNpc) から強いドーパミン入力を受ける。ドーパミン信号は霊長類(Bayer&Glimcher 2005;Ljungberg et al.1992;Mirenowicz&Schultz 1994;Schultz 1998;2002;Waelti et al.2001) でよく研究されている。腹側被蓋野ドーパミンニューロンと同様に、SNpcのドーパミンニューロンは、期待値の予期しない増加 (予期しない報酬の欠如または報酬の期待値の減少につながるキューを介して) に応じて発火を増加させ、予期しない値の減少 (予期しない報酬の欠如または報酬の期待値の減少につながるキューを介して) に応じて発火を減少させる。この信号は、時間差強化学習アルゴリズム(バルト1995;Montague et al.1995より;1996;Schultz他1997)における値誤差信号δと同定されており、S→aの関連性をトレーニングする上でドーパミンの役割を提供することができる。ドーパミンは習慣的なS→aの学習に重要であることが示されている(Faure et al.2005より)。しかし、学習とパフォーマンスにおけるドーパミンの役割については、依然として議論がある(Berridge 2007;Cagniard et al.2006;Frank et al.2004;Niv et al.2007) 。

細胞的には、背側線条体ニューロンは、時間差強化学習アルゴリズムの主要なパラメータを表すことが分かっている。例えば、状況-行動連関(Barnes et al. 1999; Kermadi et al. 1993; Kermadi & Joseph 1995; Matsumoto et al. 1999; Miyachi et al. 1997; Schmitzer-Torbert & Redish 2004; Tremblay et al. 1998)、報酬伝達(Daw 2003; Schmitzer-Torbert & Redish 2004; White & Hiroi 1998; )、および価値信号(Daw 2003; 川越ら 2004; 中原ら 2004)である。これらの信号は、ドーパミン信号との相互作用により、自動化行動の発達と並行して発達する(Barnes et al.2005; Itoh et al.2003; Jog et al.1999; Samejima et al.2005; Schmitzer-Torbert & Redish 2004; Tang et al.2007; Arbuthnott & Wickens 2007; Centonze et al.1999; Picconi et al.2003; Reynolds & Wickens 2002;)。ヒトのシーケンシャルゲームにおける機能イメージングのデータでは、これらのモデルの値、δ、その他のパラメータに同様の相関が見られる(McClure et al.2003; 2004; O'Doherty 2004; O'Doherty et al.2004; Seymour et al.2004; Tanaka et al.2004a )。

3.3.1. 習慣システムにおける潜在的脆弱性

習慣システムの主要な故障点は、ドーパミンの供給による習慣的関連性の過大評価である(Bernheim & Rangel 2004; Di Chiara 1999; Redish 2004)。計画システムと同様に、状況の誤判定もまた習慣システムにおける潜在的脆弱性を提供しうる(脆弱性6を参照)。

脆弱性7:行動の過大評価

自然の報酬では、報酬の値が正しく予測されると、値-誤差項δはゼロとなり学習は停止する(Rescorla & Wagner 1972; Schultz & Dickinson 2000; Waelti et al.2001)。しかし、δの計算を回避して神経薬理学的にドーパミンを生成すると、薬物を受け取るたびに正のδ信号が誘導され、状況Sで行動aをとることに関連する価値が増加し続け、過大評価を生じる(Redish 2004)。S→aの関連は習慣的、自動的な関連であるため、S→aの関係によって引き起こされる選択は意図的でなく、ロボット的で、おそらく無意識的でさえあるだろう。

3.4. 計画系と習慣系との相互作用

一般に、計画系は初期に関与するが、経験とともに反復課題における行動制御は習慣系に移行する。これはナビゲーション (O'Keefe & Nadel 1978; Packard & McGaugh 1996; Redish 1999), 動物条件付け (Balleine & Dickinson 1998; Dickinson 1985; Yin et al. 2006), 人間の学習 (Jackson et al. 1995; Knopman & Nissen 1991; Poldrack et al. 2001) の文献で観察されてきた。しかし、行動の柔軟性が要求される課題では、高度に訓練された動物でも行動制御が計画系にとどまることがある(Gray & McNaughton 2000; Killcross & Coutureau 2003; McDonald & White 1994; Morris et al. 1982; White & McDonald 2002)。

多くの課題では、どちらの系が欠けても行動を駆動することができるが(Cohen & Squire 1980; Nadel 1994; O'Keefe & Nadel 1978; Squire 1987)、中にはどちらかの系でなければ解決できない課題もある。例えば、水迷路は隠れたプラットフォームに到達するために柔軟な反応を必要とし、迅速に学習するために海馬の完全性を必要とする(Morris et al. 1982; Redish 1999 review参照)。もし、要求される反応の柔軟性が低下すれば(例えば、毎試行同じ場所で動物をスタートさせる)、プラットフォームに到達するために海馬は必要なくなる(Eichenbaumら、1990)。鏡文字や連続反応時間課題などの他の課題は、状況と行動の関連における規則性をゆっくりと認識する必要があり、計画系が損傷した患者と無傷の患者では、同様の速度で学習される(Cohen & Squire 1980; Ferraro et al.1993、Knopman & Nissen 1987)。外側線条体システムが損傷した患者は、これらの習慣に基づく課題において障害を受ける(Doyonら1998; Ferraroら1993; Knopman & Nissen 1991; Smithら2000; Yin & Knowlton 2006)。このような場合、計画系が習慣系を「訓練」し、その後の睡眠状態において再生される可能性がある(Buzsáki 1996; Hoffmann & McNaughton 2002; Marr 1971; Pavlides & Winson 1989; Redish 1999; Redish & Touretzky 1998; Wilson & McNaughton 1994)。このシステム間の情報伝達は、ある種の病変による不完全な逆行性健忘の観察を説明することができる(consolidation, Cohen & Squire 1980; Nadel & Bohbot 2001; Nadel & Moscovitch 1997; Redish 1999; Squire 1987)一方で、「連結記憶」が非連結記憶よりも柔軟性が低くなると予測することができる(Redish & Touretzky 1998)。

両者が対立したとき、どちらのシステムが行動を引き起こすのかという問題は、計算的(Daw et al.2005) および実験的 (Isoda&Hikosaka 2007) に検討され始めたばかりであるが、行動抑制に関する大規模な文献があり、そこでは、変化した、新しい、または潜在的に危険またはコストのかかる行動が抑制されている (Gray&McNaughton 2000) 。この系は、関係する特定の条件に応じて、前頭前系(Sakagami et al. 2006)および/または海馬系 (Gray&McNaughton 2000) が関与しているようである。相互作用が、発達した習慣を上書きする計画システムを伴うのか (Gray&McNaughton 2000) 、両者の制御を仲介する外部システムを伴うのか (Isoda&Hikosaka 2007) 、まだ解決されていない。このような外部の仲介者を経営陣のコントロール(おそらく、前頭前皮質では、Baddeley 1986;Barkley 2001;Barkley et al.2001) と同一視できるかどうかは、まだ公開研究の問題である。

脆弱性8:計画システムの選択的阻害

習慣システムは柔軟性に欠け、「考えずに」素早く反応するのに対し、計画システムは非常に柔軟で、可能性を考慮することができる。習慣系と計画系は異なる解剖学的基質で構成されている。計画系に関与する構造の機能を優先的に損ない、あるいは習慣系に関与する構造の機能を優先的に強化する薬理学的薬剤は、行動の自動化を促進することになる。習慣から計画的行動への回帰は、前頭前野が関与することが知られており(Dalley et al.2004; Husain et al.2003; Isoda & Hikosaka 2007; Iversen & Mishkin 1970)、実行機能が関与すると仮定されている(Barkley 2001; Barkley et al.2001; Tomita et al.1999 )。もし既存の機能不全がシステム間コントロール内に存在するか、または薬理学的薬剤がこのシステム間コントロールを破壊するならば、そのエージェントはすぐに習慣を身につけ、それらの確立した習慣を中断することが困難であろう。この脆弱性は、計画システムの機能の破壊および/またはシステム間対立解決メカニズムの破壊によって、特定の計画性および習慣性の脆弱性と区別される。したがって、計画システムに影響を与える他の脆弱性は、計画システムが誤った選択をするように導く。脆弱性8は、計画システムが誤った習慣システムを修正することを困難にする(Bechara 2005; Bechara et al. 2001; Bickel et al. 2007; Gray & McNaughton 2000; Jentsch & Taylor 1999; Lubman et al. 2004; Verdejo-Garcia et al. 2006)。

3.5. まとめ:意思決定システム

哺乳類の意思決定システムは、潜在的な可能性の評価(例えばS→(a)O関係)に基づく計画システムと、特定の行動と特定の状況の関連付け(例えばS→a関連付け)に基づく習慣システムという二つのサブシステムからなると仮定され、その両方が、観察した手がかりを状況に分類する状況認識システム(例えば、先の定式化のS項)を必要としています。正しい意思決定は、これらの各システムの完全性に依存する(図1参照)。

図1
哺乳類エージェントにおける意思決定の構造。柔軟性の高い計画に基づくシステムの構成要素は薄い灰色で、柔軟性の低い習慣に基づくシステムの構成要素は濃い灰色で示されている。両者に関与する構成要素はグラデーションで示す。

3.6. さらなる破綻点

これまでに特定した8つの脆弱性は、意思決定システムの潜在的な故障点の不完全なリストであることは確かである。意思決定システムの記述は、必然的に不完全なものとなる。例えば、我々は割引や衝動性の問題を扱っていない。また、学習率の問題にも触れていない。

脆弱性9:過剰な割引プロセス

計画系と習慣系はともに、期待される目標が達成されるまでの確率と遅延を考慮する必要がある (Ainslie 1992; 2001; Mazur 2001; Stephens & Krebs 1987)。計画系では、これは探索された順序を与えられた期待される目標の期待値からオンラインで計算することができる。習慣系では、これは貯蔵値関数の一部としてキャッシュされなければならないだろう。具体的なメカニズム(さらには具体的な割引関数)はまだ多くの論争の種である(レビューについては、Madden et al.のRedish & Kurth-Nelson [in press] を参照)が、将来の報酬の長期割引は十分に確立されている。もしエージェントがあまりに強く割り引けば、近い将来の報酬を過度に重視し、遠い将来のコストを過小評価することになる。嗜癖はしばしば近未来の快楽と遠未来のコストを伴うので、通常より速い割引は、遠未来のコストを過小評価し、近未来の快楽を選択するようエージェントを駆り立てる可能性がある。多くの研究が、依存症者は非依存症者よりも割引が速いことを発見している(Alessi & Petry 2003; Bickel & Marsch 2001; Kirby et al.1999; Madden et al.1997; Madden et al.1999; Odum et al.2002; Petry 2001; Petry & Bickel 1998; Petry et al.1998; Vuchinich & Simpson 1998)。

脆弱性10:学習プロセスの変化

その他の未組込要素としては、学習過程の変化(合図に対する過剰な注意、学習率が高すぎる、低すぎるなど)が挙げられる。このような潜在的な障害点がもたらす結果について強い主張をする前に、各システムのより詳細なモデルが必要になるであろう。

しかし、意思決定システムにおける脆弱性(故障モード)の犠牲になった結果が嗜癖であるという本稿で提示した仮説は、どのような(そしてどのように)研究課題に取り組むべきか、また薬物治療パラダイムや薬物統制政策にとって重要な結果をもたらす研究パラダイムを提示するものである。

意思決定システムにおけるこれらの脆弱性は、個人の素因(遺伝的要因、社会的・環境的要因のいずれか)だけでなく、薬物や行動による意思決定システムとの相互作用によって生じる可能性がある。本稿の後半では、先に明らかにしたそれぞれの脆弱性と薬物や乱用行動との相互作用とその意味、さらにその理論がもたらす政策や治療上の帰結について述べる。

4. 意思決定における脆弱性としての嗜癖

上述した意思決定の統一的枠組みは、不適応な選択、特に特定の薬物や行動を求めるような選択に駆り立てる可能性のあるアクセスポイントを持っている。先に概説したように、この統一的な意思決定システムには、10の重要な脆弱性が直接的に特定される。これらは表4にまとめられ、表5には現在の理論との関連が示されている。

これらの欠陥モードの中には、薬剤を嗜癖化させやすい先行条件として存在するものもあれば、薬剤そのものとの直接的な相互作用によって引き起こされる欠陥モードもある。

4.1. 脆弱性1:ホメオスタシスからの逸脱

ニーズの変化をもたらすホメオスタシスからの逸脱の典型例は、アヘン体験の多幸感の後に起こるよく知られた「クラッシュ」である(Koob & Le Moal 2006)。このような否定的な効果は、モルヒネを1回投与した後でも起こりうる(Azolosa et al.1994; Harris & Gewirtz 2005; Koob & Le Moal 2006)。このようなネガティブな作用は、薬物使用中に生じたポジティブなクオリアに戻ることによって、薬物を補おうとする原動力となる。また、ホメオスタシスからの逸脱は、ニコチン (Benowitz 1996;Hanson et al.2003;Hughes&Hatsukami 1986) 、アルコール (Kiefer&Mann 2005;Littleton 1998;Moak&Anton 1999) 、アヘン剤 (Altman et al.1996;Koob&Bloom 1988;Schulteis et al.1997) 、カフェイン (Daly&Fredholm 1998;Evans 1998) 依存症に見られるよく知られた禁断症状 (Altman et al.1996;Lowinson et al.1997) にもつながる。

4.2. 脆弱性2:アロスタシスセットポイントの変化

薬物使用、特に薬物の反復使用は、セットポイントそのものに変化をもたらすこともある(「アロスタシスの変化」と呼ばれ、受容体レベルの長期的変化と通常の行動時に放出される内因性リガンドのレベルの変化を通じて起こる可能性が高い;Koob & Le Moal 2006)。薬物を長期間摂取した動物、特に何日間も薬物を摂取できる状態に置かれた動物は、薬物摂取量が大幅に増加する (Ahmed & Koob 1998; 1999)。これはアロスタティックの変化から生じるという仮説が立てられている(Ahmed & Koob 2005; Koob & Le Moal 2006)。

薬理学的には、ニコチンの慢性的な使用は脳内のコリン作動性受容体のレベルを変化させる(Flores et al. 1997; Marks et al. 1992)。慢性的なアルコール使用は、γ-アミノ酪酸(GABAA)およびN-methyl-D-aspartate(NMDA)受容体の機能および発現を変化させる(Hunt 1998; Littleton 1998; Valenzuela & Harris 1997)。コカイン(Hurd & Herkenham 1993; Steiner & Gerfen 1998)、アルコール(Ciraulo et al. 2003)、アヘン(Cappendijk et al. 1999; Weissman & Zamir 1987)治療の繰り返しは、内因性オピオイド放出とアヘン受容体の発現に変化を与える。多くの喫煙者は、1日に吸うタバコの本数を調整し、比較的一定の血漿中ニコチン濃度を確保している(Schmitzら、1997年)。

このような神経生物学的な変化は、薬物の必要性を変化させ、薬物摂取(あるいは断薬)によって期待される結果の評価に変化をもたらし、計画系における行動選択を変化させる12 。この脆弱性は、生理学的変数の長期的なセットポイントの変化によって特定することが可能である。

4.3. 脆弱性3:予測された結果の期待値の過大評価-報酬の模倣

計画システムは、知覚された欲求がうまく達成されたことを直接評価するシグナルを必要とする(したがって、快楽のクオリアにつながる)。多くの著者は、このシグナルがアヘン系に存在する可能性を示唆している (Berridge & Robinson 2003; Redish & Johnson 2007)。μ-オピエートアゴニスト(ヘロイン、モルヒネなど)は、一般に高い多幸感をもたらす(Jaffe et al.1997; Mark et al.2001; Meyer & Mirin 1979)。外因的に投与されたμ-オピエートアゴニスト(ヘロインやモルヒネなど)は、システムが認識するように進化した真の報酬ではないにもかかわらず、報酬システムを模倣して、強い報酬を受け取ったばかりで、それに戻るように学習するとシステムをだますことができる。このような脆弱性を利用する薬物は、特に初回使用時に高い多幸感をもたらす可能性がある。ヘロインとモルヒネは注射後すぐに深い陶酔感をもたらす(Koob & Le Moal 2006)。この報酬信号は計画系に関連した記憶に保存され、計画系がこれらの報酬模倣薬物を達成するための経路を認識したときに、高い多幸感のある信号を想起するようになるであろう。この脆弱性は、エージェントがそれらの多幸感イベントを思い出すと、強い渇望によって認識される。

4.4. 脆弱性4:計画系における過大評価

先にレビューしたように、計画システムは S→(a)O の関係の認識(記憶)、探索、評価から構成されている。この関係の基本的な脆弱性は結果の評価にあり、この評価は「必要性」のレベルとその認識された必要性を満たす結果の「価値」から算出され、おそらく腹側線条体前頭葉眼窩皮質に投射するドーパミン信号(Robinson & Berridge 1993; 2001; 2003; 2004)により学習されると考えられている。腹側被蓋野ドーパミン発火パターン(腹側線条体前頭葉眼窩皮質に投射)は、期待される報酬や受け取ったばかりの報酬の量の変化を示し(Pan et al.2005; Roesch et al.2007; Schultz 2002; Schultz et al.1997 )、習慣系で述べたQ-学習アルゴリズムに必要なδ信号と似ている。これらのドーパミン信号がどのようにプランニングシステムの評価の変化につながるかを説明する計算論はまだないが、腹側線条体からのボルタメトリー記録は、薬物受領につながる手がかりとなる自己開始行動の両方の前にドーパミン信号が生じることを示している (Phillips et al. 2003; Roitman et al. 2004; Stuber et al. 2004; 2005)。これらの変化は、学習時(Thomas et al. 2001)とパフォーマンス時(Lisman & Grace 2005; Yun et al. 2004)の両方で、皮質-海馬-線条体シナプスを調節していると推定される。

他の研究者は、この評価過程が眼窩前頭皮質で生じる可能性を示唆し(Padoa-Schioppa & Assad 2006; Plassmann et al. 2007; Schoenbaum et al. 2006a)、眼窩前頭皮質での過剰評価は期待報酬の過剰評価につながる可能性を指摘している(Kalivas & Volkow 2005; Volkow et al. 2003) 。過去にコカインを摂取したラットでは、眼窩前頭皮質が正常なラットよりも悪い結果を予測する能力が低下しており(Stalnaker et al. 2006)、負の結果を識別することが困難になる可能性を示唆している。しかし、期待される薬物結果の過大評価は、渇望(Redish & Johnson 2007)と期待される薬物結果につながる行動をとる可能性の増加(German & Fields 2007a)をもたらすと思われる。

4.5. 脆弱性5:S→(a)O関係の誤った探索

先に述べたように、計画システムの予測要素は記憶プロセスでもあり、与えられた状況Sから複数の結果を探索する必要がある。この予測プロセスには海馬(Jensen & Lisman 1998; 2005; Johnson & Redish 2007)と前頭前皮質(Daw et al. 2005)が必要であることが示唆されているが、具体的なメカニズムはまだわかっていない。

海馬と前頭前皮質におけるS→(a)O関係の記憶とアクセスの具体的なメカニズムは不明であるが、脆弱性5は、システムの故障というよりも、システムの記憶とアクセス機能の不適応で、しばしば微妙な修正によって起こりうる。このような全身的な修飾は、これらの領域内の細胞形態の変化や、海馬や前頭前皮質内の可塑性メカニズムの結果として起こる可能性がある。多くの嗜癖物質がこのような変化をもたらす。海馬と前頭前皮質はともにドーパミン作動性入力を受け、シナプス可塑性に対する感受性を変化させ(Huang et al. 同様に、モルヒネや他のアヘン作動薬は、細胞培養(Liao et al. また、長期間の薬物曝露は、生体内の海馬や前頭前皮質におけるスパイン形成を増加させる(Robinson & Kolb 1999; Robinson et al.) このような変化は予測過程に影響を及ぼし、薬物に関連した潜在的な選択肢を優先的に探索するようになる可能性がある。これは臨床的には、薬物に関連した手がかりに過敏になり、薬物受容につながる選択肢を強迫的に検討するようになると考えられる。

4.6. 脆弱性6:コントロールの錯覚

時間の経過とともに変化する報酬分布に直面したとき、エージェントは2つの方法のいずれかで反応することができる: エージェントは、異なる報酬分布の新しい状況にいると認識するか、同じ状況にいると認識するが、報酬を受け取る可能性の予想を変更することができる。もしエージェントが、同じ状況を異なる状況として、あるいは異なる状況を同じ状況として誤って分類した場合、エージェントは自分自身が誤った意思決定をしていることに気づくかもしれない。

状況の誤分類は、主に問題ギャンブルの潜在的な原因として特定されている。この誤分類では、統計的にありえない勝ちの連続を、より一般的に経験される負けとは別の状況として誤って認識する(Custer 1984; Langer & Roth 1975; Redish et al. 2007; Wagenaar 1988)。このため、ある手がかりが勝ちの状況を識別し、他の手がかりが負けの状況を識別するという錯覚が生じる(「コントロールの錯覚」と呼ばれる;Langer & Roth 1975; Redish et al.) 問題ギャンブラーは、統計的にありえない勝ちが続き、その後に壊滅的な負けを経験する傾向がある(Custer 1984; Wagenaar 1988)。このような誤分類は、勝ちと負けの経験の間の手がかりの変化を過剰に認識することから生じる可能性がある(Redish et al. 2007)。問題ギャンブラーは、負けたときと勝ったときの記憶との手がかりの違いを事後的に識別して、負けを「言い訳」することがよく観察される(「後知恵バイアス」とも呼ばれる;Custer 1984; Dickerson & O'Connor 2006; Wagenaar 1988)。同様に、ギャンブラーが負けたが勝ちの状況に近づいたというニアミスは、プレーの継続を促す(Parke & Griffiths 2004)。このようなニアミスは、ある種の騒がしい手がかりが報酬の予測可能性と関係があるという仮説に幻想的な裏付けを与えるかもしれない。

4.7. 脆弱性7:習慣システムにおける過大評価

習慣(S→a)システムでは、位相的(バースト的)ドーパミン信号は価値予測誤差信号δと相関しており、時間差強化学習アルゴリズムが状況行動シーケンスを学習するのに必要である(Barto 1995; Daw 2003; Montague et al.) 自然な報酬では、価値予測システムがそれらの報酬を正しく予測することを学習すると、価値予測は報酬を補償し、正しく予測された報酬時のドーパミンは学習とともにゼロまで減少する(Schultz 1998)。神経薬理学的にドーパミンを生成する薬物(コカインやアンフェタミンなど)は、その価値補償システムをバイパスし、一定の「予想より良い」δシグナルを提供する。この補償不可能なドーパミンシグナルは、S→aシステムにおける過大評価につながる(Bernheim & Rangel 2004; Redish 2004)。コカインをはじめとする多くの乱用薬物は、線条体全体に薬理学的にドーパミンの大きな増加をもたらす(Ito et al. 2002; Kuhar et al. 1988; Roitman et al. 2004; Stuber et al. 2005)。このメカニズムは、薬物嗜癖の形成につながる可能性があり、これは薬物嗜癖の後期段階における重要なプロセスであることが示唆されている(Altman et al.1996; Di Chiara 1999; Everitt & Robbins 2005; Robbins & Everitt 1999; Tiffany 1990)。臨床的には、このような薬物使用者は強い渇望を示しにくく、意識的な計画や薬物を求める意思表示がない、ロボット的な薬物使用を示すであろう。習慣に基づく薬物使用は、快楽のクオリアとは無関係である可能性が高い。

4.8. 脆弱性8:計画システムの選択的抑制

薬物に暴露されると、システム間の正常なバランスが変化し、あるシステムが他のシステムよりも強調されることがある。例えば、アンフェタミンを前処置すると、ラットは評価の低下 を示さないシステムを優先的に使用するようになる(つまり、 計画系よりも習慣系を優先的に使用するようになる)(Nelson & Killcross 2006)。 別の例として、アルコールは海馬(Hunt 1998; White 2003)と前頭前野(Oscar-Berman & Marinkovic 2003)の機能を優先的に損ない、正常なバランスを計画系から習慣系にシフトさせるという仮説がある。Dickinson et al. (2002)は、ラットのアルコール探索は主にS→aメカニズムによって駆動され、減弱を示さないことを発見した。このような区別は、プランニングに基づく反応よりも習慣的反応の方が速く増加することとして現れるだろう。

前頭前野(実行系)が習慣から計画系へのシフトに関与しているという仮説(Baddeley 1986; Barkley 2001; Barkley et al. 2001; Dalley et al. 2004; Isoda & Hikosaka 2007)に従えば、この実行系の障害は習慣を断ち切ることの困難さにつながる(Bechara et al. 2001; Jentsch & Taylor 1999; Lubman et al. 2004)。状況を再解釈することで習慣が消滅するという仮説(Bouton 2002; Capaldi 1957; Quirk et al. 2006; Redish et al. 2007)。 確かに動物では薬物摂取を中止させることは可能であるが(Kalivas et al. 2006; Olmstead et al. 2001)、中止された行動は特に再発しやすく、再上昇しやすい(McFarland & Kalivas 2001; Shalev et al. 2002)。特定の薬物摂取行動において、計画系の選択的抑制や習慣系の興奮のために、薬物摂取行動を消失させることがより困難であるかどうかはまだわかっていない。このような脆弱性に陥った薬物は、特に強い、制御不能な再発を示し、おそらく手がかりに依存し、おそらく明確に識別された欲求とは無関係であろう。

4.9. 脆弱性9:過剰割引

先に検討したように、嗜癖者は非嗜癖者よりも割引が速いという強力な証拠がある(Bickel & Marsch 2001; Reynolds 2006)。まだ未解決の重要な問題は、このような早い割引要因が前提条件として存在するのか、それとも経験とともに発達するのかということである。衝動性は強い遺伝性を示しており、嗜癖の既存の要因の根底にあるという仮説が立てられている(Kreek et al. 2005)。衝動性は、神経調節物質、特にセロトニンの変化と同定されている13 (Chamberlain et al. 2006); セロトニンレベルが変化すると、割引率がオンラインで変化する可能性がある(Schweighofer et al. 2004; Tanaka et al. 2004b)(計算上、セロトニンは時間差学習における割引因子を制御するものとして明示的にモデル化されている;Doya 2000a; 2002)。

コカインのような多くの乱用薬物は、セロトニンレベルに直接影響を与えるが(Paine et al.2003; Ritz et al.1987)、アルコールのような他の物質では、自己投与レベルはセロトニンレベルを反映する(Chastain 2006; Valenzuela & Harris 1997)。嗜癖者に見られる過剰な割引が、既存の状態なのか、それとも嗜癖のプロセス自体の結果なのかは、今のところ不明である(Reynolds 2006)。このような脆弱性の多くと同様に、既往症が嗜癖への入り口を支え(Kreek et al. 2005; Perry et al. 2005; Poulos et al. 1995)、薬理学や経験から生じる嗜癖後の結果が嗜癖を悪化させるという正のフィードバックが起こりうる(Paine et al. 2003)。

4.10. 脆弱性10:学習率の変化

先に検討した意思決定システムは、状況、結果、行動の間の関連性を学習することに依存している。これらのシステムは特定の学習速度に依存している。アセチルコリンドーパミンなどの神経調節物質は、学習速度のパラメーターを制御しているという仮説がある(Doya 2000a; 2002; Gutkin et al. 2006; Hasselmo 1993; Hasselmo & Bower 1993; Yu & Dayan 2005)。これらの学習速度を操作する薬理学的物質は、増強された連合を生み出し、過剰に発達した期待や習慣をもたらす可能性がある。例えば、ニコチンは試験管内で、すでに利用可能なフェイシック・ドーパミン作動性シグナルの存在を増強する(Rice & Cragg 2004)。記憶されるべき価値の高い関連付けを識別する際に、相性の良いドーパミン信号が果たす役割の仮説(Montague et al. 1996; Schultz et al. 1997)から、ニコチンは小さな学習信号を増強し、手がかりに関連した関連付けを行う可能性をさらに高めると予測される。ニコチンが学習において一般的な役割を果たすという直接的な証拠はまだないが、もしニコチンが一般的に学習シグナルを増強するのであれば、喫煙者は手がかり主導型の関連付けを特に受けやすくなるだろう(Chiamulera 2005)。同時に服用した複数の薬物は互いに作用し合うかもしれないし、薬物は自然な報酬とも作用するかもしれない。

5. 薬物と脆弱性の分類法

神経調節物質(アセチルコリンセロトニン、ノルエピネフリンドーパミンなど)は意思決定システム全体(S→a関係の学習、S→(a)O関係の記憶と評価、状況Sの認識など)に関与しているため、乱用される薬物が1つのサブシステムにのみ作用する可能性は低い。これらの脆弱性には違いがあるため、特定の薬物が10の脆弱性すべてにアクセスする可能性も低い。行動制御には意思決定システム全体が関与するため、ギャンブルのような行動上の問題は、脆弱性の相互作用から生じる可能性が高い。各脆弱性は、嗜癖的な選択に戻るように行動者を駆り立てるが、各脆弱性はまた特徴的な症状を生じさせるので、行動者内で別々に識別することができる。

異なる薬物は、異なる脆弱性にアクセスする可能性が高い。例えば、アヘンが一般的に初期使用時に多幸感をもたらすのに対し(Koob & Le Moal 2006;脆弱性3)、ニコチンは初期使用時にしばしば不快感をもたらす(Heishman & Henningfield 2000;Perkins 2001;Perkins et al.1996;脆弱性3の可能性は低い)。しかし、ニコチンを継続的に使用すると、強いアロスタティック変化(Benowitz 1996; Koob & Le Moal 2006; Vulnerability 2)が生じ、レベルを正常に戻したいという強い欲求が生じる(Fiore 2000)。ニコチンはまたドーパミン作動性ニューロンの発火を増加させ(Balfour et al. コカインの使用は特に早く自動化し(Miles et al. 2003)、非常に強い誘発再発を引き起こす(Altman et al. 1996; Childress et al. 1992; 1993; O'Brien et al. 1992)ことから、コカインもまたS→aの過大評価脆弱性(Redish 2004; Vulnerability 7)にアクセスすることが示唆され、おそらくドーパミンに対する直接的な作用を通してであろう(Kuhar et al. 1988; Ritz et al. 1987; Stuber et al. 2004; 2005)。しかし、コカインの慢性的な使用は、μ-およびκ-オピエート受容体レベルの長期的な変化をも引き起こす可能性があり(Shippenberg et al.2001)、これはコカインがアロスタティック脆弱性脆弱性2)にもアクセスする可能性があることを示唆している。付録では、薬物およびそれぞれに関連する潜在的脆弱性について、より詳しく述べている。

5.1. 個人の脆弱性

現在、嗜癖研究の主眼のひとつは、なぜ嗜癖になる人とならない人がいるのかという問題である(Deroche-Gamonet et al. 2004; Koob & Le Moal 2006; Tarter et al. 1998; Volkow & Li 2005b).。このような個人差は、個人の遺伝、発達環境(社会的・物理的)、個人の発達段階、嗜癖物質による行動経験の相互作用から生じる(Koob & Le Moal 2006; Kreek et al. 2005; Volkow & Li 2005a; 2005b)。個人の脆弱性の詳細を完全に明らかにすることは、この論文の範囲を超えている(そして大部分がまだ未解明である)が、ここで提唱された多重脆弱性仮説は、この問題に対する攻撃計画を示唆している。嗜癖研究はこれまで、単一の薬物(ニコチン、ヘロイン、アルコールなど)の問題、あるいは薬物間のパラメータの統一(ドーパミンの役割など)を対象としてきた。多重脆弱性仮説は、その代わりに、自然学習システム内の潜在的脆弱性に注目すべきであると示唆している。

このような脆弱性は、多くの特定の個人パラメータに依存する可能性が高い。例えば、報酬と罰に特に敏感な個人を想像してみよう。そのような人は、乱用された薬物が多幸感をもたらすという脆弱性3の影響を受けやすいだろう。少し新しい状況を新しいものとして扱いやすい個人を想像してほしい。そのような人は、勝ち負けが一致しない脆弱性6にかかりやすいだろう。あるいは、ニコチンのドーパミンに対する作用が強まった個体を想像してみよう。そのような人は、タバコを一服するたびに強いドーパミンのキックを受け、特に脆弱性7に陥りやすくなる。おそらく、ある個体ではニコチンが過剰なドーパミン放出を引き起こし(脆弱性7)、習慣性の嗜癖につながるが、別の個体ではニコチンがアロスタティック変化を引き起こし(脆弱性2)、レベル維持の嗜癖につながる。

5.2. 脆弱性間の相互作用

ここで特定した障害点は相互に排他的なものではなく、共存しうるものである。例えば、腹側線条体領域(計画系に関与していると 仮定される)、背側線条体領域(習慣系に関与していると 仮定される)、前頭皮質と海馬(状況カテゴリー化メカニズ ムに関与していると仮定される)に同時に過剰なドーパミンが供給されると、個人を多くの脆弱性に駆り立てる可能性がある。計画系におけるドーパミンの増加は、動機づけの顕著性の増加につながるという仮説がある(Robinson & Berridge 2001; 2003; 2004; 脆弱性4)。状況カテゴリー化システムへのドーパミンの増加は、カテゴリー化システムの安定性を変化させるという仮説がある(Redish et al.2007; Seamans & Yang, 2004; 脆弱性6)。したがって、1つの薬物の1つの作用が、複数の障害点にアクセスする可能性がある。

また、薬物は複数の作用をもたらすことがあり、その結果、複数の脆弱性が生じ、すべてが不適応な意思決定につながる可能性がある。例えば、コカイン、アンフェタミンメタンフェタミンは薬理学的にドーパミントランスポーターをブロックし(Kuhar et al. 2001; Porrino et al. 2004a; 2004b)、他のメカニズムによるドーパミン放出の減少(Martinez et al. 2007)、腹側線条体(Thomas et al. 2001)および背側線条体(Nishioku et al. 1999)における長期抑圧(LTD)および長期増強(LTP)の変化も引き起こす。しかし、コカインの長期暴露は、オピオイド受容体の分布にも変化をもたらす(Shippenberg et al. 2001)。このような作用は、それぞれ異なる脆弱性の犠牲となり、不適応な意思決定を促す別々のメカニズムにつながる可能性がある。

同様に、ニコチンは脳全体に複数のアクセスポイントを持つ(Ikemoto et al.) ニコチンの反復使用は、コリン作動性アゴニストによるシステムの氾濫に反応してアロスタシス変化を引き起こすが(Benowitz 1996; Koob & Le Moal 2006)、ドーパミンの放出を直接引き起こし(Pidoplichko et al. 1997)、腹側被蓋野へのグルタミン酸作動性入力の効果を増大させ(Mansvelder & McGehee 2000)、すでに存在する位相性ドーパミン作動性シグナルの効果を強める(Rice & Cragg 2004)。このような脆弱性の組み合わせは、被験者が脆弱性2(アロスタシス)、脆弱性7(習慣系における過大評価)、脆弱性10(薬物に関連した手がかりの学習率の増加)の犠牲者に同時に陥る可能性がある。ニコチン補充療法(Hanson et al. 2003; Rose et al. 1985)などを通じて)アロスタティックの要素のみを治療しても、他の脆弱性から生じる同時的な問題は治療されない。

これらの脆弱性が相互に作用しうるという事実は、薬物間の相互作用を意味し、多剤乱用につながりうる。薬物は1つの脆弱性に対して相乗的な影響を及ぼすこともあれば、複数の脆弱性に同時に作用することもある。コカインとヘロインはともにオピエート系に作用し、ある薬物に対する反応として生じるアロスタティックな変化は、別の薬物に対する神経生物学的反応に影響を与える可能性がある(Leri et al. 2003)。ニコチンはすでに存在するドーパミン作動性シグナルを増強するため(Rice & Cragg 2004)、ニコチンの存在(学習速度を変化させる可能性がある、脆弱性10)は、計画系(脆弱性4)または習慣系(脆弱性7)においてドーパミン産生過大評価を促進する他の薬物の能力を増強する可能性がある。同様に、アンフェタミンは手がかり主導型の動機づけシグナルを感作する可能性があり(Wyvell & Berridge 2000)、コカインやメタンフェタミン中毒と性行動との相互作用の一部を説明できるかもしれない(Schneider & Irons 2001)。我々の理論は、多剤乱用は薬物乱用と同じ原因から生じることを示唆している: 薬物乱用者の環境(薬物、手がかり、経験)と薬物内部の意思決定システム(遺伝、計画、習慣システム)との相互作用によって、薬物乱用者は意思決定システムの脆弱性の犠牲になり、問題のある薬物や行動を継続的に使用するようになる。

薬物摂取やギャンブルの決定が、複数のプロセスの結果として生じうることを示唆したのは、我々が初めてではない。このような複数のプロセス理論は、一般的に、より認知的で「計画的」なプロセスから、より認知的でない、より「自動的」なプロセスへの移行シーケンスという観点から議論されている。例えば、Everitt and Robbins (2005)は、"行動→習慣→強制 "という移行順序を示唆している。Oei and Baldwin (2002)は、アルコール消費において、コントロールされたプロセスから、より自動的な習慣に基づくプロセスへの移行を示唆している。

対照的に、こうした脆弱性を克服する道はたくさんあるというのが我々の主張である。柔軟なプランニング戦略から自動化された習慣的戦略への移行とは限らない。

動物実験では、動物が薬物摂取をコントロールできなくなるような方法が数多く見つかっており、その例として、薬物に長時間さらされることによるエスカレーション(Ahmed & Koob 1998; 1999; 2004; 2005; Vanderschuren & Everitt 2004)、薬物にさらされた後の分離による潜伏(Bossert et al. 2005; Grimm et al. 2001)、ストレスによる再発(Shaham et al. 2000; Shalev et al. 2000)、再認による再発(de Wit & Stewart 1981; McFarland & Kalitt 2004)などがある。2001)、ストレスによる再発(Shaham et al. 2000; Shalev et al. 2000)、再燃による再発(de Wit & Stewart 1981; McFarland & Kalivas 2001)、さらには未知の(潜在的に遺伝的な)要因によって、感受性の時間経過が個人間で変化する可能性さえあるDeroche-Gamonet et al. 2004; Goldman et al. 2005; Hiroi & Agatsuma 2005; Ranaldi et al. 2001)。

エージェントは、計画システムの脆弱性、習慣システムの脆弱性、あるいはそれらの相互作用の脆弱性によって、嗜癖的な意思決定を示す可能性がある。我々の提案は、意思決定システムには多くの脆弱性があり、したがってエージェントが嗜癖になるには多くの方法があるということである。これは、遷移シーケンスも数多く存在することを意味する。

5.3. 移行の段階

臨床的には、嗜癖への移行は通常3つの段階で説明される:最初の探索的または試行的使用、その後の強い欲求(渇望)の開始に伴う薬物使用の維持、そして一部の使用者では、薬物使用のコントロールを失う強い習慣的使用が続く(Altman et al.1996、Everitt & Robbins 2005、Kalivas & Volkow 2005、Lowinson et al.1997、Oei & Baldwin 2002、Robbins & Everitt 1999)。

この一連の流れは、意思決定システムの脆弱性を通過する道筋として記述することができる:いったん薬物や行動がサンプリングされると、多幸感、薬理学的、または社会的に肯定的な効果のために繰り返される。多幸感作用は、関連する報酬シグナルのために繰り返し使用させる(脆弱性3)。薬理学的効果は、速い恒常性変化により反復使用を促す(脆弱性1)。また、多幸感をもたらさない薬物が、社会的に肯定的な関連によって使用される可能性もある。また、タバコ(Bobo & Husten 2001; Cummings 2002)、アルコール(Bobo & Husten, 2001; Goldman et al. 1987; 1999)、カフェイン(Greden & Walters 1997)のように、多幸感をもたらさない薬物が、関連する社会的に肯定的な連想によって引き起こされる可能性もあり、これらは脆弱性3に分類されるかもしれない。

しかし、使用を繰り返すと、計画系でS→(a)O関係が増強され(脆弱性4)、アロスタティック変化(脆弱性2)が生じ、強い欲求と渇望につながる。十分な習慣的使用によって、薬物使用につながる行動は、S→a関係に関連する価値の増大を通じて、習慣系で過剰に評価されるようになる(脆弱性7)。この順序は、腹側から背側線条体系へと進む正常な学習の多くの例と類似している(Balleine & Dickinson 1998; Everitt et al. 2001; Haber et al. 2000; Letchworth et al. 2001; Packard & McGaugh 1996)。

この順序は、すべての人が、あるいはすべての乱用薬物を介して辿るわけではない。個人の脆弱性から脆弱性への移行は、遺伝、発育、薬物経験の間の複雑な相互作用に依存していると思われる。すべての嗜癖患者がこの脆弱性の迷路を同じように進むとは限らない。

タスクによって計画と習慣システムの相互作用が異なるように (あるタスクは計画から習慣への移行を伴い、他のタスクは常に 計画システムを必要とし、他のタスクは習慣システムを必要と し、他のタスクは習慣からより柔軟な計画システムへの移行を 伴うことがある)、エージェントが異なれば(遺伝や経験な どが異なれば)、これらの脆弱性を通過する経路も異なると予想 される。さらに、あるタスクが、プランニングに基づく戦略の上に、自動化された習慣のような戦略を重ねることを伴うように(例えば、Packard & McGaugh 1996)、患者の習慣に基づく脆弱性を治療することで、それ以前のプランニングに基づく脆弱性が発見されるかもしれない。他のエージェントは、計画システムを通過することなく、習慣や対話システムの脆弱性によって嗜癖決定を示すことができる。また、習慣に基づく嗜癖的意思決定が、計画に基づく嗜癖的意思決定に移行する可能性もある(例えば、障害物が設置された場合など)。嗜癖の問題を理解し治療するためには、患者がこれらの脆弱性を通過する軌跡のどこにいるのかだけでなく、患者がどの脆弱性vulnerability)の犠牲になったのかも知る必要があると我々は主張する。

5.4. 再発

嗜癖の根本的な問題は再発である。再発とは、断薬期間後も薬物を求めたり、嗜癖的な選択をしたりすることである。

再発は、臨床的には薬物使用を中断している集団を測定することで研究されており、動物では強制的に薬物を除去した後に再び薬物に反応することを確認することで研究されている(extinction, forced abstinence)。ヒトでは、薬物への再接近、薬物摂取や薬物探索に関連する手がかりへの再接近、ストレスへの再接近の後に再発が起こる可能性がある(Self & Nestler 1998; Shalev et al. 2002)。行動嗜癖(ギャンブルなど)の再発については、これほど詳しく研究されていないが、ギャンブル依存症は、正常な報酬が消失した後に見られる反応の再発に関係している可能性が示唆されている(Redish et al. 2007, Bouton 2002; 2004も参照)。動物では、薬物への急性再暴露、薬物摂取や薬物探索に関連する手がかり、ストレスなどにより、反応への回帰が起こることがある(Bossert et al.2005; Kalivas et al.2006; Shaham et al.2003)。断薬と再発のモデルとしての復薬パラダイムの妥当性については、まだ議論の余地がある(Kalivas et al. 2006; Katz & Higgins 2003)が、それでも復薬パラダイムは、再発が起こるメカニズムを理解するのに役立つ(Epstein