Newton(ニュートン)という雑誌で、脳の学習のしくみをロボットを使ってせまろうとしている学者の特集がありました
その簡単な内容です。
私達は行動の結果得られた「満足度」をもとに、どのような行動をとるのが最適かを学んでいきます。このような学習を「強化学習」と呼びます。
これを銅谷賢治博士は開発したネズミ型ロボットに強化学習プログラムを搭載させ、自ら動き回らせ、餌(電池パック)を食べ(バッテリーを充電)、赤外線通信で別のロボットとプログラムを交換することができるようにしました。ロボットは餌を食べたり、たがいに通信したりして、自らのプログラムを進化させていきます。
あるとき、電池パックが遠くに見えていてもじっとして動かないという、人間のウツ症状にも似た行動をとることを学習してしまったロボットがあらわれました。そのロボットのプログラムを調べたところ、「将来得られる報酬を極端に低く評価するようになっていました。」要は遠くにあるため、移動が大変な電池パックは取りに行かないということ です。
ウツ症状の患者さまの脳内では「セロトニン」という神経伝達物質が少なくなっていることが知られています。
銅谷博士はその点に注目し、「ウツ症状の人は、将来得られる報酬を低く評価してしまうのではないか。セロトニンがその評価に関係しているのではないか」と考えたそうです。
その仮説を検証するためヒトで実験したところ、「セロトニンの量が少ないと少し先に得られる報酬よりも、目先の報酬を選びやすくなるような脳の行動がみられる」ことが明らかになったそうです。
ロボットの行動で説明をすると、さまざまな行動には「報酬」が設定されています。充電は正の報酬(ごほうび)、壁にぶつかる、遠いなどは負の報酬(罰)となります。
ロボットはある行動をとったら、どれだけ報酬を得られたかという経験、情報交換をもとに、最大の正の報酬を得るためにはどうすれば良いかを学びます(強化学習)。
将来(先に)得られる正の報酬は負の報酬から割り引いて考えられます。その割引き率が緩やかなロボットは先の正の報酬も十分に評価するので、「将来のことを考えて行動します」。一方割引き率が急なロボットは「将来得られる正の報酬のことをほとんど評価せず、目先のことしか考えなくなり、遠くや壁の障害のある電池パックは取りに行かない行動をとります」。ということだそうです。
しかしこれってウツ症状でなくても有りがちですよね
(少し違うのかもしれませんが)
勉強すれば知識や知恵が増え、将来役に立つのに(正の報酬)があるのに、目先の一時的に楽しい行動をしてしまう
コツコツ行動していけば後に正の報酬が得られるのに、ついつい先を見ずに目の前の行動のみに集中してしまうとか、今やらないとといけないのにテレビや漫画などを見てしまったり、面倒臭いからやらないとか後回しにしたりしてしまうと思います。
私もそうなりがちな行動があるので気を付けていきたいです
ウツ症状でないこういった行動もセロトニンが関係しているのでしょうか??
あと本人がどれが正の報酬ととらえるかによって変わってくると思います。