目次

  1. 行動経済学でみる、人間が不合理な判断をする理由
  2. プログラム化できなかった「子どもの知能」
  3. 行動経済学で「不合理」な行動、実は正しい?
  4. 「ルンバ」は生存本能を埋め込んだ数少ないAI
  5. AIが苦手だった思考モード、深層学習で克服へ

近年、行動経済学がAI的に見ても面白い成果を出しています。

しかし、ちょっと疑問もあります。

知能に対する考え方が少し違うようなのです。

今回はその点を掘り下げてみたいと思います。

 

日本大百科全書(ニッポニカ、小学館)の「行動経済学」の解説には以下のように書かれています。

人間がかならずしも合理的には行動しないことに着目し、伝統的な経済学ではうまく説明できなかった社会現象や経済行動を、人間行動を観察することで実証的にとらえようとする新たな経済学。2002年に行動経済学者のダニエル・カーネマンがノーベル経済学賞を受賞して以来、脚光を浴びるようになった。

 行動経済学の一般書でお勧めのものをいくつか挙げます。

 

・2008年にイグノーベル賞を獲得したダン・アリエリーの予想どおりに不合理 行動経済学が明かす「あなたがそれを選ぶわけ」』(2010年)

第7回の読者案内でも取り上げた、心理学者で2002年のノーベル経済学賞受賞者、ダニエル・カーネマンの『ファスト&スロー あなたの意志はどのように決まるか?』(2012年)

・2017年のノーベル経済学賞受賞者、リチャード・セイラーの『行動経済学の逆襲』(2016年、いずれも早川書房)

 

カーネマンの著書『ファスト&スロー』では、意識下で「ファスト(fast)」に動くシステム1と、熟考型で「スロー(slow)」なシステム2が描かれています。

この命名はいずれも心理学者のキース・スタノヴィッチとリチャード・ウェストが2000年に発表した論文によるもので、心理学の分野で定着しています。

出典=https://amazon.co.jp

システム1(fast)の例は、顔や文字の認識、1ケタの数字の四則演算(日本では九九が典型的です)、囲碁や将棋の妙手を思いつくこと、などです。

システム2(slow)の例は、群衆の中から特定の性質(服装、髪型、性別など)の人を探す、歩く速度を通常より速いペースに保つ、2ケタ以上の数字の演算、複雑な論旨の妥当性の検証、などです。

 

ダン・アリエリーの『予想どおりに不合理』では、数々の実験でシステム1の下す不合理な判断の例が示されており、これを逆手にとって合コンでモテる方法も示されています。

広告や、商品の値段設定にも使われています。

行動経済学ではシステム1は間違うことや不合理な判断をすることが多いので、どうすればシステム2を使えるか、という方向で研究されています。

深層学習がかなり知的な作業をこなすようになってきました。

深層学習は基本的にシステム1を扱っています。

機械翻訳もかなり高度になってきて、Transformerと呼ばれる巨大システムでは様々な例を学ばせることによって四則演算も学ぶようです。

それでも四則演算はシステム1の機能です。

 

一方、旧来のAI(記号処理AI)はシステム2を扱ってきました。

1980年ごろ、マサチューセッツ工科大学名誉教授でAIの父と呼ばれたマービン・ミンスキーは、大人の知能(今風に言えばシステム2)は比較的簡単にプログラムできるが、子どもの知能(システム1)は難しいと述べています。

取材に応じるマービン・ミンスキー博士=2012年、朝日新聞社

システム2の働きは、例えば専門知識が大学の教科書に書かれているように言語化しやすいため、エキスパートシステムが作られました。

しかしシステム1は暗黙知とも呼ばれ、言語化は困難あるいは不可能で、プログラム化できませんでした。

 

最近、深層学習がこの暗黙知の部分を埋めるようになった、と私は期待しています。

つまり、1980年代に作られたエキスパートシステムと深層学習を組み合わせることによって、より完全な知能に近づけるのではないかと考えています。

こちらに私たちの行ったシンポジウムにおける私の発表の動画があるので、興味のある方はご覧下さい。

2019年に開いたシンポジウムのポスター

AIを考えるときに「生存」というキーワードはこれまで存在しませんでした。

行動経済学にもその概念はありません。

AIも行動経済学も「合理的」な判断や行動を良しとしています。

 

でも、我々は生存を前提として日々暮らしていますし、進化論的に見ても生存を疎かにした種は滅びたはずです。

そして、行動経済学などで「不合理」とされている行動の多くは、実は生存のための正しい戦略ではないかと考えています。

 

生存のための判断は「ファスト」でなければなりません。

突然目の前にクマが現れたら、直ちに身を守る行動を取らねばなりません。

システム1は、経済行動のような複雑な場面では間違うかもしれません。

しかし、より単純な、生存がかかった場面では正しい判断をするのではないか、と思うのです。

男性がクマに襲われた現場付近を調べる警察官ら=2021年9月、秋田県潟上市、朝日新聞社

別の例を示しましょう。

私の知り合いがFacebookに以下のような記事を投稿していました。

週に一回鯖缶とイワシ缶食べて、毎日アマニ油採ったらコレステロール値が正常に戻った。どっちがきいたか分からないといういつものパターン。鯖缶だけ、イワシ缶だけ、アマニ油だけ、イワシ缶と鯖缶、イワシ缶とアマニ油、鯖缶とアマニ油、すべて、なにもなし、の8通りと期間、量などと変数を変えてやらないといけないんだけど、そんなことやってる間に血管がつまるので、いまのままやる。

※本人の許可を得て転載

これは最適戦略と言えます。

つまり、探す暇がない(探しているうちに死ぬかもしれない)ので、不合理で無駄かもしれないけれど、少なくとも有効だと分かっている戦略に固執しようというものです。

 

レストランや飲み屋探しも似たようなものだと思っています。

最初のうちはあちこちの店を試すけれど、いったん好みの店を見つけたら、それに固執しますよね。

本当はもっとうまい店があるかもしれないけれど、それを求めてまずい店に当たる危険を避けようとします。

 

カーネマンの著書『ファスト&スロー』に次のような実験が描かれていました。

子どもに「今すぐにほしければ、おいしいお菓子を1個あげる。5時間我慢したら3個あげる」と言います。

この本では、5時間待つ方が正しい戦略だが、5時間待てる子どもは少ない、と書かれていました。

カーネマンによると、5時間待ってお菓子を3個もらうのが正しい戦略。しかし、生存戦略の面から見ると、直ちに1個もらう方が正しい=Getty Images

生存戦略から言えば、直ちに1個もらう方が正しいのです。

5時間待つ間に何が起こるか分かりません。

実験している人がいなくなるかもしれないし、自分が体調を崩すかもしれません。

あるいはもっとおいしいお菓子をくれる人が現れるかもしれません。

不確実な未来を待つより、直ちに得られる報酬を手にするべきです。

行動経済学の本には、人間の不合理な決断の例がたくさん出てきますが、私は生存戦略的にはそれらは不合理な判断ではないと思っています。

でも、そういう判断のできるAIはこれまであまり作られていません。

 

クッキーの例に対応させるプログラムには、クッキー1枚の報酬関数、そして待つことによる報酬の減衰関数などを与えて、最適戦略を求めることになります。

しかし、これはまさにカーネマンが「システム2による正しい戦略」として記述しているものになってしまいます。

 

システム1を使う数少ない例外は、生存本能を埋め込んだロボットたちです。

具体的には、バッテリーの残量が少なくなると自分で充電ステーションに行って充電するロボットがそうです。

このロボットにとっては、他のことをしている間にバッテリーがなくなってしまっては元も子もないので、ある程度バッテリーが減ったら、他の報酬は無視して充電に向かうことになります。

 

よく知られている例は掃除機のルンバです。

ルンバは発売当時より少し賢くなってきました。

ルンバとクリーンベース

逆に、生存本能がない方がいい場合もあります。

将棋の羽生善治名人(当時)に聞いた話ですが、AIの打つ手は怖いそうです。

AIには生存本能がないため、「最善ではあるが、ちょっと足を踏み外すと谷底に落ちてしまう、稜線の道」を平気で選択するそうです。

一方、人間であれば、完全に読み切っている場合を除き、「相手の思いもよらぬ反撃に備えて、少々道を外れてもひどいことにはならない、やや平坦な道」を選ぶとのことです。

初冠雪した大山。山の稜線を境目に、日陰側には雪がうっすらと積もっていた=2019年11月、鳥取県大山町、朝日新聞社

稜線というのは比喩的表現ですが、実際のプログラムは次の図のような空間を作りながら、その中を探索します。

枝分かれは着手の違いを表し、個々の着手を表すノード(節点)に乗っている縦の棒はその手の評価値を表しています。

黒く塗ったノードはその先に見込みがないので、そこで先読みをやめる(生物に例えると死ぬ)ノードです。

将棋の差し手の探索空間。赤は険しい一本道、緑は安全な高原を示す

良い手に至る選択肢の幅が狭い時、羽生さんの言っているようなAIの好む稜線になるのです。

真ん中あたりに赤で示した、高い評価値が続くのが稜線です。

ただ、この一本道からそれると、両側には黒いノードの死の谷が待っています。

一方、右の方の緑で示している辺りは、赤よりは評価値が低いのですが、道を少しそれても急激に評価値が落ちることのない、なだらかな場所です。

 

将棋は明らかに熟考型のゲームです。

システム2が支配的であるべきです。

それでもシステム1的な生存本能が関与していると考えられます。

人間の思考には「速いが荒い反射型のシステム1」と、「遅いが緻密な熟考型のシステム2」の2つのモードがあります。

経済活動などではシステム2の方が合理的な判断を下し、行動経済学ではこちらを支持しています。

 

しかし、生存が脅かされるような状況、例えば道でクマに出会った時などは熟考している間に襲われてしまいますから、反射的に身を守る行動を取る必要があります。

このような生存という場面を考えたAIはこれまで存在していませんでした。

そのような場面では深層学習が役立つのではないかと考えています。

  

(朝日新聞社の経済メディア「bizble」で2022年2月4日に公開した記事を転載しました)