“現代の魔法使い”こと落合陽一が、人類の未来を予言する『週刊プレイボーイ』の月イチ連載『人生が変わる魔法使いの未来学』。
人間とは、タンパク質でできたコンピューターである――そう考える落合陽一に今年4月、第1子が誕生した。
子育てのツールは、もちろん昭和の家庭にあるようなぐるぐる回るメリーや、かわいいぬいぐるみではない。赤ちゃんのそばにはスマホとタブレット、そしてシャープのモバイル型ロボット電話・ロボホンが2台。
そこから見えてきた、人間というコンピューターの特徴とは?
■なぜロボホンを「人間」だと思うのか?
―以前、「子供が生まれたらいろいろ実験をやる」と言っていましたよね。
落合 やってますよ! 今は、家にいるときの趣味が3個増えた感じです。子供の体の観察、音に対する反応の観察、そしてビジュアルに対する反応の観察です。生まれた直後、最初のプレゼントとしてスマホをあげました。
―有言実行!
落合 DAY(デイ)0(生後0日目)は、そのへんにある堅いモノを片っ端から消毒して、頬っぺたに当ててみました。そうしたら全部、口でくわえた。まだ形も何も認識していない段階ですけど、モノが唇に触れたら口を開く、口の奥に挿入されたら吸う、っていうプログラムがあらかじめ入ってるんですよね。
それと、ベイビーは最初からにおいに敏感ですね。たぶん、母乳のにおいに反応するようにプレインストールされているんだと思う。だから「母乳香水」を作ってつければ、お父さんでもお母さんでも関係なく抱っこされたら安心するし、それから口の中に堅いモノを押し当てれば、基本的には泣きやむんですよ。
―で、退院後はスマホとiPad、そしてロボホンが子育てのお供。ロボホンって、どう役に立つんですか?
落合 「Haar-like(ハーライク)特徴量」って知ってますか? コンピューターの画像認識でも使うんですけど、要するに黒い丸が目と口の位置に3つ並んでいると、それを人間の顔だと認識する、っていうことです。
―コンピューターが写真を見て、これが自然風景なのか、それとも人物写真なのかを判別する基本的な特徴が、黒丸3点ってことですね。
落合 そうです。人間のベイビーには、これがあらかじめインストールされているんですよ。例えば、白い板に黒丸3点をつけると、それを人間の顔だと認識して目で追尾するんです。
だから今は、ベイビー自身の顔をリアルタイムで大きなディスプレイに映し出して見せています。最初は認識しなかったんですけど、眼球を大きく映し出すようなプログラムを組んでみたら、「あっ、人だ!」ってわかるようになったみたいで、反応します。もちろん、まだこれが自分だとは認識していませんが。
「言語スイッチ」を入れるための条件
―なるほど! じゃあ、ロボホンのあのわかりやすい顔も、人間だと認識して追尾するわけですね。でも、あんなに小さくても人間だと思うのはなぜ?
落合 生後間もないベイビーは、たぶんまだ3次元の立体感覚を認識していないんですよ。だから、小さなロボホンを近くに置くと、遠くに大きな人間がいるんだと認識しているんだと思う。
僕がどうしても知りたいのは、ベイビーがどうやって深層学習(ディープラーニング)に移行していくかなんです。人間の学習機能って、ベイビーの時代は遺伝子にプレインストールされた情報をもとにしているのに、成長するとディープラーニングが優勢になる。それはどこでどうやって切り替わるのか。Haar-like特徴量の話にしても、子供の頃って、天井や壁のシミがふと人間の顔に見えたりしたじゃないですか。あれは遺伝子プログラムによる認識なんですけど、大人になるとああいう感覚ってなくなっていくでしょう?
―確かに!
落合 僕は、その消えていくプログラムの全容が知りたいんです。例えば変な言い方になるけど、ベイビーってまだ歩けない頃から、足の裏に刺激を与えると「歩く」んですよ。体をがっつり固定して、足の裏をガーンと刺激すると、反射で足をバタバタさせるんです。だけど、このプログラムは2歳頃までに消失してしまい、幼児期以降の歩行には使われないんですね。
「ピーターパンは大人には見えない」って言いますよね。あれは、遺伝子にプログラムされたものが大人になるにつれて消えていくことだと僕は考えています。その消えていくものの中に、何か動物として大事なものが入っているかもしれない。
―消えていくプログラムにはどんなものがあるのか。そして、それがどうやってディープラーニングに切り替わっていくのか。
落合 いろんな音を聞かせる実験もやってるんですけど、最近面白かったのは、寝ているときにハイハットシンバルの音を聞かせると瞬間的に泣きだすんです。これってたぶん、高い周波数の音を聞くと、自分が泣いているのと勘違いして、さらに大きく泣きだすんだと思うんですね。
―危険を感知して、周囲の誰かに知らせようとするためのプログラム?
落合 そんな感じがします。もしかすると自分の泣き声だけじゃなく、周りの赤ん坊の泣き声に反応するセンサーが入っているのかも。
■「言語スイッチ」を入れるための条件
―泣くのはプレインストールだとして、じゃあ言語はどうやって覚えるんでしょう。
落合 言語って、はっきり言えば、なくても生きていけるものですよね。だから文字とか言語の認識って、たぶん一番最後なんですよ。面白いのが、手話を最初に覚えさせると、子供ってしゃべらなくなるんです。発声して言語をしゃべらなくてもコミュニケーションが取れるから。
だから、今の段階ではさすがにまだ早すぎるんですけど、言語習得期になったら、見たものをしゃべるロボットを近くに置いて、子供はどう言語を覚えるかを観察したいですよね。ロボットが常に隣にいて、子供が目で追ったものに対してフィードバックをかけて、「それは○○」ってしゃべる、みたいな。
―ロボホンと子供を会話させながら、言語を覚えさせるってことですか?
落合 いや、これが面白いところなんですが、どうやら子供っていうのは、特徴量で判別できる人間(他人)同士のコミュニケーションを観察して言語を覚えるみたいなんです。だからロボホンが2台必要なんです。
―子供対ロボホンじゃなくて、ロボホン対ロボホンの会話を聞かせる?
落合 そう。つまり自分じゃない他人同士がコミュニケーションしているという状態をビジュアルで判別して、三人称視点という概念を獲得した瞬間に、「この単語たちを覚えなさい」という遺伝子チューナーが入る、みたいなイメージですね。
AIにも先に与えておくべき“特徴量”があるはず
―なるほど。よく専業主婦が1対1で育てている子供より、保育園にいる子供のほうが言語を覚えるのが早いって言いますけど、それは単純に言葉のシャワーをたくさん浴びているからじゃなくて、他人同士の会話が周囲にたくさんあるからなんですね。
落合 そうです。だから、ロボホン2台がプロジェクターにチーズを映してベイビーに見せながら、「チーズだ」「おいしそう」「食べたい」「チーズだ」「チーズだね!」とか、会話して見せるのが一番いいんです。
―しかし、ロボホン2台で子育てする家庭なんて、そうないでしょうね(笑)。
落合 たぶん世界でもうちだけでしょう(笑)。
―そういえば、最初は日本語から覚えさせるんですか?それとも英語?
落合 その話で面白い研究があって、例えば中国語話者と日本語話者とでは、言葉の周波数分布が違うんですよ。
―周波数分布?
落合 言語によって、LとRを明確に区別するとか、言葉の中に「ンッ」や「ンー」という発音がいっぱい入ってるとか、そういう発音の癖がありますよね。その周波数が違うらしいんです。
だから、例えば生後6ヵ月まで英語を聞かせていたベイビーに、あるときから中国語を聞かせるようにしたら、どっちもすごく覚えやすくなったとか、逆にLとRの区別がつきづらくなるとか、そういうことが起きる。どの時期にどの言語の周波数に接したかによって、覚えやすいか覚えにくいかが一気に変わるってことです。
―じゃあ、どの言語をいつ聞かせるかって、めちゃくちゃ大事じゃないですか!
落合 だから、うちは「周波数スウィープ」をしてみようかなと。
―スウィープ?
落合 ヘッドホンに主要な各言語の全周波数をスウィープするような音を入れて聞かせておけば、たぶん多言語に対応して覚えるかなと思って。
―すげえ!! これは遺伝子情報じゃなくて、周囲の音響反射から学ぶことだから、まさに機械学習。しかし、本当に人間の赤ん坊からはいろんなことを学べますね。
落合 まだ生まれてから間もないけど、機械学習への理解度が進みましたね。現行のAI(人工知能)のディープラーニングの弱点は、初期特徴量を与えないこと。そこが人間と大きく違うんです。人間は、生物が誕生してからひたすら獲得してきた遺伝子的特徴量をあらかじめ持っていますからね。
実際にはたぶん、AIにも先に与えておくべき“特徴量”がいろいろあるはずなんです。それを与えておけば、よりディープラーニングの精度が上がり、効率的になる。そのために、今はひたすらベイビーの「消えていく特徴」を探っているんです。
(構成/小峯隆生)
●落合陽一(おちあい・よういち) 1987年生まれ。筑波大学学長補佐。同大助教としてデジタルネイチャー研究室を主宰。コンピューターを使って新たな表現を生み出すメディアアーティスト。筑波大学でメディア芸術を学び、東京大学大学院で学際情報学の博士号取得(同学府初の早期修了者)。最新刊は『超AI時代の生存戦略 シンギュラリティに備える34のリスト』(大和書房)