コンピューターで人間の頭脳を代替する人工知能(AI)の研究競争が世界で 熾烈 さを増してきた。中でも中国の伸長が著しく、AIで東京大学合格をめざす日本のプロジェクトを模倣した中国版「難関大学突破プロジェクト」も始まった。産業応用を狙うと言い、技術交流を日本側に持ちかけてきた。中国側の狙いはどこにあるのか。日本側のプロジェクト・ディレクターである新井紀子・国立情報学研究所(NII)教授に寄稿してもらった。
正直想定外だった中国の参入
1980年代初頭に茨城県つくば市を訪れたことがある。研究機関らしい巨大なビルが点在する広大な空き地の上を、建設作業車が土埃ぼこりを上げて雑草をなぎ倒して行く。あの頃のつくば市によく似ている。それが私の中国・合肥の第一印象である。
私は2015年7月、合肥にある「iFLYTEK」(アイフライテック;科大迅飛)という新興IT企業で開催される“中国版「ロボットは東大に入れるか」”のキックオフミーティングで基調講演を務めるため、改修されたばかりの合肥駅に降り立った。
合肥へは上海から“中国版新幹線”で約3時間。今回通訳を務めてくれたiFLYTEKの系列企業の中国人社長は、日本で起こった新幹線内焼身自殺事故のことに触れながら、「中国の新幹線は、日本の新幹線より速いし安全」と強調した。ただし、合肥に到着したのは、予定より1時間半遅れの夜8時をだいぶ過ぎたころだった。
私が大学入試をベンチマークとした人工知能プロジェクト「ロボットは東大に入れるか」(通称:東ロボ)を立ち上げたのは2011年の春のことである。当時、コンピューター将棋のプロジェクトはあったが、言葉を理解し問題解決を図る人工知能の大型プロジェクトは、日本にはなかった。
人工知能が新聞の科学欄に取り上げられることさえ滅多めったになかったのである。当初、「国立情報学研究所はドラえもんを目指しているのか?」と冗談半分に語られることも多かったが、2013年に大手予備校の模試を受験し、日本の大学の約半数に「合格可能性80%」と判定された頃から、だいぶ風向きが変わった。今や、人工知能に関連する記事を新聞や雑誌に見ない日のほうが珍しい。
そんな折、iFLYTEKからのメールが届いた。そこには、中国でも難関大学を目指す人工知能の国家プロジェクト(プロジェクト名称:高考機器人)を始める、ついてはキックオフミーティングで基調講演を行ってもらえないか、と書かれていた。
中国が東ロボに関心を寄せている、という噂うわさは聞いていた。だが、国家プロジェクトというのは初耳であるし、その招待状が(大学ではなく)企業から届くというのも不思議なことである。国立情報学研究所では、事情に詳しい中国人の教授や広報担当者を交えて真偽について確認した上で、担当者と面会することになった。
国立情報学研究所にやってきた担当者によれば、中国ではここ数年「東ロボ」に注目し、情報を収集してきたのだという。そして、人工知能の主要な研究者を集めて、“中国版東ロボ”を国家プロジェクトとしてスタートしたのだと説明した。
国家プロジェクトと言っても国がすべての研究費を用意するのではない。中国では“863”と呼ばれる応用分野のプロジェクトで、ビジネス展開を狙ってiFLYTEKと国が共同出資するそうだ。
私の気持ちには穏やかならざるものがあった。大学入試をターゲットとして選んだのは、紙の上での大学入試にアメリカ国民がさほど関心をもっていないからであり、日本らしい人工知能研究が進められるのではないか、と思ったからである。中国が参入してくるとは正直、想定外であった。
人海戦術でビッグデータを磨き上げた中国
「東ロボ」がスタートした2011年は、ビッグデータ上の機械学習の威力を様々な形で私たちが目撃することになった年でもある。IBMのワトソンがクイズ番組「ジェパディ!」のチャンピオンを破ったのも、Googleの自動運転車がネバダ州で公道を走る許可を得たのもこの年である。2013年には日本で第2回電王戦が開催され、コンピューター将棋がトッププロ棋士を破った。
こうして並べると、日本も人工知能で世界のトップを走っているという気がするが、実際はそうではない。アメリカだけでなく、既に中国も日本の前を走っている。
技術の遅れが問題なのではない。機械学習の基礎となっているのは統計の理論である。統計だけで物事を当てようとなれば、必要なのは何を差し置いてもデータである。データが集まらなければ、コンピューターがどれほど早かろうが、並列計算の理論が発達しようが、いかんともしがたい。
ところが、日本はビッグデータが極めて集まりにくい国なのである。
Googleはゼロ年代から、電話番号問い合わせサービスを無料化する代わりに問い合わせの際の音声を録音し、その十数年のデータの上で機械学習をすることにより、音声認識精度を向上させた。また、写真管理サービスを提供していたPicasaを買収し、膨大な写真データを収集することで、人や物を識別し、分類する精度を向上してきた。日本では想像がつかないようなサービスを世界に向けて無料で提供することにより巨大なデータを集積する、という手法は、ベンチャーへの巨額投資の道筋がついているアメリカならではだといえる。
ヨーロッパはどうか。ヨーロッパの国々にはGoogleやAmazonのような企業はあまり見当たらない。しかし、ヨーロッパは国際外交発生の地。ISO(国際標準化機構)など国際標準の基準作りや、最近では「忘れられる権利」の検討など、制度設計に滅法強い。
では、中国ではどうか。政府の権限が極めて強い中国では、アメリカとは全く別の手法でビッグデータを集めることに成功している。
中国では、国家公務員や教員に採用されるためには、標準的な中国語を話せることが必要条件であり、そのための試験がある。年間100万人以上が受験するとも言われる標準中国語のスピーキングテストの音声データを集めることを中国政府は決定した。そのビッグデータを元に、標準的な中国語を話せるか否かを判定するための音声認識器を開発したのが、iFLYTEKである。
このビッグデータを背景にiFLYTEKは音声認識精度を年々上げ、音声認識の世界的ベンチマークで1位を獲得。今や中国のスマートフォンの7割にiFLYTEKの音声認識技術が搭載され、大学入試の英語スピーキングテストの採点にも乗り出している。“中国版東ロボ”の狙いもこのあたりにありそうだ。
しかも、中国のビッグデータにはアメリカにはない優れた点がある。
データというのはただやみくもに集めるだけでは、どうしてもゴミが混じる。ゴミが混じれば、機械の精度は下がる。機械は、有用なデータとゴミデータを見分けることができず、どちらも同じように学習してしまうからである。
どうするか。中国はなんと人海戦術を使って、悪いデータをピッキングして取り除くなどの前処理をすることによって、一段と精度を上げたのである。いまや、人工知能の一級の国際会議にもっとも論文を通しているのはアメリカではない。中国なのだ。
さらに日本には不利なことが起こった。それは2012年に花開いた深層学習(ディープ・ラーニング)である。深層学習も機械学習のひとつだが、従来の手法以上にデータ量を要求するのである。深層学習を使ってGoogleが作ったシステムが、人間からの明示的な働きかけなしに猫が写っている写真を識別したことから、「概念を獲得するコンピューターへの一歩ではないか」という人工知能研究者も日本では少なくない。
マーケット至上主義のアメリカ。そして、政府が号令をかければ好きなだけデータを集められ、人海戦術でそれをクリーニングできる中国。振り返れば、日本はスマートメーターの情報共有すら遅々として進まないお寒い状況である。
アメリカと中国、そして老獪ろうかいな外交官のように振る舞うヨーロッパに囲まれて、たった1億2千万人しか話さない日本語を母語とする日本の研究者が、人工知能研究で何をし得るか。どうやってGDP(国内総生産)に貢献できるのか。研究者であれば、誰もが同じことを悩んでいることだろう。
悩んだ末に私がひねり出したアイデアが、サイズは小さくてもゴミがない質の良いデータ、例えば教科書や過去の試験問題から深く知識を読み取り、問題を解決する人工知能という枠組みだった。日本は世界でも類を見ない丁寧な大学入試試験を実施している国である。アメリカのSATは同じ問題を繰り返し使うが、日本では過去に出題された問題を再度使うことは決してない。
日本人は、それが当たり前だと思っているけれど、各大学が個別の筆記試験を課すような入試をしているのは、先進国の中では日本だけなのである。過去20年のすべての日本の大学の入試問題とすべての教科書会社の教科書を集めても、ビッグデータと呼べるようなデータ量には程遠い。でも、だからこそ日本の要素技術が光るプロジェクトになり得るのではないか。そう考えてスタートしたのが「東ロボ」だった。
だが、「東ロボ」もいつまでも日本の専売特許というわけにはいかなかった。中国という巨大な競争相手が出現したのである。考えてみれば、日本以上に大学入試熱が高いのだから、中国が大学入試をターゲットにした人工知能に関心を持つのは当然のことである。
しかも、中国は3年間30億円という巨費を投じて研究をするという。対するこちらは、大学の運営費交付金が年々減少する中では手厚く支援していただいているとはいえ、ケタがいくつか違う規模という身の上である。日本が先にアイデアを出したのに、と思うと、もちろん悔しい。だが、研究上の競争はオープンでなければならない。私は観念して合肥に向かった。
合肥では想像以上に温かく、尊敬をもって私を迎え入れてくれた。キックオフのミーティングも形式的なものではなく、質疑が飛び交う建設的なものであった。驚いたことに、プロジェクト開始間もないのに、彼らは既にこの題材で一級の国際会議に論文を通し始めていた。「東ロボ」もうかうかしてはいられない。競うべきところでは競っていくのは当然だが、一方で、たとえば、ともに大学入試をターゲットとした人工知能に関する国際ワークショップを開催する、といった連携は、東ロボのプレゼンスを高める上でも意義があるに違いない。
日本の研究所で学んだ中国の研究者たち
最終日、私は中国科学技術大学の人工知能研究の中心である国家語音実験室を訪れた。iFLYTEKは中国科技大発のベンチャー企業で、両者は現在も極めて密接な協力関係にある。聞くと、科技大の音声認識の教授陣の多くがバブル時代に日本で博士号を取得したか、ポスドク時代を過ごしている。先生は誰かと尋ねると、国立情報学研究所にゆかりの深い研究者の名前がぞろぞろ出てくる。
彼らは、科学技術大国日本の技術を持ち帰り、中国のビッグデータで成功したのである。ただし、その日プレゼンしてくれた若手研究者2人のうち1人はイギリス、もう1人はアメリカで学んできたという。
深層学習で雑音処理の精度を飛躍的に向上させたという彼らにこんなことを尋ねてみた。「日本では今、多くの人工知能研究者が深層学習に関心を寄せている。深層学習によってシンギュラリティ(技術的特異点=人工知能が自らより高性能な人工知能を作り出せるようになる段階)がもたらされると考える研究者も少なくない。 深層学習は、機械に本質的な知能を持たせる上でどれくらい役に立つと思うか?」
すると、彼らは顔を見合わせてからこう言った。
「深層学習は、音声や画像などに関する分類問題には一定程度役に立つがそれ以上ではない。深層学習で解決できるような問題は、もうだいたいわかったので、私たちは新しい問題を求めている」
私が日頃から考えていたのと、同じ答えであった。
日本は一歩遅れではなく、周回遅れになってしまっているのではないか。そんな不安を抑え込むようにして、私は合肥を後にした。
■新井紀子プロフィル
東京生まれ。一橋大学法学部卒。イリノイ大学数学科博士課程修了。理学博士。2005年より学校向け情報共有基盤システムNetCommonsをオープンソースとして公開。全国の学校のホームページやグループウェアとして活用されている。11年から人工知能分野のグランドチャレンジ「ロボットは東大に入れるか」のプロジェクトディレクターを務める。ナイスステップな研究者、科学技術分野の文部科学大臣表彰などを受賞。著書に「数学にときめく」(講談社ブルーバックス)、「コンピュータが仕事を奪う」(日本経済新聞出版社)、「ロボットは東大に入れるか」(イースト・プレス)など多数。
2015年10月20日 05時20分 YOMIURI
◆ 10年後は中国がノーベル賞ラッシュ!? 後れとった韓国にため息 「世界2位」日本…
http://www.sankei.com/west/west.html
<所感> 「10年後は中国がノーベル賞ラッシュ!?」
!? は、びっくり、ええっ、ってことか。何にも言っていないのと同じこと。
新聞記事では、「多い」「少ない」とか形容詞が多くて理解しがたいことがある。~より多いとか、少ないとか書いてほしい。「発がん物質が含まれていると言われている」・・・。どれだけの量を摂取すれば、誰が言っているのかは不明。
良く知っている人のことは、ジェスチャーでも無言でもわかるのだけど。