司法試験や医師国家試験も合格レベルという生成AI(人工知能)は、東京大学の入試問題を解けるのか。
記者は生成AIスタートアップと大手予備校の協力を得て、今年の東大2次試験を対話型AI「Chat(チャット)GPT」に解かせてみた。
全4回の「受験戦記」を通じ、生成AIのすごみと課題をお伝えする。
チャットGPTは東大に合格できるのだろうか。1月中旬、あるブログを眺めていて興味が湧いてきた。
ブログには数日前に実施された「大学入学共通テスト」をいくつかの対話型AIに解かせた結果が載っていた。
得点はチャットGPTが5教科7科目で800点中536点(得点率は67%)と、他のAIだけでなく受験生平均の455点も上回っていた。
チャットGPTは2022年11月の登場以降、「米司法試験に上位合格」といったニュースが繰り返し報じられいる。
共通テストで受験生平均を上回ったという結果にそれほど驚きはなかった。
ただ、記者を含め多くの日本人が経験し、実感を持ちやすい大学入試の成績とあって、「その先」が知りたくなった。
Bard、Claudeを含む「3人」が受験
大学入学共通テストはかつては「センター試験」「共通一次」と呼ばれた。毎年約50万人が挑む真冬の風物詩だ。
多くの受験生がこのマークシート式試験の結果を踏まえて、国公立大や私立大の個別入試に挑むことになる。
一方の東大2次試験は、論述問題が多いことで知られる。
単純な暗記力は通用せず、応用力や思考力、論理的な説明力が問われる。「考えさせる問題」として教育業界でも評価が高い。
この難関入試に、知識量と高速の文章生成を武器にするチャットGPTがどこまで通用するのだろうか。
「チャットGPTが東大入試を解いたら合格水準に達するか」。チャットGPTのアプリを立ち上げて「本人」に質問を入力すると、「強みを発揮できる科目もあるが、制約や課題もある。具体的には……」とまどろっこしい答え。
「端的に答えて」と重ねると、「全教科を通じて合格レベルに達するのは難しい」と弱音を吐き出した。2月下旬の2次試験本番までは1カ月以上ある。試す価値はありそうだ。
生成AIに共通テストを解かせたのは、スタートアップのライフプロンプト(東京・千代田)だ。
23年に東大院生だった最高経営責任者(CEO)の遠藤聡志さんが設立し、生成AI関連システムの受託開発を手がけている。
共通テストの受験結果をブログにまとめたのは、話題づくりやPRの目的があったという。
「AI受験」のノウハウがある同社に協力を依頼すると、遠藤さんは「私たちもチャットGPTに東大2次試験を受けさせるつもりだった」とすぐに同意してくれた。
記述中心の東大入試の合否判定には「採点役」も必要になる。素人では心もとないため、大手予備校の駿台予備学校を運営する駿河台学園に依頼した。
広報担当者は「おもしろいですね」と関心を示し、駿台講師の協力も得られることになった。
チャットGPTのような対話型の生成AIは基本的に「次にくる確率が高い単語を選び続ける」というシンプルな原理で動く。
デジタル空間を中心に世界中の膨大なデータを学習しているため、知識は豊富で対話も流ちょうだ。一方で事実と異なる回答をする「ハルシネーション」がたびたび起きることや、計算問題が苦手なことも知られる。
実は、ライフプロンプトは23年6月にもチャットGPTに共通テストを受けさせていた。
当時は機能面の制約があり、国語や英語など一部の科目に限られたが、それから半年あまりで生成AIは長足の進歩を遂げた。
例えば23年9月にはチャットGPTに写真や図表を読み込む機能が備わった。
日本語で使える対話型AIとして米グーグルの「Bard(バード)」や米アンソロピックの「Claude(クロード)」も登場した。ライフプロンプトは24年1月に実施した2度目のAI受験ではバードとクロードを含む「3人」に問題を解かせ、科目も数学、理科基礎などに広げた。
得意科目は英語と世界史
受験方法はシンプルだ。試験問題のPDFファイルを文字データに変換し、「以下の問題を解いてください」といった指示文とともに問題文や設問を書き込む。
写真やグラフは画像データとして読み込ませる。設問は全て選択式のため、AIは理由を説明した後に「よって、答えは1です」などと解答していく。
2度目の受験で際立ったのがチャットGPTの「賢さ」だ。7科目の全てでバード、クロードを上回り、得点率で20ポイント以上差をつけた。
なお、バードは2月に「Gemini(ジェミニ)」に衣替えし、クロードのAIモデルも3月に更新され、いずれも能力を高めた。この記事では当時、最も優秀だったチャットGPTに絞って話を進める。
7科目を受験させたことで、チャットGPTの「得意科目」と「苦手科目」も明らかになった。
得点率が9割近くに達したのが英語(リーディング)と世界史B、理科基礎の3科目だ。国語と日本史Bが7割弱で続き、数学は半分以下だった。
英語が得意なのはうなずける。そもそも多くの生成AIは英語のデータを中心に学習している。共通テストは英語を母国語としない日本語話者の基礎的な英語力を測ることを想定しており、「英語ネーティブ」のチャットGPTにとってはたやすい試験だろう。
得点率が7割弱だった国語には、古文・漢文というAIがあまりデータを学習していないとみられる分野の問題が半数ある。チャットGPTにとってなじみの薄い言語の試験と考えると、健闘したと言えるのではないか。
国語の試験では、チャットGPTが登場人物の気持ちを「理解」していると思われるような解答もあった。
その一例が、気ままに住み家を変えながら暮らすおばと、高校生の主人公のやりとりが描かれた現代文の文章題だ。主人公の気持ちを問う設問では、チャットGPTは解答を導くプロセスのなかで、5つある選択肢を一つ一つ吟味していった。
本文と照らし合わせながら登場人物の内面を推測し、正解となる選択肢を「テキストで示された主人公の関心と一致しているように思えます」という理由で選ぶことに成功した。
知識量が求められる世界史と日本史の得点に20点近い開きがあった背景にも、学習したデータ量の差がありそうだ。
世界各国の歴史に関する情報を学んだチャットGPTにとっては、日本だけを対象に「狭く、深い」問いになりがちな日本史よりも、「広く、浅い」問いが多い世界史の方が得意と考えるのが自然だからだ。
例えば、鎖国政策に関連して「江戸幕府が外国船の寄港地を平戸と長崎に限定した年」を尋ねた設問では、実際は1616年なのにチャットGPTは1639年と解答した。
「鎖国が完成した年」とされることが多い1639年と勘違いした可能性がある。
マークシート方式でミス続発
断トツで苦手だったのが、50点を下回った数学だ。やはりAIは計算が苦手なのか。ライフプロンプトの遠藤さんに尋ねると、「それほど単純ではない。共通テスト特有の事情も影響した」と解説してくれた。
共通テスト特有の事情の1つ目は「1字ずつマーク」しなければならないという解答のルールだ。例えば「123」という3桁の答えなら、「ア=1」「イ=2」「ウ=3」といった具合に、桁ごとに3つの数字を選ぶ必要がある。
こんな特殊な解答の形式は、AIが学習したデータにはあまり含まれないのではないか。実際、チャットGPTの解答のプロセスをみると、答えは合っているのに、最終的な数字の選択でミスを連発していた。
2つ目の事情は、誘導式の問題の多さだ。共通テストの数学の問題では答えを求める過程を文章で示し、途中段階の空欄を埋めるパターンが多い。解法が示されることで受験生にはヒントにもなり得る。ただ、生成AIは誘導なしで自由に考えたいのか、簡単な問いでもミスが目立った。
「誘導がなければ正答率はもっと高かった」という遠藤さんの話を聞き、記者は「東大の数学なら意外と点がとれるかもしれない」と期待を抱いた。
数学は全問が記述式で、マークシートへの記入ミスや余計な誘導はない。とにかく長広舌なチャットGPTなら「白紙答案」は出さないので、部分点もとれそうだ。
東大の2次試験は難易度が高く、合格に必要な得点率は例年5〜6割だ。得意の英語で貯金をつくり、国語や世界史の論述でその弁才を発揮し、やや苦手な数学の傷を抑えれば、東大に「合格」できるかもしれない。
数学の配点が低い文系の方が、理系よりも望みがありそうだ。
しかし、皮算用が崩れるのは早かった。2月上旬、チャットGPTに東大2次試験の過去問を解かせたライフプロンプトから「文系でも4割しか得点できなかった」という報告が届いたためだ。
受験本番まで残り3週間。合格レベルに達するまでAIを強化する「追い込み」が始まった。
【連載「AI、東大入試に挑む」】
② 生成AIを「受験脳」に鍛える 本番で突如不機嫌に(5月4日公開予定)
③ 得意の英語で貯金、理数科目は苦戦も 合否判明(5月5日公開予定)
④ 東ロボくん、数学でChatGPTに勝っていた 読解力に差(5月6日公開予定)