ChatGPT 誕生の秘密、人海戦術による大量のデータで人間の感覚を教え込む。

〇チャットシステムの「ChatGPT」が注目されている。

ユーザーが質問などを入力すると、人工知能（AI）が返答してくれる。これまでも同様のシステムはあったが、あらかじめ用意されている回答しか返せないといった問題があった。ChatGPTは、適切だと考えられる回答をAIで自動生成するのが特徴だ。本特集では、10の疑問に答える形でChatGPTの正体やうまい使い方、社会への影響を浮き彫りにしていく。第1回は入門編だ。「そもそもChatGPTって何？」「ChatGPTはどうやったら使えるの？」「ChatGPTはなぜ人間の意図が分かるの？」の3つの疑問を取り上げる。

【疑問1】そもそもChatGPTって何？

【答え1】米OpenAI（オープンAI）がAIを利用して開発したチャットシステムで、人間と変わらない受け答えができることから注目されている。

オープンAIは2022年11月に、ChatGPTをWebアプリケーションとして提供し始めた。2023年3月にはChatGPTのAPI（アプリケーション・プログラミング・インターフェース）版も提供を始めている。本特集では主にWebアプリケーション版のChatGPTを前提に、使い方などを解説する。

Webアプリケーション版のChatGPTでは、ユーザーがWebサイトの入力欄に自由に文章を入力すると、AIがそれに応じた回答を出力する。入力する文章は、質問でも指示でも雑感でも何でもかまわない。会話のように次々に文章を入力することで、雑談の相手にもなってくれる。

ChatGPTが何かを知るには使ってみるのが一番だ。試しに「あなたは誰ですか」と入力してみよう。

画1、」「あなたは誰ですか」に対するChatGPTの回答。

あたかも文章を考えているが、かのような挙動で、AIが作成した回答が表示される。この回答を見る限り、自分がChatGPTであるということを認識しているようだ。

回答の右側には上向き親指と下向き親指の2つのアイコンが表示されている。これは、回答に対するユーザーの評価をChatGPTにフィードバックするためのものだと考えられる。回答が参考になったら上向き親指、参考にならなかったら下向き親指のアイコンをユーザーが押すことを想定しているのだろう。

ChatGPTが得意とするのは、回答が1つに定まらないような曖昧な質問だ。今度は「人生には意味がありますか」と入力してみよう。

画2、「人生には意味がありますか」に対するChatGPTの回答。

かなりそれらしい回答が返ってくる。決めつけるような回答ではなく、いろんな角度から人生の意味を考察している。「言質を取られないような優等生的な回答」にも見える。

具体的な事実を尋ねた場合は、知っている範囲で答えてくれる。ただしChatGPTでは、返ってくる回答が事実に反している場合があるので注意が必要だ。

次に示すのは、「日経クロステックについて教えてください」と入力した場合の回答だ。

画3、「日経クロステックについて教えてください」に対するChatGPTの回答。

それらしい回答に見えるが、日経クロステックを「日本経済新聞社が発行する週刊誌」と表現している。日経クロステックは日経BPのWebメディアなので、これは事実に反している。このように、ChatGPTは間違った事実でも自信満々で返してくる。

おそらくChatGPTは、日経クロステックの「日経」が日本経済新聞を表すことと、日経クロステックというWebサイトが存在することくらいしか知らないのだろう。このため、出版業界に関連が深い「週刊誌」という言葉を使ってしまったと考えられる。

このようなことが起こるのは、ChatGPTの仕組みに原因がある。実はChatGPTは、あらかじめ大量の文章を学習しておき、ある単語の次に来る確率が一番高い単語を順番に出力しているにすぎない。こうした仕組みだと、単語同士の関連性の学習が十分なテーマでは正解に近い文章を生成できるが、学習が不十分なテーマだと誤った文章を出力する危険性がある。

ChatGPTの学習データは日本語の文章も含んでいるが、大部分は英語の文章だ。つまり、ChatGPTの知識のほとんどは英語で得たものである。このため、英語の情報が乏しいと考えられる事実についてはChatGPTは正しく答えられない。

また、学習データを取得した時期以降に起こった出来事については、ChatGPTは基本的に知りようがない。もっとも、新しい事実については何らかの形で追加で学習している可能性がある。

【疑問2】ChatGPTはどうやったら使えるの？

【答え2】アカウントを登録するだけで無料で利用できる。快適に利用できるようになる有料プランも用意されている。

ChatGPTのWebアプリケーション版は基本的に無料で利用可能であり、専用アプリケーションをインストールする必要はない。「Chrome」や「Firefox」「Edge」「Safari」といったWebブラウザーから利用できる。

ただし利用するにはアカウントの登録が必要だ。ChatGPTのログイン画面で「Sign up」をクリックするとアカウントを作成できる。

ChatGPTのログイン画面https://chat.openai.com/auth/login

メールアドレスとパスワードを入力すると、入力したメールアドレス宛てにメールが届く。メールに記載されている「Verify email address」をクリックするとアカウント作成画面が表示される。氏名を入力して「Continue」を押すと、ユーザーがオープンAIの利用規約に同意して18歳以上であることを確認したことになる。

画4、餓アカウント登録時にはまずメールアドレスを入力する。

電話番号を入力すると、スマートフォンなどにショートメッセージで認証コードが送られてくる。届いた認証コードをアカウント作成画面に入力すれば、アカウント作成が完了する。新規にアカウントを作成する代わりに、グーグルやマイクロソフトのアカウントも流用できる。アカウントでログインすれば、ChatGPTを自由に利用できる。

オープンAIは2023年2月に、「ChatGPT Plus」という有料のサブスクリプションプランを開始した。このプランを利用すると、ChatGPTが回答を生成する速度が無料プランのユーザーよりも速くなる。また、ChatGPTへのアクセスが多い場合でも課金ユーザーは優先して利用できる。ChatGPTに今後実装される新たなサービスを優先的に使えるといった利点もあるという。

【疑問3】ChatGPTはなぜ人間の意図が分かるの？

【答え3】大量の文章データを事前学習したうえで、さらに大量の会話データのサンプルと「人間の感覚」を表す大量のデータをそれぞれ人海戦術で用意し、それらを使って追加学習したため。つまり人間を教師として人間の感覚を学んだ。

ChatGPTは、チャットシステムの名称であるとともに、そのシステムで使われている言語モデルの名称でもある。モデルとしてのChatGPTは、大規模言語モデル（LLM）の「GPT-3.5」を基に開発された。オープンAIによると、GPT-3.5は自然言語の文章とプログラムのコードを組み合わせて自己教師あり学習を行ったという。このため、GPT-3.5をベースとするChatGPTでもコードの生成が可能になっている。

米GitHub（ギットハブ）のコード補完サービス「GitHub Copilot」では、オープンAIがコードと自然言語で学習させた言語モデル「Codex」を利用している。GPT-3.5はいわば、GPT-3が持つ高い自然言語処理能力とCodexが持つコード生成能力を併せ持つものだ。

もっとも、GPT-3.5は文法的に正しい文章を出力することはできるが、人間の目から見てその文章の内容が適切である保証はない。そこで、人間が適切だと感じられる文章を出力できるように改良を加えたのがChatGPTである。

ChatGPTの開発では、質問と回答が対になった大量の会話サンプルのデータを人手で用意した。つまり人海戦術である。このデータを使って、GPT-3.5に対して追加の学習（ファインチューニング）を行った。これによって、会話の処理に適したモデルができた。

画5、ChatGPTの開発手順。

このモデルを基にしてさらに改良を加えた。学習データとしては、質問に対して複数の回答を用意し、そのうちどれが人間の感覚に合っているかという優先順位をつけたものを、やはり人手で大量に用意。先ほどの会話学習済みモデルに対してこのデータで学習を行うことで、「与えられた文章がどれくらい人間の感覚に近いか」を判定する報酬モデルを作成した。

この報酬モデルを利用して、会話学習済みモデルに対して強化学習を行った。ある質問から会話学習済みモデルが回答した文章に対し、どれくらい人間の感覚に近いかを報酬モデルが判定し、元のモデルにフィードバックする。この手順を大量に繰り返して強化学習を実施した。このステップによって人間の感覚を教え込んだため、ChatGPTは適切な文章を出力できるようになったのだ。

このようにわざわざ段階を踏んで学習を行うことに疑問を持つ人がいるかもしれない。「言語モデルが優先順位のデータを直接学習すればいいのではないか」と。

その理由を、AIの自然言語処理に詳しい東京都立大学の小町守教授は「文章全体が出力されるまでは、文章の良しあしを判定できないからだ」と説明する。個々の単語を出力している段階では、その単語を出すことがいいか悪いかを直接判定することはできない。このため、文章を出力し終えた後にその文章の良しあしを評価して強化学習を行っているのだ。