InstructGPTとChatGPTはタスクが異なるだけ。指示に従うタスクならInstructGPT、対話形式であればChatGPTになる。

BERTの仕組みとは

GPTとは異なる学習方法を採用しているのがBERTだ。人間における文章予測能力について考えてみると理解しやすい。

 あるミーティングで上司が発した「エビデンス」という言葉の意味が分からなかったとしよう。「エビデンスが重要だ」とだけ言われても想像はつかない。

しかし、「エビデンスとして数値データを提出してほしい」「契約先からエビデンスをもらうことを忘れるな」など、様々なパターンでエビデンスという言葉が出てきたら、「もしかしたら証拠や根拠といった意味合いかな」と人間は予測できる。

 BERTの学習はこれに近い。

大量のデータを利用して自己教師あり学習をしている点はGPTと同じだが、テキストの単語を一部マスクし、そのマスクした単語を疑似正解ラベルとすることで、正解ラベルを不要にしている。結果、膨大な量のデータを用いた学習を可能にしているわけだ。

そしてGPTと同様にTransformerの積み重ね構造になっているので、高速に学習できる。

マスク部分を予測するだけでは使い道は多くはないが、目的のタスクに合わせたファインチューニングを施すことで、テキスト分類や検索など様々なタスクに応用可能になる。


最後に、テキスト以外の生成AIについても触れておこう。

生成AIでは、入力と出力の設計を変えると様々なことができるようになる。

テキストを入力して画像を出力する「Midjourney」や「Stable Diffusion」といったサービスのほか、テキストを入力して音声を生成したり、テキストの説明文を再現するような音楽を生成したりするサービスも登場している。 


最近では動画の生成も増えてきた。


また「マルチモーダル」を入出力とするモデルも注目度が高い。

テキストと画像といった複数の入力からテキストを生成したり、テキストを入力として音声付きの動画を生成するといった具合だ。入力と出力の両方をマルチモーダルにする手法もあり、この組み合わせはいくらでも考えられる。



沢田慶(さわだ・けい)
rinna Research and Data Manager
2018年名古屋工業大学大学院博士課程修了。同年、Microsoft DevelopmentにResearch SDE として入社。所属していたチームのスピンアウトに伴い、2020年よりrinna株式会社Research and Data Managerに就任。機械学習に基づく対話、音声合成、画像生成に関する研究開発に従事。ICLR・ACL・ICASSP・Interspeechなどのトップカンファレンスで研究成果を発表。日本語事前学習モデルの公開活動により日本のAI研究・開発を促進。
 
 
 
 
(関連情報)
 
 

今さら聞けない!ChatGPTのメカニズム 自然な文章を生成する「GPT」、鍵は大量のテキストから得た予測能力
https://blog.goo.ne.jp/renaissancejapan/e/2c8929f5e469234c07a570e1c891fb53