日々の寝言～Daily Nonsense～

OpenAI Co-Founder Ilya Sutskever: What's Next for Large Language Models (LLMs)

2023-04-22 21:07:28

OpenAI Co-Founder Ilya Sutskever: What's Next for Large Language Models (LLMs)

こちらは、まだ ChatGPT が出る前、
１年くらい前のインタビュー。

こちらのほうが、
技術的内容に寄っているので
答えやすそうに話している。

以下は個人的なメモ。
間違っている可能性がある。

　＊　＊　＊

Q:なぜ AI./ML に興味を持ったのか？

小さい頃から AI に興味があって、
知能のためには学習が重要と思っていた。

16歳のときに図書館で
機械学習の本を見つけた。

トロント大学に入り
ジェフ・ヒントンと出会った。

ニューラルネットワークの
仕組みに興味を持った。

こうしたものがすべて
深層学習に収斂している。

Q:ニューラルネットの成功を
予想していたか？

希望はしていたが、
予想はしていなかった。

ニューラルネットワークが実際的に
成功した理由は、その理論的解析が
難しいことにある。

昔は、ナイーブに
AI が良いものであると思っていたが
現在はもっと難しく複雑に考えている。
AI を社会にとって良きものとして使えるようにする
というのは大きな挑戦で、
技術的な課題だけでなく、安全性なども考える
必要がある。そのために会社を作った。

Q: GPT の成功の鍵となったアイデアは？

A: まず、だいぶ以前から理解と予測とが
結びついているということについての仮説、
よい予測ができれば、
よい理解もできているはず、
という仮説があった。

たとえば、本を読んでいるときに、
最後の章での重要な文章で
次の語を予測できるためには
本の内容を理解している必要がある。

次に、Transformer のような良い
アーキテクチャが生まれて、
それを大規模にすると性能が上がる
ということがわかったので、
大規模言語モデルに行き着いた。

Q: 大規模化の限界は？

A: モデルを大きくすれば
性能はあがるだろうが、
そのためのデータが得られるか
どうかが問題。

テキストについては、大規模な
データを収集しやすかった。

限界については、毎年のように
もう限界と言われてきたが、
そうでもない。いつかは限界に
突き当たるだろうが、
深層学習以外に賭けるのは賢くはないと思う。

Q: データをより効率よく生成する
ようなことも必要になる？

A: 同じ量のデータからより良く
学習するのと、教師の効率を上げるのと、
両方とも考える必要がある。

Q: Codex のようなテキストを
プログラムにするシステムについては？

A: いろいろな点でとても興味深い。
まずそれは役に立つし、
プログラム（の生成）は
これまで AI の中で
あまり重視されてこなかったが、
論理的な推論やプランニングと
強く関係している。

さらに、Codex のようなシステムは
コンピュータをコントロール
することができる。

まだ初歩的段階だが、
プログラマにとって
とても有用なツールになると思っている。

人間は普通、狭い領域を
深く学習するが、大規模言語モデルは
百科事典のように広く浅く学習する。
だからこそ、こうしたモデルは
人間を補完することができる。

プログラミング言語の発展の
歴史である、より抽象的な言語での
プログラミングの自然な延長でもある。

今はまだプログラムの正確さなどが
十分ではないが、プログラマの
働き方を変える可能性はあると思う。

そういう創造的な仕事も
直感に反して大きな
影響を受けるということに
経済的な側面を考える場合には
注意する必要がある。

Q: データが集めにくい
ロボットのような分野については？

A: 現在のニューラルネットの
汎化能力は高いとはいっても人間には及ばない。
なので大量のデータでそれを補う必要がある。

もっと高い汎化能力を持つように
なれば少ないデータでも
大丈夫になるかもしれない。

Q: 画像とテキストをつなぐ
CLIP や DALL-E のようなシステム
については？

A: どちらも、考えは
単純だがうまくいっている。
いずれ、言語だけでは十分
ではなくなると思うし、
言語の理解にも画像との関係は役に立つだろう。
それは人間がやっていることにも近い。

Q: 今後の展望は？

A: アカデミックな研究は
データを重要視してこなかったと思う。
固定的なベンチマークデータがあって
その上でより良い手法を競うという
難しいことの研究をすることが多かった。

しかし、実際的には、
大量のデータを用意すれば
性能が良くなる、ということが
明らかになったと思う。

大量のデータが用意できる
ドメインは有望ということだ。

Q: データとアルゴリズムと
どちらが重要か？

A: そういう区別はしない。
両方とも重要だ。
昔、大量のデータを利用する方法は
Map-Reduce という並列処理だった。
しかし、DNN が新しい方法を与えた。
それがさらに良くなる可能性はある。
新しいデータソースを見つけることも重要だ。

Q: 計算リソースの物理的限界については？

A: 物理的、経済的限界はあるので、
究極の効率的な計算法はあるはずで、
それを見つけようとすることは
とても重要だし、まだ大きな可能性が
あると思う。

Q: 今の単純なニューロンモデルが
もっと複雑なもので置き換わる可能性は？

A: わたしは今のモデルは
そんなに悪くはないと思う。

最悪の見積りとして、たとえば、
今のモデルで人間と同等の知能を
実現するのに、100万倍多くの
ニューロンが必要になるかもしれないが、
それほど悪くはないと思っているし、
もしそうだとしても、今のモデルで
もっと複雑な脳のニューロンの計算を
シミュレートすることはできる。

Q: LLM を Instruct することについては？

A: それはとても重要なことだ。
GPT の性能を評価してわかったことは、
言語モデルとしての性能は高いが
人間とはかなり違っているということ。
なので、それを人間に合わせる（aline）、
人間が依頼したことを
忠実に実行するようにする、
ということは重要だ。

直感に反するが、モデルが大きくなって
性能があがるほど、ファインチューンしたり、
プロンプトへの忠実度を上げたりするのは
易しくなると思う。

Q: もっと長期的な視点からみて
今はどんな段階か？

A: 曲がり角にいて、これからまだまだ
生成モデルなどが発達して、
面白い応用がたくさん生まれると思う。

Q: 聴衆への take home message は？

A: AI は強力な技術で
多くの応用を持ち
リアルな問題を解くことが
できるということ。
バイアスなどの悪いものもあるので
それに対処することも重要。

応用を考えて実際の問題を解いて
人間の生活を良くすること、
悪い側面への対処をすること、
人間に合わせるようにすること。