いくら一流のシェフがやっているからと言って、
フランス料理店に行って、「ラーメン出せ」というのは、
客のほうが気がくるってる。
生成AIは、仕組み(本質的に)上、今までのコンピューターとは違い、
事実を正確に伝えない反面、
クリエイティブなものを作り出す能力を持っている。
つまり、フィクションを生成するための道具である。
どういうことかというと、ChatCPTなど、現在の生成AIは、
(その前の時代の生成AIであるGANとは異なり)
Transformer(トランスフォーマー:ChatGPTのTの意味)を
もとに作っている。
Transformerについては、
という論文が有名なんだけど、そこにあるように、
TransformerはAttentionが基になっていて、Attentionは上の論文
にあるように(↓の式は、その論文の4ページから引用)
![](https://blogimg.goo.ne.jp/user_image/78/3b/a9e36d4f6d3213453f3837bcdc108687.png)
っていう式であらわされる。
Qが検索対象
Kが、(Javaのハッシュマップ等)キーバリューストアで有名な、キー
Vが、キーバリューストアのV
一般のデータベース、あるいはGoogleなどの検索システムは、
Qの検索対象と、Kのキーが一致した時に、値Vを変えす
Qの検索対象と、Kのキーが不一致のときには、わからないとする
(検索失敗になる)
ところが、Attentionは、
まず、QとKの内積を求める
(Kの肩にTがかかっているのは、KもQもベクトルなので、このまま
だと掛け算できないためKのほうを転置行列にする。その転置のT)
→内積をとると、QとKの長さ*Cos「類似度」がでる。
このCosは、Cos類似度と呼ばれ、QとKの類似度になる
・・・あ~詳しくは、高校の数学の教科書見てくれ
・その類似度に基づいて、Vを返す
その結果
Qの検索対象と、Kのキーが一致した時に、値Vを変えす
Qの検索対象と、Kのキーが不一致のときには、
Qの検索対象と、Kのキーが不一致のときには、
QとKの類似度に応じて、Vの値を割り引いて返す※
具体例でいうと、
鎌倉幕府は1200年ごろできました
徳川幕府は1600年ごろできました
室町幕府は鎌倉幕府と徳川幕府の間にできました
室町幕府は何年にできたでしょう?
と聞かれると、
DB検索では、室町幕府の年号は入っていないので
→わかりません。
と答えるが、
ChatGPTなどのトランスフォーマーを使った場合、
鎌倉幕府が1200年で、徳川幕府は1600年で、その間なら
→1400年?
とか、値を「返してしまう」わかってないのに・・・
(実際は1330年ごろだから、間違い?)
この、教えてないけど、類似度に応じて値を返すという仕組みは、
事実を知りたい場合には、(適当に値を返されるから)困るけど
→上の例では室町幕府の成立を1400年って返されると、
受験的にはXです。
類似いたことを返してくれるってことは、連想してくれたりすることな
わけで、創造的、クリエイティブな仕事にはいいわけです。
たとえば、「足利尊氏の幼少期の物語を作りなさい」と言ったとき、
DBのように「そんなものは、登録されてないのでわからないです」
と言われたら、事実以外、なにも生まれませんが・・・
「足利尊氏」→「将軍」ってことで、源頼朝や徳川家康、その他
将軍の登録されている物語から、適当に割り引いて、乱数入れて
話ランダムに広げてくれれば、小説できるわけです。
小説は、それでいいんです。フィクションですから。
でも、うそじゃない。足利尊氏が源頼朝と同じだったらというフィクション
が入っているけど、そのレベルで大体こんなもんっていうのが
入ってきている。
つまり、生成AIはTransformerを使っている時点で、
正確なものではないけど、クリエイティブなことができるツール
っていうものになっているわけ。
クリエイティブというのは、フィクションが入ってくることであり、
フィクションは当然、事実ではない情報を含みます。
だから、ChatGPTは、「生成AIです」(=フィクションを含みます)
って言っているのに、それに対して、
「偽情報だあ」といって、マスコミがいじめるのも・・・なんだよねえ・・
自分たちは、ドラマとか流した時に
「このドラマはふくしょんであり」とかいって、「偽情報です」とは
言っていないんだよ・・・不公平だよねえ。
ちゃんと「 バック・トゥ・ザ・フューチャー 」とかに対して、
「現代ではタイムマシンはまだ完成しておらず、物理学的にも無理であり、
この映画は偽情報を含みます」って、言うべきになるけど・・・
・・・世の中の人は、そんなの求めてる???
なんか、マスコミが生成AIを「フィクション製造機です」と言わずに
「偽情報製造機」にみたいにディするのは、悪意があるのはもちろんだけど
(取材すれば、中身Transformerってことはすぐわかるし、Transformerは
上記のようなフィクション生成に長けていること、事実を検索する場合
にはDBを利用し、システムが違うことは、普通の学者は説明するはず)
最近、これ、スポンサーに関係してるんじゃないかと思っている。
つまり、「生成系AIはなんでもできる」と言って売りつけたいスポンサーと
いままでシステムを売ってきて、そういわれると困るスポンサー(はディするわけ)がいて、それらにご機嫌を取るから・・・本当のことは言えない。
本当のことは、クリエイティブな道具は、実は文章生成より、
画像生成のほうがお金になって、なので、アドビさんが目を
つけているっていうわけなんだけど・・・
・・・この続きは、また今度ね!
Attentionは、この検索対象、キー