万国時事周覧

世界中で起こっている様々な出来事について、政治学および統治学を研究する学者の視点から、寸評を書いています。

データ面から見たチャットGPTの限界

2023年04月27日 16時44分06秒 | その他
 チャットGPTの強みは、その情報量にあります。ユーザーから新たな情報を入力され、かつ、自ら学習しますので、情報量は常に増大し続けます。しかしながら、収集されたデータが質の面で劣とる場合には、正確な回答を作成できないという弱点があります。そしてこの他にも、チャットGPTには幾つかの問題点があるように思えます。

 チャットGPTに初期段設定で入力されているデータは非公開とされております。その中には、おそらく、各国政府による公的な公開情報、事実としての報道情報、あるいは、ウィキペディアのような一般に公開されているweb辞書・辞典情報なども含まれているのでしょう。こうした誰もがアクセスできる情報であれば問題はないのですが、その一方で、情報の中には、法律によって厚く保護されているものもあります。

 保護されている情報としては、先ずもって個人情報があります。日本国でも個人情報保護法が制定されていますが、一般的には、一企業が勝手に個人情報を収集して利用することはできません。この問題は、他のIT関連のサービスとも共通しているものの、チャットGPTをはじめとした生成AI、否、全てのAIについても同様です。もっとも、同サービスの利用には個人情報の提供が求められていますので、ユーザーの合意を得れば合法的に収集も利用も可能です。しかしながら、チャットGPTのユーザーは年齢層や事業分野等によってまちまちであることから、個人情報にも自ずと偏りが生じます(例えば、高齢者の利用者は少数と推測されることから、データベースに空白部分や‘むら’が生じる・・・)。また、収集・利用を拒否するオプトアウトを選択するユーザーが増えれば、AIは、量の強みをも失うことにもなりましょう。

 そしてもう一つ、法律によって手厚く保護されている情報があります。それは、著作権が設定されている出版物などです。このため、既にチャットGPTについては、著作権侵害に当たるのではないか、とする指摘があります。著作権が設定されている出版物はデータとしては無許可には使ませんので、仮に、チャットGPTが法律を遵守しているならば、その初期データベースは使用フリーな情報のみによって構成されているはずなのです。このことは、チャットGPTの精度の高さが強調されるほど、著作権侵害の疑いが濃くなることを意味します。

 また、チャットGPTには、人種、民族、性別といった属性に基づくヘイト・スピーチや差別的表現等、あるいは、暴力誘発リスクへの対応としてアルゴリズムバイアスが組み込まれており、関連する特定の表現や言葉はデータベースから予め排除されています。このため、正確な回答にとりまして必要不可欠な情報をデータとして使うことができません。結果として、データが欠けているために実態を全く反映しないどころか、真逆であったり、逆差別となるような回答が返ってくることもあるのです。チャットGPTの回答を信じたことで不当な差別的な扱いを受ける人々も現れかねないのですから、本末転倒ともなりましょう。

 さらにアルゴリズムバイアスの存在は、チャットGPT側が恣意的にデータの取捨選択を行えることを示しています。仮に、チャットGPTが自らに不利なデータを排除する一方で、有利なデータを加えた場合、同サービスが提供する回答は、一種の詐欺的行為ともなりかねないのです。また、ビジネスの一環として、外部の組織や個人からの依頼を受けてデータを改竄したり、虚偽の情報を加えるリスクもありましょう。チャットGPTが普及すればするほど、こうしたリスクが現実化した場合の社会的な悪影響は計り知れなくなるのです。

 以上に、チャットGPTのデータに関する主たる問題点を述べてきましたが、これらの諸点は、回答の信頼性に大きく関わります。リスクを無視して導入を急ぎますと、人類の‘自殺行為’ともなりかねない危うさが認められましょう。そして、生物では、使わない機能は退化し、やがて機能喪失も起きるとされますので、AIに知的活動を任せてしまった人類は、近い将来、最早‘ホモ・サピエンス’の名にはふさわしくない存在になるのではないかと危惧するのです。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする