JBpress 1/17(金) 11:51
ビジネスや社会での実装が始まっている生成AI。導入を巡ってはいろいろと問題も起きているが、生成AIが存在しているがゆえに守られている部分もある。それは、消滅危機言語である。言語の保護という分野で、AIはどのように活用されているのだろうか。(小林 啓倫:経営コンサルタント)
【実際の画像】中国・ヤオ族の女性が作り上げたとされる「女書」
新春なので、今回は少し夢のある話をしてみたい。
いま急速な進化を続けているAIについて、さまざまな問題点が生まれていることについては、本連載において数多く取り上げてきた。また、これまで人間にしかできなかった作業がAIに置き換えられるようになったことで、これから多くの仕事が消えていくと懸念されている。
しかし逆に、AIによって守られるものがあるとしたらどうだろうか? そんな「AIが保護するもの」のひとつとして、新たに注目されているのが、「消滅危機言語(Endangered language)」である。
消滅危機言語とは、ごく少数の人々にしか使われていない言語のことで、文字通り消滅の危機に瀕しているものを指す。かつては一定の使用者がいたものの、何らかの理由でそれを母語とする人々が減ることで、その存続が危うくなっているわけだ。
ユネスコが2010年に発表した“Atlas of the World’s Languages in Danger”(危機に瀕する世界の言語の地図)の第3版によれば、約2500言語が消滅のリスクにさらされているという。この発表から15年が経過した現在では、そのうちのいくつかは既に消滅していたり、また新たな言語が消滅危機言語の仲間入りをしていたりすることが考えられる。
日本にも消滅危機言語があり、同発表によれば、8つの言語が国内に存在している(詳しくは文化庁によるまとめを参照)。特に北海道のアイヌ語は、ユネスコが定めた危機の6段階の上から2つ目に当たる「極めて深刻」な言語に分類されている。
ちなみに、その上は「絶滅」言語(「1950年以降に話者が確認されていない」ものと定義されている)であるため、実質的にもっとも深刻度が高い言語に位置づけられている。
■ ネイティブスピーカーが急速に減少しているアイヌ語
同発表からの引用を続けると、1870年当時、アイヌ語の話者はまだ1万5000人ほどが存在していた。しかし1917年には、アイヌ語のみしか使わない話者の数は350人にまで減少し、それ以来、アイヌ語の衰退が急速に進んでいるという。
現時点でアイヌ語のネイティブスピーカーとされるのは、既に10人を下回っているとする推測もある。
もちろん、動物が絶滅の危機に瀕した場合と同様、消滅危機言語についてもさまざまな対策が行われている。
アイヌ語の場合、1997年に成立した「アイヌ文化振興法」によって、言語復興事業にも力が入れられるようになっている。
たとえば、各地におけるアイヌ語教室の開催や、学習用マテリアル/コンテンツ類の拡充、アイヌ語の音声資料のデジタル化・アーカイブ化といった具合だ。しかし肝心の話者が減少している状況では、そのまま「絶滅」してしまう言語も少なくない。
そこで注目されているのが生成AIだ。特に大規模言語モデル(LLM)を基盤とするAIの場合、文字通り高度な言語能力を有しており、英語以外の言語や方言などへの対応も進んでいる(参考記事)。その力を、消滅危機言語の保護に役立てようというわけだ。
■ ヤオ族の女性たちがつくり上げた「女書」
たとえば、米ダートマス大学の研究者が、ChatGPTでお馴染みのOpenAI社が開発したLLM「GPT-4turbo」を使って、「NüshuRescue」という仕組みを開発したことを発表している。
NüshuRescueの「Nüshu」とは、日本語では「女書(にょしょ)」と訳されている言語だ。
中国南部の湖南省で使われている言葉で、特に今回の取り組みで焦点を当てているのは、中国の少数民族であるヤオ族で使われている女書である。
その名の通り、女書は女性だけが使用した独自の言語体系で、ヤオ族の女性たちがつくり上げたものとされている。
その目的は、女性が女性同士の交流や自己表現を行うこと。かつてヤオ族の女性は、教育を受ける機会が限られており、そのため漢字に比べて簡単な形状である女書を体系化したと考えられている。
また男性中心社会で抑圧された女性がコミュニケーションするために、秘密の手紙や歌などに用いる言語として使われたことからも、女性たちの連帯や自己表現の手段として確立されていったそうだ。
こうした成り立ちもあり、女書は積極的に広められたり、記録されたりすることが少なく、デジタル化も進んでいない。現在、女書を母語として使う人はおらず、2004年に最後の話者が亡くなったとされている。まさに絶滅の瀬戸際にある言語と言えるだろう。
発表された論文によれば、研究者らはまず、女書500文から成るデータセット「NCGold」を作成。これは同じ意味の中国語の文章が併記されたデータセットで、専門家の考察に基づく、正しい情報がまとめられている。
次にこのデータセットをGPT-4turboに与え、中国語を入力すると、それと同じ意味の女書が出力されるようトレーニングした。ただし出力されるのは、あくまでGPT-4turboが「正しいと考えた」女書の文章であり、正確性は担保されていない。
実際に、この段階で出力された女書の正答率は、およそ49%に留まったそうである。ほぼ絶滅した言語において、出力の半分が正解であるというのはなかなか健闘した方ではないだろうか。とはいえ逆に半分が不正解であるというのも好ましくない状況であり、さらなるデータによるAIのトレーニングが必要であることが認識された。
そこで研究者らは、改めてGPT-4turboに対し、学習データとして使用できるような女書の文章を98件生成させた。これを改めて専門家に検証してもらい、正しい文章とした上で、最初に作成された「NCGold」を補完するデータセット「NCSilver」として整理したそうである。
■ 担い手が失われてしまった文化を守るのはAI
実はこうした「AIの学習に足りないデータを補うために、生成AIに新たな学習データを生成させる」という取り組みは、いま一般的に行われるようになっている。そうして生み出されたデータは「生成データ」と呼ばれ、元々のAIの精度を上げるための補完データセットとして使用されている。
NüshuRescueでも実際に、このNCSilverを使用した精度向上が取り組まれており、今後正答率の改善が期待されている。
ちなみに、今回の研究成果は、NüshuRescue本体だけでなく作成・生成されたデータセットも含めて公開されており、女書と同じように絶滅の危機に瀕していたり、AIに学習させるデータが限られていたりする他の言語への応用することも期待されている。
アイヌ語においても、その保護にAIの力を活用しようという取り組みが生まれている。
たとえば京都大学は、2020年10月に、「人工知能によるアイヌ語の自動音声認識・合成に成功」というプレスリリースを発表している。
それによると、京都大学の研究グループは、アイヌ民族博物館と平取町立二風谷アイヌ文化博物館から提供された計10名・約40時間の民話(ウエペケㇾ)の音声データを分析。機械学習技術を活用することにより、94%の音素認識率・80%の単語認識率を実現したという。
また音声データのうち1人当たり10時間以上ある話者については、音声合成にも成功したそうだ。この技術により、「アイヌ語に誰もが触れやすい環境の整備」が促されたり、アイヌ語の伝承・学習などの幅広い場面で支援が進んだりすることが期待されるという。
これからますますAI技術が発展するであろうことを考えると、ダートマス大学や京都大学のような取り組みが、今後も進むと予想される。ただ、そうしたテクノロジー活用の取り組みを後押しするためには、そもそも言語を守ることがなぜ必要かをアピールしていかなければならない。
たとえば女書の場合、前述の通り、それは女性たちの生活や感情、社会的背景を反映して育まれてきた、独自の文字文化となっている。その保存は、過去の社会構造や女性の地位、日常生活を理解する上で不可欠と言えるだろう。
逆にそれが失われてしまえば、そこに記録されてきたマイノリティ視点の歴史が抜け落ちることとなり、大げさに言えば人類全体にとっての損失にもなりかねない。
前述の通り、ユネスコは世界の言語の状況について独自の調査を行い、レポートを発表するなどの対応を行っている。また毎年2月21日を「国際母語デー」と定め、言語と文化の多様性を促進する活動を展開している。
さらに各国の消滅危機言語については、実態調査や保存・継承のためのプロジェクトを支援し、言語の記録や教育プログラムの開発といった保護活動も行っている。
ユネスコは日本でもすっかりお馴染みとなった「世界遺産」の取り組みも進めているが、物理的な建築物や地形と同様、言語も一種の「遺産」として保全に取り組んでいるわけだ。
AIは私たちのさまざまな行動を代替する一方で、そもそもその担い手が失われてしまった文化を、人間に代わって担っていく役割も負っていくことになるだろう。最先端の技術が古い歴史を守る、そんな光景も普通になっていくのかもしれない。
【小林 啓倫】
経営コンサルタント。1973年東京都生まれ。獨協大学卒、筑波大学大学院修士課程修了。
システムエンジニアとしてキャリアを積んだ後、米バブソン大学にてMBAを取得。その後コンサルティングファーム、国内ベンチャー企業、大手メーカー等で先端テクノロジーを活用した事業開発に取り組む。著書に『FinTechが変える! 金融×テクノロジーが生み出す新たなビジネス』『ドローン・ビジネスの衝撃』『IoTビジネスモデル革命』(朝日新聞出版)、訳書に『ソーシャル物理学』(草思社)、『データ・アナリティクス3.0』(日経BP)、『情報セキュリティの敗北史』(白揚社)など多数。先端テクノロジーのビジネス活用に関するセミナーも多数手がける。
Twitter: @akihito
Facebook: http://www.facebook.com/akihito.kobayashihttps://news.yahoo.co.jp/articles/72b52efd053953007b342c3744b85f56b7e25c46?page=1