Renaissancejapan

哲学と宗教、財閥、国際政治、金融、科学技術、心霊現象など幅広いジャンルについて投稿しています

AIは「思考の連鎖」で数学の問題を解けるようになるのか、GoogleやAppleが検証

2024-10-19 15:02:50 | AI・IT・サイバーセキュリティ・メタバース・NFT・ゲーム、

生成AI(人工知能)を含む最新のAI研究動向を知るため、世界中の研究者やエンジニアが参照しているのが、論文速報サイト「arXiv(アーカイブ)」である。

そんなarXivの投稿論文から、2024年9月(1日~30日)にSNSのX(旧Twitter)で多く言及されたAI分野の注目論文を紹介する。

 

 調査には米Meltwater(メルトウォーター)のSNS分析ツールを利用した。対象はXの全世界のオリジナル投稿、コメント、再投稿、引用投稿である。

 今回はまず、Xを率いるElon Musk(イーロン・マスク)氏が「興味深い投稿だね(Interesting post)」とコメントした論文を紹介しよう。

 

イーロン・マスク氏のX上のコメントhttps://twitter.com/elonmusk/status/1837289386829885625

 

同氏が紹介したのは、大規模言語モデル(LLM)における「Chain-of-thought」(CoT、思考の連鎖)の効用を検証した論文「To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning(CoT を使うべきか、使わないべきか? 思考の連鎖は主に数学と記号的推論に役立つ)」である。米テキサス大学オースチン校の研究者らが執筆し、2024年9月18日に投稿した。

 

関連論文https://arxiv.org/abs/2409.12183

 

CoTとは、LLMの推論能力を向上させるテクニックの一つである。問題を解く際に、段階的な推論ステップを踏むようプロンプトなどで指示することで、複雑な問いに対しても正確に答えを導き出せるようになる。

米OpenAI(オープンAI)が2024年9月12日にリリースしたAIモデル「OpenAI o1-preview」も、CoTを活用して推論の精度を高めているとされる。

 

研究チームはCoTがどのようなタスクに役立つかを分析するため、CoTについて論じた100以上の論文を対象に定量的メタ分析を実施。

CoTは主に数学や記号的推論を含むタスクで大きなパフォーマンスの向上をもたらす一方、他のタスクではこうした向上はほとんどみられず、演算リソースの浪費につながっているという。

 

 研究チームは、LLMを幅広いタスクに対応させるにはCoTだけでは不十分で、検索や対話エージェント、ファインチューニングされたモデルなど、新しい研究パラダイムに移行すべきだと結論づけている。

 

 

LLM推論のスケーリング性能に限界はない?

CoTや記号的推論に関連した論文として、2024年9月のSNS言及数で2位となった「Chain of Thought Empowers Transformers to Solve Inherently Serial Problems(思考の連鎖はトランスフォーマーに、本質的に逐次的な問題解決能力を与える)」も紹介したい。

CoTはどのような仕組みでLLMの数学的・論理的な能力を高めているのか、理論的に解明することを目指した論文だ。

 

関連論文https://arxiv.org/abs/2402.12875

 

研究メンバーの一員で、Google DeepMindのLLM推論チームの創設者兼リーダーDenny Zhou(デニー・チョウ)氏は「LLM推論をスケーリングする場合の性能限界とは?限界はない」とXでコメントし、大きな反響を得ていた。

 

Denny Zhou氏のX上のコメント:https://x.com/denny_zhou/status/1835761801453306089

 

この論文では「置換操作を繰り返す」「数値を何度も二乗する」といった、並列化が難しい繰り返し計算の問題について、CoTを使うことで従来よりも高い精度で回答できることを示した。

さらにCoTを使った場合、AIモデルのネットワーク層数が少ない場合でも繰り返し計算の問題を解けることを確認したという。

 

一般には層数が少ないモデルでは繰り返し計算の実行が困難になるので、驚きの成果といえる。

ここ数カ月ほど、LLMの数学的推論・論理的推論の能力について議論が活発化している。米Apple(アップル)は2024年10月7日、LLMの能力と数学的推論における限界を論じた論文「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models(大規模言語モデルにおける数学的推論の限界を理解する)」をarXivに投稿している。

 

関連論文https://arxiv.org/abs/2410.05229

 

Appleは論理的推論におけるLLMの脆弱性を調べた結果、質問の文言をわずかに変更するだけでLLMのパフォーマンスが大幅に低下する現象を見いだしたという。

このことからAppleは、現在のLLMが実行する論理的推論の正体は高度なパターンマッチングに近いものであり、「本物の論理的推論を実行できていないのでは( current LLMs are not capable of genuine logical reasoning)」と推測している。

 

AIは本当に人間と同レベルの数学的推論をこなすことができるのか。数学的推論はAIがAGI(汎用人工知能)に至る重要な一里塚といえるが、結論が出るにはしばらく時間がかかりそうだ。

 
 
 

最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。