AIは「思考の連鎖」で数学の問題を解けるようになるのか、GoogleやAppleが検証

2024-10-19 15:02:50 | AI・IT・サイバーセキュリティ･メタバース・NFT・ゲーム、

生成AI（人工知能）を含む最新のAI研究動向を知るため、世界中の研究者やエンジニアが参照しているのが、論文速報サイト「arXiv（アーカイブ）」である。

そんなarXivの投稿論文から、2024年9月（1日～30日）にSNSのX（旧Twitter）で多く言及されたAI分野の注目論文を紹介する。

　調査には米Meltwater（メルトウォーター）のSNS分析ツールを利用した。対象はXの全世界のオリジナル投稿、コメント、再投稿、引用投稿である。

　今回はまず、Xを率いるElon Musk（イーロン・マスク）氏が「興味深い投稿だね（Interesting post）」とコメントした論文を紹介しよう。

イーロン・マスク氏のX上のコメントhttps://twitter.com/elonmusk/status/1837289386829885625

同氏が紹介したのは、大規模言語モデル（LLM）における「Chain-of-thought」（CoT、思考の連鎖）の効用を検証した論文「To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning（CoT を使うべきか、使わないべきか? 思考の連鎖は主に数学と記号的推論に役立つ）」である。米テキサス大学オースチン校の研究者らが執筆し、2024年9月18日に投稿した。

関連論文https://arxiv.org/abs/2409.12183

CoTとは、LLMの推論能力を向上させるテクニックの一つである。問題を解く際に、段階的な推論ステップを踏むようプロンプトなどで指示することで、複雑な問いに対しても正確に答えを導き出せるようになる。

米OpenAI（オープンAI）が2024年9月12日にリリースしたAIモデル「OpenAI o1-preview」も、CoTを活用して推論の精度を高めているとされる。

研究チームはCoTがどのようなタスクに役立つかを分析するため、CoTについて論じた100以上の論文を対象に定量的メタ分析を実施。

CoTは主に数学や記号的推論を含むタスクで大きなパフォーマンスの向上をもたらす一方、他のタスクではこうした向上はほとんどみられず、演算リソースの浪費につながっているという。

　研究チームは、LLMを幅広いタスクに対応させるにはCoTだけでは不十分で、検索や対話エージェント、ファインチューニングされたモデルなど、新しい研究パラダイムに移行すべきだと結論づけている。

LLM推論のスケーリング性能に限界はない？

CoTや記号的推論に関連した論文として、2024年9月のSNS言及数で2位となった「Chain of Thought Empowers Transformers to Solve Inherently Serial Problems（思考の連鎖はトランスフォーマーに、本質的に逐次的な問題解決能力を与える）」も紹介したい。

CoTはどのような仕組みでLLMの数学的・論理的な能力を高めているのか、理論的に解明することを目指した論文だ。

関連論文https://arxiv.org/abs/2402.12875

研究メンバーの一員で、Google DeepMindのLLM推論チームの創設者兼リーダーDenny Zhou（デニー・チョウ）氏は「LLM推論をスケーリングする場合の性能限界とは？限界はない」とXでコメントし、大きな反響を得ていた。

Denny Zhou氏のX上のコメント：https://x.com/denny_zhou/status/1835761801453306089

この論文では「置換操作を繰り返す」「数値を何度も二乗する」といった、並列化が難しい繰り返し計算の問題について、CoTを使うことで従来よりも高い精度で回答できることを示した。

さらにCoTを使った場合、AIモデルのネットワーク層数が少ない場合でも繰り返し計算の問題を解けることを確認したという。

一般には層数が少ないモデルでは繰り返し計算の実行が困難になるので、驚きの成果といえる。

ここ数カ月ほど、LLMの数学的推論・論理的推論の能力について議論が活発化している。米Apple（アップル）は2024年10月7日、LLMの能力と数学的推論における限界を論じた論文「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models（大規模言語モデルにおける数学的推論の限界を理解する）」をarXivに投稿している。

関連論文https://arxiv.org/abs/2410.05229

Appleは論理的推論におけるLLMの脆弱性を調べた結果、質問の文言をわずかに変更するだけでLLMのパフォーマンスが大幅に低下する現象を見いだしたという。

このことからAppleは、現在のLLMが実行する論理的推論の正体は高度なパターンマッチングに近いものであり、「本物の論理的推論を実行できていないのでは（ current LLMs are not capable of genuine logical reasoning）」と推測している。

AIは本当に人間と同レベルの数学的推論をこなすことができるのか。数学的推論はAIがAGI（汎用人工知能）に至る重要な一里塚といえるが、結論が出るにはしばらく時間がかかりそうだ。

ブロックチェーンとAIを橋渡しするデータセットを構築

　2024年9月のSNS言及数で世界、日本、中国いずれも1位に入ったのが「NFT1000: A Visual Text Dataset For Non-Fungible Token Retrieval（非代替性トークン検索のための視覚的テキストデータセット）」である。マルチメディア分野のトップカンファレンス「ACM Multimedia 2024」にも採択された。

関連論文https://arxiv.org/abs/2402.16872

これまでブロックチェーン上で流通するNFT（非代替性トークン）のトークン画像は見た目が似ているものが多く、AIにとって区別するのが難しかった。

研究チームはEthereum（イーサリアム）ブロックチェーン上の人気NFTコレクション1000件から収集した画像とテキストのペア約756万組からなる大規模なNFTデータセット「NFT1000」を構築した。このデータセットを使うことで、AIモデルが類似画像の識別・検索をより厳密にできるようになるという。

新たな言語モデル「OLMoE」がオープンソースで登場

SNS言及数で世界5位に入ったのが、混合エキスパート（MoE）技術を活用した最先端の言語モデルを紹介した「OLMoE：Open Mixture-of-Experts Language Models（オープンな混合エキスパート言語モデル）」である。

関連論文https://arxiv.org/abs/2409.02060

論文の執筆者は、米Microsoft（マイクロソフト）共同創業者の故Paul Allen（ポール・アレン）氏が立ち上げたAllen Institute for AIと、米Meta（メタ）や米Hugging Face（ハギングフェイス）出身者などが2023年に立ち上げたContextual AI（コンテクチュアルAI）の研究者である。

　OLMoEシリーズのうち最大規模の「OLMoE-1B-7B」は全体で69億個のパラメーターを持つが、入力に応じて「専門家」、つまり特定領域のニューラルネットワークのみを呼び出すMoE技術の特徴を生かし、実際に使うパラメーター数を13億個に抑えている。これにより消費電力をはじめ、推論に要するコストを大幅に抑えられるという。

[画像のクリックで拡大表示]

AI・データラボチームでは、OLMoE-1B-7Bが実際にどんな動作をするのか、GitHubで公開されているコードを使ってGoogle Colab上で質問回答の一連の動作を試みた。英語の回答結果は違和感はないものの日本語をいくつか試すと少し違和感のあるものがあった。

arXiv掲載のAI関連論文のX内共有数ランキング（世界）

期間は2024年9月1日～9月30日。投稿はオリジナル投稿、コメント、再投稿、引用投稿の全てを含む（出所：Meltwater）

論文タイトル	初回公開日	論文タイトルの参考翻訳（「OpenAI o1-preview」を利用）
NFT1000: A Visual Text Dataset For Non-Fungible Token Retrieval	2024年1月29日	NFT1000: NFTリトリーバルのためのビジュアルテキストデータセット
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems	2024年2月20日	Chain of Thoughtはトランスフォーマーに本質的なシリアル問題を解決する力を与える
Fair coins tend to land on the same side they started: Evidence from 350,757 flips	2023年10月6日	公平なコインは開始時と同じ面に落ちる傾向がある：350,757回の投擲からの証拠
Tutorial on Diffusion Models for Imaging and Vision	2024年3月26日	画像処理とビジョンのためのDiffusion Modelsに関するチュートリアル
OLMoE: Open Mixture-of-Experts Language Models	2024年9月3日	OLMoE: オープンなMixture-of-Experts言語モデル
Training Language Models to Self-Correct via Reinforcement Learning	2024年9月19日	強化学習による自己訂正を行う言語モデルの訓練
LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench	2024年9月20日	LLMsはまだ計画を立てられない；LRMsはどうか？OpenAIのo1を用いたPlanBenchでの予備的評価
LLMs Will Always Hallucinate, and We Need to Live With This	2024年9月9日	LLMsは常に幻覚を起こし、私たちはこれと共存する必要がある
The AdEMAMix Optimizer: Better, Faster, Older	2024年9月5日	AdEMAMixオプティマイザ：より良く、より速く、より古く
Agents in Software Engineering: Survey, Landscape, and Vision	2024年9月13日	ソフトウェア工学におけるエージェント：調査、現状、そして展望

arXiv掲載のAI関連論文のX内共有数ランキング（日本）

期間は2024年9月1日～9月30日。投稿はオリジナル投稿、コメント、再投稿、引用投稿の全てを含む（出所：Meltwater）

論文タイトル	初回公開日	論文タイトルの参考翻訳（「OpenAI o1-preview」を利用）
NFT1000: A Visual Text Dataset For Non-Fungible Token Retrieval	2024年1月29日	NFT1000: NFTリトリーバルのためのビジュアルテキストデータセット
LLMs Will Always Hallucinate, and We Need to Live With This	2024年9月9日	LLMsは常に幻覚を起こし、私たちはこれと共存する必要がある
Fair coins tend to land on the same side they started: Evidence from 350,757 flips	2023年10月6日	公平なコインは開始時と同じ面に落ちる傾向がある：350,757回の投擲からの証拠
Collective Predictive Coding as Model of Science: Formalizing Scientific Activities Towards Generative Science	2024年8月27日	科学のモデルとしての集合的予測コーディング：生成的科学に向けた科学的活動の形式化
Introduction to Machine Learning	2024年9月4日	機械学習入門

arXiv掲載のAI関連論文のWeibo／WeChat内共有数ランキング（中国）

期間は2024年8月1日～8月31日。投稿はオリジナル投稿、コメント、再投稿、引用投稿の全てを含む（出所：Meltwater）

論文タイトル	初回公開日	論文タイトルの参考翻訳（「OpenAI o1-preview」を利用）
NFT1000: A Visual Text Dataset For Non-Fungible Token Retrieval	2024年1月29日	NFT1000: NFTリトリーバルのためのビジュアルテキストデータセット
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters	2024年8月6日	LLMのテスト時の計算を最適にスケーリングすることは、モデルパラメータをスケーリングするより効果的である可能性がある
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking	2024年3月14日	Quiet-STaR: 言語モデルは話す前に自ら考えることを教えることができる
Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case	2024年9月19日	VLMsはアクションロールプレイングゲームをプレイできるか？『Black Myth Wukong』を事例研究として
Let's Verify Step by Step	2023年5月31日	段階的に検証しましょう

日経記事2024.10.18より引用

最新の画像［もっと見る］

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

goo blog お知らせ

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】goo blogスタッフの気になったニュース
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！