世界五大医学誌の一つBMJ誌は,毎年,クリスマスの時期になるとイグノーベル賞を凌駕するような面白論文の特集号を公開します.今年の原著論文は4つで,変形性手関節症患者の手指機能に対する電気加熱ミトンの効果を調べた論文や,タクシー運転手と救急車運転手におけるアルツハイマー病による死亡率を分析した論文などが報告されていますが,個人的に面白かったのは,今年急速に広まった大規模言語モデルであるChatGPT(OpenAI開発),Claude(Anthropic開発),そしてGemini(Alphabet開発)の「認知機能」を人間と同じようにテストした研究です.エルサレムにあるハダサ医療センターの脳神経内科チームが中心に行ったものです.
施行したのは軽度認知障害(MCI)の診断のために作られた「MoCA(Montreal Cognitive Assessment)」という認知機能検査です.視空間・遂行機能,命名,記憶,注意力,復唱,語想起,抽象概念,遅延再生,見当識などを評価します.所要時間は約10分です.
さて結果ですが,ChatGPT 4oが最高スコアの26点を獲得し,ClaudeとChatGPT 4が25点,Gemini 1.5が22点,そしてGemini 1.0が16点という結果でした.MoCAテストの基準では30点中26点以上が正常範囲とされるため,大半のモデルが軽度認知障害(MCI)に該当するスコアであることが分かりました(図1).
とくに興味深いのは,抽象化や言語課題など,テキストベースの領域では高い成績を収めた一方,すべてのモデルが視空間および遂行機能において低いパフォーマンスを示したことです.例えば,図2は視覚的な注意機能を評価するトレイル・メイキングB課題(経路描画課題)を行っていますがいずれも不正解です.立方体の模写もかなり苦戦しています.ChatGPT 4oはASCIIアートを用いることで正確な図を描くことに成功しています.
印象的なのは図3の時計描画タスクで,数字を正しく配置できなかったり,時刻を正確に示せなかったりと,人間の認知症患者に似たエラーが見られました.ChatGPT 4oは写真のように美しい時計を描きましたが,針の位置を間違えました.Gemini 1.5が描いた時計(E)を著者は「アボカドのような形」と評していますが,ユニークで笑いを誘う一方,アルツハイマー病患者の特徴的な描画に類似しています.AIの課題を浮き彫りにするものです.
以上の結果は,AIが医療分野でどの程度人間の役割を代替できるのかを考える上で重要な示唆を与えます. 大規模言語モデルは高度な認知能力を持ちながらも,視空間認知や遂行機能において人間の医師を完全に代替するには至らないことを示しています.医療分野におけるAIの活用が急速に進む中,AIにはなかなか敵わないという雰囲気があったので,まだまだ人間も捨てたものではないという気持ちになりましたが, AIのこの弱点も早晩,改良されそうな気もしています.
Dayan R, Uliel B, Koplewitz G. Age against the machine-susceptibility of large language models to cognitive impairment: cross sectional analysis. BMJ. 2024 Dec 19;387:e081948.(doi.org/10.1136/bmj-2024-081948)
施行したのは軽度認知障害(MCI)の診断のために作られた「MoCA(Montreal Cognitive Assessment)」という認知機能検査です.視空間・遂行機能,命名,記憶,注意力,復唱,語想起,抽象概念,遅延再生,見当識などを評価します.所要時間は約10分です.
さて結果ですが,ChatGPT 4oが最高スコアの26点を獲得し,ClaudeとChatGPT 4が25点,Gemini 1.5が22点,そしてGemini 1.0が16点という結果でした.MoCAテストの基準では30点中26点以上が正常範囲とされるため,大半のモデルが軽度認知障害(MCI)に該当するスコアであることが分かりました(図1).
とくに興味深いのは,抽象化や言語課題など,テキストベースの領域では高い成績を収めた一方,すべてのモデルが視空間および遂行機能において低いパフォーマンスを示したことです.例えば,図2は視覚的な注意機能を評価するトレイル・メイキングB課題(経路描画課題)を行っていますがいずれも不正解です.立方体の模写もかなり苦戦しています.ChatGPT 4oはASCIIアートを用いることで正確な図を描くことに成功しています.
印象的なのは図3の時計描画タスクで,数字を正しく配置できなかったり,時刻を正確に示せなかったりと,人間の認知症患者に似たエラーが見られました.ChatGPT 4oは写真のように美しい時計を描きましたが,針の位置を間違えました.Gemini 1.5が描いた時計(E)を著者は「アボカドのような形」と評していますが,ユニークで笑いを誘う一方,アルツハイマー病患者の特徴的な描画に類似しています.AIの課題を浮き彫りにするものです.
以上の結果は,AIが医療分野でどの程度人間の役割を代替できるのかを考える上で重要な示唆を与えます. 大規模言語モデルは高度な認知能力を持ちながらも,視空間認知や遂行機能において人間の医師を完全に代替するには至らないことを示しています.医療分野におけるAIの活用が急速に進む中,AIにはなかなか敵わないという雰囲気があったので,まだまだ人間も捨てたものではないという気持ちになりましたが, AIのこの弱点も早晩,改良されそうな気もしています.
Dayan R, Uliel B, Koplewitz G. Age against the machine-susceptibility of large language models to cognitive impairment: cross sectional analysis. BMJ. 2024 Dec 19;387:e081948.(doi.org/10.1136/bmj-2024-081948)