内分泌代謝内科 備忘録

強化学習による 2型糖尿病の血糖コントロールの最適化

強化学習による 2 型糖尿病の血糖コントロールの最適化:概念実証試験
Nature Medicine 2023. doi.org/10.1038/s41591-023-02552-9

2 型糖尿病 (type 2 diabetes: T2D) 治療のためのインスリン用量の個別化と最適化は臨床の解決すべき課題のひとつである。本論文では、最適なインスリン用量を学習する、モデルベースの強化学習(reinforcement learning: RL)フレームワーク(RL-based dynamic insulin titration regimen: RL-DITRと呼ぶ)を提案する。

開発段階では、RL-DITR は T2D の入院患者の血糖管理において、他の深層学習モデルや標準的な臨床手法と比較して優れたインスリン用量最適化(平均絶対誤差(mean absolute error: MAE)1.10 ± 0.03 単位)を達成した。

臨床検証では、RL-DITR は定量的指標 (MAE 1.18 ± 0.09 単位) および定性的指標を用いた盲検的な評価で、若手および中堅レベルの医師と比較して、入院患者の血糖コントロールにおいて優れたパフォーマンスを実証した。

さらに、16 人の T2D 患者を対象に、単群、患者盲検の概念実証試験を行った。主要評価項目は、試験期間中の 1 日平均血糖値の差で、200 ± 65 mg/dL から 155 ± 43 mmol/Lに減少し(P<0.01)、事前に規定したエンドポイントを達成した。重篤な低血糖やケトーシスを伴う高血糖は発生しなかった。

これらの予備的結果から、より大規模で多様な臨床試験でのさらなる検証が求められる。


背景

T2D は、最も罹患率の高い慢性疾患のひとつであり、世界中でかなりの死亡率と社会的負担を引き起こしている。血糖コントロール不良の T2D 患者は、疾患進行の過程でインスリン療法を必要とする。良好な血糖コントロールは入院糖尿病患者の糖尿病合併症と死亡率を顕著に減少させるが、有効かつ安全な範囲内でインスリン投与量を調節することは依然として困難で時間がかかる。

T2D 患者に対する合理的なインスリン使用に関する一連の臨床ガイドラインが専門家によって提案されているが、インスリン投与量の調節は通常、目標とする血糖値目標を達成するために医師の経験と組み合わせた臨床指導に基づいており、実社会における患者ごとのばらつきを十分に考慮することはできない。治療レジメンによっては、他の患者よりも合うものもあれば、病状が進行するにつれて、その患者にとってある期間だけしか合わないものもある。したがって、T2D 患者における血糖変動を抑制し、関連する合併症や死亡を予防するためには、個人に合わせたダイナミックなインスリン用量調節が臨床的に非常に重要である。

人工知能(artificial intelligence: AI)アプローチは、病気の診断や管理を支援する強力なツールとなる可能性が出てきた。既存のアプローチでは、病気の検出や発生率の予測に、正しいラベルのリストを提供しなければならない教師あり学習(supervised learning: SL)が用いられてきた。しかし、SL ベースの手法は、専門家のパフォーマンスが最適であることを前提としており、ヒトの代謝の複雑さや薬物に対する反応の個人差のために、現実の結果と必ずしも一致しない。

RL は機械学習の一分野として提案されており、動的な環境との試行錯誤的な相互作用を通じて、プログラムが効果的な戦略を学習することを可能にする。

RL は、様々なヘルスケア領域、特に長期的な患者ケアのための動的治療レジメン(dinamic treatment regimen: DTR)において、魅力的なソリューションを提供する可能性がある。医療記録データの利用可能性が高まるにつれ、RL は、敗血症、冠動脈疾患、人工膵臓システムによる血糖調節など、様々な臨床シナリオにおける逐次的な医療意思決定システムで使用されている。

いくつかの研究では、モデルフリーの RL モデルを治療推奨に使用しているが、これらのアプローチは、一般的に、環境の正確なシミュレーションが欠けている場合、サンプル効率 (sample efficiency, 最適な方策を構築し、設計されたタスクを達成するために必要な収集データ量) や安全性の問題に直面することになる。複雑な治療シナリオや長期的な治療シナリオでは、安全性が第一の懸念事項である。そのため、モデルベースの RL は、多様なシナリオをシミュレートできる可能性があり、意思決定時に信頼性の高い将来計画を提供し得る。

RL 手法は、患者の結果によって設定される報酬 (reward) に基づいて治療レジメンを最適化する可能性があるにもかかわらず、臨床における潜在的なリスクのために、治療における実世界での応用は依然として限定的である。そのため、RL ベースの手法を開発から実際の臨床ワークフローに導入するためには、包括的な評価が必要である。


方法

本研究では、インスリン用量と血糖応答が少なくとも 7 日間継続的に記録された T2D 入院患者の電子カルテの大規模データセットを構築した。

入院患者の電子カルテデータに基づいて、著者らは RL ベースの動的インスリン用量調整レジメン(RL -based dynamic insulin titration regimen: RL-DITR)を開発した。RL-DITRは、1. 患者の血糖値のモデルと、2. インスリン用量を決めるモデルから構成される。

このモデルに基づく RL プログラムは、環境としての患者モデルとくり返し相互作用することにより、最適な方針を学習する。さらに、動的環境との試行錯誤的な相互作用を通じて結果を最適化するだけでなく、安全性を保証するために専門医を教師として学習する SL を導入した。

RL-DITR の開発から臨床導入の各段階で以下のように機能評価を行った (図 1)。

(1) 定量的評価指標と定性的評価の両方を用いた RL-DITR 対医師の内部検証
(2) 再テスト法 (test-retest method) による定性的臨床評価を用いた RL-DITR 対医師の外部検証
(3) 再テスト法を用いた前向き導入試験
(4) 最終的な概念実証のための実現可能性検証試験 (feasibilty test)

図 1: RL-DITR の開発から臨床導入までに行った機能評価試験の概要


結果

データセットの特徴
T2D の入院患者 12,981 例、治療日数 119,941 日を RL-DITR 開発段階の解析対象とした。平均年齢は 59.2 ± 14.5 歳で、42.6%が女性であった。

2. 患者の血糖状態を予測する AI モデルの性能
まず、内部テストセットと外部テストセットを含む2つの検証セットを用いて、患者の血糖値の軌跡が患者モデルによって予測できるかどうかをテストした。

AI モデルで予測した血糖値は、内部テストセットと外部テストセットの両方において、実際の血糖値の変化を正確に再現した(図2a,b)。

図2: RL-DITR による血糖値の予測
https://www.nature.com/articles/s41591-023-02552-9#Fig2

AI モデルは内部テストセットで良好な性能を示し、ピアソン相関係数(Pearson Correction Coefficient: PCC)は 0.70(95%信頼区間(Confidence Interval: CI): 0.70-0.71)、平均絶対誤差(mean absolute error: MAE)は 2.13 mmol/L (38 mg/dL)(95%CI:2.12-2.15 mmol/L) を達成した(図2c)。外部テストセットで評価すると、AI モデルは PCC 0.71(95% CI: 0.70-0.72 mmol/L)、MAE 2.28 mmol/L (41 mg/dL)(95% CI: 2.25-2.30 mmol/L)を達成した(図2d)。

さらに、患者の WTR (within the target range, 24時間あたりの血糖値が 70-180 mg/dL の範囲に入っている時間の割合)を予測するモデルの性能を調べた(図 2e,f)。このモデルは、時間の経過とともに患者に関するより多くの情報の入力を受けて精度が向上することが観察された。

3. RL-DITR によるインスリン用量調整
個別化されたインスリン用量の最適化についての RL-DITR の性能を評価した。図 3a,b は、開発段階(内部検証および外部検証)における臨床医によるインスリン用量と AI によるインスリン用量の相関を示している。

図3: RL-DITR によるインスリン用量調整のパフォーマンス
https://www.nature.com/articles/s41591-023-02552-9/figures/3

AI によるインスリン用量の予測は内部検証で MAE 1.10 U (95% CI: 1.07-1.12 U)を達成し、外部検証では MAE 1.20 U (95% CI: 1.15-1.26 U) と良好な予測性能を示した。

図 3c,d は、臨床医と RL-DITR によるインスリン用量を、異なる入院日の 2 人の患者について示している。その結果、臨床医によるインスリン用量と AI によるインスリン用量は全体的に高い類似性・相関性を示し、AI が医師による診療を学習し模倣できることが示された。

さらに,実際に投与された量と RL 法で提案された量の違いによって,患者の転帰(WTR 比)が異なるかどうかを相関分析によって調べた(図 3e,f)。その結果,AI アルゴリズムによって推奨された用量に近い用量を投与された患者は、内部検証セット(四分位範囲:-2~0 U)および外部検証セット(四分位範囲:0~1 U)のいずれにおいても望ましい血糖コントロールを達成できることが示された。実際に投与された用量が AI アルゴリズムによって提案された用量と異なる場合、平均転帰は悪化した。

4. AI と医師の性能比較シミュレーション研究
AI の実現可能性を検証するために、内部コホートと外部コホートを含む 2 つの後ろ向きシミュレーション研究を実施した。

内部検証コホートでは、40 人の T2D 患者(226 件のインスリンデータ)を用いて、インスリン投与量の推奨を行う際の AI システムと人間の医師とのパフォーマンスを比較した。臨床経験の異なる合計 15 人の医師が登録され、3 つのグループに割り当てられた。

第 1 群:臨床経験 1-3 年の若手医師(n = 5)
第 2 群:臨床経験 4-7 年の中級医師(n = 5)
第 3 群:臨床経験 8-20 年の上級医師(n = 5)。

RL が作成した用量と医師が作成した用量は、専門家パネルにより、定量的指標と臨床経験からの定性的指標を含めて評価された。

専門家会議が推奨した投与量を参考にすると、AIシステムの MAE は 1.18 U であり、第 1 群の若手医師の 1.46 U、第 2 群の中級医師の 1.27 U を上回り、第 3 群の上級医師の 0.95 U にやや劣った(図4a)。「臨床的一致 clinical agreement」(用量差 20%以下と定義)の割合は AI モデルで 81.42%となり、第 1 群(若手医師)より高く、第 3 群(上級医師)よりやや低かった。同様に、AI モデルによる「同一一致 identical agreement」(同一用量と定義)の割合は 1 群(若手医師)よりも高かった(図4b)。

5. RL-DITR の概念実証臨床試験
T2D 入院患者の血糖コントロールにおける RL-DITR の臨床的有用性と安全性を検討するため、概念実証試験が実施された。試験には 16 名の T2D 入院患者が登録された。ベースライン時の平均 HbA1c は8.8 ± 1.1%、平均糖尿病期間は 12.0 ± 8.9 年であった(図6a)。

図 6: 2型糖尿病の入院患者の血糖管理における RL-DITR の概念実証実験の結果
https://www.nature.com/articles/s41591-023-02552-9/figures/6

すべての入院患者は 5 日間の RL-DITR による介入を受けた。試験期間中、RL-DITR の推奨値の 90.2%が医師によって採用され、アルゴリズムの投与に対する信頼性が高いことが示された。

血糖 7 検の結果については、治療期間の最初の 24 時間と比較して、治療期間の最後の 24 時間では、全体にかなりの改善が観察された(図 6b)。

また、副次的アウトカムについては、アルゴリズムによる血糖コントロールの評価に持続グルコースモニタリング(continuous glucose monitoring: CGM)を用いた。CGM による TIR(time in range)(70-180 mg/dL)のグルコース濃度の割合は常に改善し、血糖値 <70 mg/dL の割合は試験期間中4%未満であった(図6c)。TIR(血糖: 70-180 mg/dL)は、最初の 24 時間では 61.4%であったが、治療期間の最後の 24 時間では 85.5%に改善した(P = 0.03)。

試験期間中、重篤な低血糖(すなわち、臨床的介入を必要とする)やケトーシスを伴う高血糖のエピソードは発生しなかった。

最後に、試験に参加した医師は、各患者の治療介入終了時に、RL-DITR に関する満足度アンケートに回答するよう求められた。ほとんどの医師が、日常臨床において AI インターフェースは理解しやすく(4.57/5.00)、時間を節約でき(4.50/5.00)、効果的で(4.00/5.00)、安全である(4.29/5.00)と回答し、総合満足度は4.14/5.00であった(図 6d)。


議論

著者らは、開発から臨床への導入に至る段階的な AI システムの検証、および概念実証試験を実施した。これらにより、臨床医、特に若手医師や非内分泌専門医の T2D 入院患者の糖尿病管理を支援するツールとして、RL アプローチの可能性が示された。

RL-DITR は、インスリン投与量の調整において良好な性能を達成したが、いくつかの課題も残っている。第一に、本研究のデータは、中国の様々な民族、主に漢民族(92%)、回族、ウイグル族、モンゴル族などから収集された。他の民族に対する AI の一般化については、さらに調査する必要がある。第二に、入院中の食事のバリエーションは電子カルテで一律に提供された。退院後の患者については、食事のバリエーションと身体活動を考慮し、RL モデルで検討する必要がある。

https://www.nature.com/articles/s41591-023-02552-9
  • Xでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

最新の画像もっと見る

最近の「糖尿病」カテゴリーもっと見る