ヒトの血液には、赤血球、白血球、血小板といった血球細胞が含まれている。赤血球の血液型(A、B、O、AB型)がヒトゲノム配列上の特定の遺伝子(=ABO遺伝子)のゲノム配列の個人差で決まる。同様に、白血球にも血液型が存在し、HLA遺伝子のゲノム配列の個人差で決定される。白血球の血液型の個人差は免疫アレルギー疾患をはじめ多彩な表現型の発症に強いリスクを有することが知られており、個人のゲノム情報を医療に活用する個別化医療の先駆けとして社会実装が期待されている。また、骨髄移植やiPS細胞を用いた再生医療などの臓器移植を伴う医療行為においては、臓器の提供者(ドナー)と移植を受ける人(レシピエント)との間で白血球の血液型を合致させる必要があることが知られている。白血球の血液型の構成は人種間で大きく異なることから、日本人集団における白血球の血液型の構成の全容解明が強く望まれていた。
しかし、多数の種類のHLA遺伝子が存在し、各遺伝子が数十種類以上の配列パターンを有するため、白血球の血液型の組み合わせが膨大な数となってしまうことから、その全体像は明らかになっていなかった。さらに、HLA遺伝子配列の構造が複雑で、解読に多額の実験費用と専門的なデータ解析技術が必要となることも、全容解明を遅らせる原因となっていた。
大阪大学大学院医学系研究科平田潤大学院生、岡田随象教授(遺伝統計学)らの研究グループは、次世代シークエンス技術と機械学習を用いて、日本人集団における白血球の血液型が11パターンで構成されており、その個人差が、病気や量的形質を含む50以上の表現型に関わっていることを明らかにした。
研究グループは、最先端のゲノム配列解読技術である次世代シークエンス技術を駆使して、日本人集団1,120名を対象に33のHLA遺伝子におけるゲノム配列を決定することに成功した。得られたHLA遺伝子ゲノム配列情報に対して機械学習手法であるtSNEを適用した結果、日本人集団の白血球の血液型を11パターンの組み合わせに分類可能なことが明らかになった。これは、複雑なヒトゲノム情報の解釈を、機械学習手法を用いて実現した先進的な成功例と評価することができる。
さらに研究グループは、日本人集団17万人のゲノムデータを対象に、白血球の血液型をコンピューター上で高精度に推定することに成功した。推定された血液型パターンに基づき、多彩な表現型との関連を調べるフェノムワイド関連解析を実施した。その結果、50以上の表現型において、白血球の血液型が発症に関与していることが明らかになった。
本研究成果により、日本人集団における白血球の血液型の全容が解明された。機械学習による白血球の血液型の分類に成功したことは、生命科学研究における機械学習の画期的な応用例と考えられる。さらに、白血球の血液型を用いた個別化医療の実現に貢献するものと期待される。
◆用語の説明
〇次世代シークエンス技術
生物のゲノムを構成するDNA配列を高速に解読する技術。従来のゲノム解読手法であるサンガー法と比較して桁違いのスループットを誇り、幅広い生命科学研究における重要なツールとなっている。
〇HLA遺伝子(human leukocyte antigen gene)
ヒトの血球細胞の一種である白血球の表面に発現する分子で、白血球の血液型を規定する。生体内における自己と非自己の認識や外来性の病原菌に対する免疫反応を司り、多彩な表現型の個人差を規定している。主要な古典的HLA遺伝子(classical HLA gene)においては生物学的な役割の研究や検査方法の開発が進んでいるが、その他の非古典的HLA遺伝子(non-classical HLA gene)については解明が遅れている。
〇機械学習(machine learning)
コンピューターに高次元データを学習させることで、データの内部に潜む特徴的なパターンを見つけ出すデータ解析手法の総称。人工知能(artificial intelligence)研究におけるデータ解析手法としても広く活用されている。
〇バイオバンク・ジャパン
日本人集団27万人を対象とした生体試料バイオバンクで、東京大学医科学研究所内に設置されている。ゲノムDNAや血清サンプルを臨床情報と共に収集し、研究者へのデータ提供や分譲を行っている。
〇フェノムワイド関連解析(phenome-wide association study; PheWAS)
特定の遺伝子変異に着目し、多数の表現型との関連を網羅的に検討する解析手法。
〇表現型
生物の外見や特徴として表現された形態的・生理的性質。代表的なヒトの表現型として、病気や身体的特徴(身長・肥満)、血液検査結果、生理検査結果などが含まれる。
〇個別化医療
画一的な標準医療でなく、ヒトゲノム情報の違いなど患者さん一人一人の個性を考慮して施す次世代の医療。
〇tSNE(t-distributed stochastic neighbor embedding)
機械学習手法の一つ。高次元データの次元を効率的に圧縮することで、低次元のデータ(例:2次元の画像データ)に変換する方法。
〇ゲノムワイド関連解析(genome-wide association study; GWAS)
ヒトゲノム配列上の数百万カ所の遺伝子変異と特定の表現型との関係を網羅的に検討する解析手法。数千人~百万人を対象に大規模に実施され、多数の表現型に対する遺伝子変異が同定されている。
しかし、多数の種類のHLA遺伝子が存在し、各遺伝子が数十種類以上の配列パターンを有するため、白血球の血液型の組み合わせが膨大な数となってしまうことから、その全体像は明らかになっていなかった。さらに、HLA遺伝子配列の構造が複雑で、解読に多額の実験費用と専門的なデータ解析技術が必要となることも、全容解明を遅らせる原因となっていた。
大阪大学大学院医学系研究科平田潤大学院生、岡田随象教授(遺伝統計学)らの研究グループは、次世代シークエンス技術と機械学習を用いて、日本人集団における白血球の血液型が11パターンで構成されており、その個人差が、病気や量的形質を含む50以上の表現型に関わっていることを明らかにした。
研究グループは、最先端のゲノム配列解読技術である次世代シークエンス技術を駆使して、日本人集団1,120名を対象に33のHLA遺伝子におけるゲノム配列を決定することに成功した。得られたHLA遺伝子ゲノム配列情報に対して機械学習手法であるtSNEを適用した結果、日本人集団の白血球の血液型を11パターンの組み合わせに分類可能なことが明らかになった。これは、複雑なヒトゲノム情報の解釈を、機械学習手法を用いて実現した先進的な成功例と評価することができる。
さらに研究グループは、日本人集団17万人のゲノムデータを対象に、白血球の血液型をコンピューター上で高精度に推定することに成功した。推定された血液型パターンに基づき、多彩な表現型との関連を調べるフェノムワイド関連解析を実施した。その結果、50以上の表現型において、白血球の血液型が発症に関与していることが明らかになった。
本研究成果により、日本人集団における白血球の血液型の全容が解明された。機械学習による白血球の血液型の分類に成功したことは、生命科学研究における機械学習の画期的な応用例と考えられる。さらに、白血球の血液型を用いた個別化医療の実現に貢献するものと期待される。
◆用語の説明
〇次世代シークエンス技術
生物のゲノムを構成するDNA配列を高速に解読する技術。従来のゲノム解読手法であるサンガー法と比較して桁違いのスループットを誇り、幅広い生命科学研究における重要なツールとなっている。
〇HLA遺伝子(human leukocyte antigen gene)
ヒトの血球細胞の一種である白血球の表面に発現する分子で、白血球の血液型を規定する。生体内における自己と非自己の認識や外来性の病原菌に対する免疫反応を司り、多彩な表現型の個人差を規定している。主要な古典的HLA遺伝子(classical HLA gene)においては生物学的な役割の研究や検査方法の開発が進んでいるが、その他の非古典的HLA遺伝子(non-classical HLA gene)については解明が遅れている。
〇機械学習(machine learning)
コンピューターに高次元データを学習させることで、データの内部に潜む特徴的なパターンを見つけ出すデータ解析手法の総称。人工知能(artificial intelligence)研究におけるデータ解析手法としても広く活用されている。
〇バイオバンク・ジャパン
日本人集団27万人を対象とした生体試料バイオバンクで、東京大学医科学研究所内に設置されている。ゲノムDNAや血清サンプルを臨床情報と共に収集し、研究者へのデータ提供や分譲を行っている。
〇フェノムワイド関連解析(phenome-wide association study; PheWAS)
特定の遺伝子変異に着目し、多数の表現型との関連を網羅的に検討する解析手法。
〇表現型
生物の外見や特徴として表現された形態的・生理的性質。代表的なヒトの表現型として、病気や身体的特徴(身長・肥満)、血液検査結果、生理検査結果などが含まれる。
〇個別化医療
画一的な標準医療でなく、ヒトゲノム情報の違いなど患者さん一人一人の個性を考慮して施す次世代の医療。
〇tSNE(t-distributed stochastic neighbor embedding)
機械学習手法の一つ。高次元データの次元を効率的に圧縮することで、低次元のデータ(例:2次元の画像データ)に変換する方法。
〇ゲノムワイド関連解析(genome-wide association study; GWAS)
ヒトゲノム配列上の数百万カ所の遺伝子変異と特定の表現型との関係を網羅的に検討する解析手法。数千人~百万人を対象に大規模に実施され、多数の表現型に対する遺伝子変異が同定されている。