6月13日、
NIIオープンハウス2020 基調講演2
で紹介していたのでメモメモ
■ごあいさつ
・ことしはおんらいんだぜ!
■「NLPオープンコラボレーションによるCOVID-19世界情報集約サイトの構築」
・新型コロナうウィルス
オンライン会議・講義
オンラインコラボレーション
未曽有の事態
世界には先行事例・兆候
↓自然言語処理をつかって
NLPオープンコラボレーションによる
COVID-19世界情報集約サイトの構築
→4月から一般にも公開
カテゴリ
X
国・地域
でアクセスできる
国・地域
X
カテゴリ
でも
構築フロー
サイト収集:クラウドソーシング
クローリング
機械翻訳
カテゴリ分類:機械学習
世界情報DB
インターフェース
サイト収集(クラウドソーシング)
信頼できる情報は、その国の人は知っている
→クラウドソーシング
情報サイトクローリング
機械翻訳の運用
「みんなの自動翻訳」
WebAPIからも利用可能
クラウドソーシング(国内)によるラベル付け
記事カテゴリの自動分類
DeepLearningによるNLPの進化
・意味評議
・Attention
・プレトレーニング
きっかけ
Word2Vec(013)
Neural Machine Translation
→RNN
Attention:着目するところを決める
BERT:
たくさんの層でアテンション→Transformer
↑
単言語で:BERT
様々なタスクでのFine Tuning
問題:
Data Hungry
記号処理の融合
論文からのマルチホップ関係知識抽出
先ほど紹介したサイト
ファクトチェック記事もある
■Twitterデータ
・COVID-19に関する社会の反応を観察可能
必要・不要
不安やおそれ
非難、差別、いやがらせ
どんな議論
・非難・差の別対象の変遷
自分が気に入った情報しか見ない→コロナも
Q:バイアスがかかった発言は
A:最近そういう研究アリ
■J-MID基板上でのCOVID-19検査の状況、AI解析への期待
医学放射線学会の取り組み
・J-MID:CTデータを集めている
基盤システム
・蓄積順調 1億3千枚
・CovidのAIを企画
・新型コロナウィルス感染症での画像診断の有用性
網状→収縮
・ダイアモンドプリンセス号のPCR陽性症例に対する胸部CT
→症状が出る前から判断できる可能性
(CTで陽性にならないこともあるが)
・ウイルス性肺炎サーベイランス
放射線診断専門医がWebベースで
パンデミック:ビッグデータ役に立つ
→迅速にAIで判断
・NIIと密に
■医療ビッグデータセンター
・医療画像収集とAI解析の必要性と課題
コンピューターによる支援が期待
医療関係者不足
→AIで肩代わり
→データどうする。技術日進月歩
→これにチャレンジ
・深層学習のための画像データ・一般画像
大量の学習データ
・医療画像データ
正解データは?普通の人が見てもわからない
・一般画像
インターネットから
ラベル付け:一般の人でも
・医療画像
収集難しい
専門医でないと
医療ビッグデータ研究センター
・AMEDプロジェクト
「臨床研究などICT基盤構築・人工知能実装研究事業」
・RCMBの2つの柱
クラウド基盤の機能
大量の医療画像データの収集・蓄積・解析
SINETを使っている(これないとできない)
1億枚以上、開発者100人以上
・AI画像解析技術
課題拡張、問題の詳細化
・眼底疾患4クラス検出:日本眼科学会
・ラベル付き学習データを一括生成
・肺がん検出と分類
・学習データの不足
→GAN利用して病変画像を生成・合成
・大量データによってできるようになった研究
通常のCT(造影剤なし)血管の推定
内視鏡
・社会還元:がんハイライト
・COVID-19への対応
機械学習による解析
・肺野自動セグメンテーション
正常領域と炎症領域
・CT像から分類→高い精度
CT像→PCR:あまり制度でない