OSC2013 Tokyo/Springの2月23日の講演
フリーソフトによるゲノム科学におけるビッグデータ解析の実際
を聞いてきたのでメモメモするけど・・・
う~ん、わかってない(^^;)
ネット上にすでに要点だけアップしているそうで
OPSN Pressメールマガジン
「オープンソース」を使ってみよう (第27回 フリーソフトウェアを用いたゲノム科学におけるビッグデータ処理)
http://www.ospn.jp/press/20130124no32-1-useit-oss.html
にあるので、そっちのほうを見てもらったほうがいいかも。
一応メモメモ。
ゲノム科学
・次世代シーケンサー、マイクロアレイ、質量分析装置などの普及により
データ産出量が爆発的に増えてる
・情報解析を行うことが必要な機会が増えてきた
数億データをテキスト処理とか
1人分のゲノムを1週間でよむ→最新鋭だと1日
→患者さんごとに
→網羅的な解析も
・ゲノム科学でデータ解析に用いるソフトウェア
OS Linux
プログラム Perl,Pythonなど
DB MySQL,PostgreSQL
ゲノム配列のアセンブリ velvet ABySS,SOAPdenovo WGS Assembler,NIRA3,Phrap
ゲノム配列のマッピング
RNA-Seq解析ソフト
相同性解析
マルチプルあらいんめんと
1.ゲノム科学で用いられるフリーソフト
Linux・Unix
(1)汎用のフリーソフト
イルミナ社のデータ1ファイルあたり数千万~数億
→配列データ、クオリティデータ
4行単位
1行目配列名
2行目塩基配列
4行目クオリティデータ
それを、以下のもので処理
・cat,greo
・Perlなど
・R、Octave
・MySQL、PostgreSQL
(2)生物学的なデータ解析専用ソフト
・データのアセンブリvelvet,Oaser,Trinityなど
・マッピング BWA,Bowtie
・配列データと相同性検索 BLAST
・ライブラリがある BioPerl,
・RのBioconductor:生物解析用パッケージ
RNA-Seq処理
1.FASTQCによるクオリティチェック
→クオリティわるかったら、スクリプトを使って切る
2.Viewerで閲覧:断片を、参照となるものと重ね、カウント→統計データ
・IGVによる閲覧
3.カウントデータの採取
RのBioconductorでカウント、RPKMを算出
4.データマイニング
統計、クラスタ、PCA、マイクロアレイの手法に持ち込む
パスウェイ解析
GO,KEGG,GESAとか・・
ChIP-Seq
くっついているたんぱく質まで調べられる
6.アノテーション
BLAST検索
7.グラフ作成
8統計解析、データマイニング
Chip-Seq
1.~4省略(RNAと同じかんじ)
5.ピークコーディング
CisGenome,ERANGE,FindPeaks,F-Seq,GLITR
SISSRsなど
6~8もRNAと同じ
Rのパッケージがある
多くはRを使わなくてもSAMToolsなど、代用可能
BayesPeakによるピークコーディング
ChIPpeakAnnoによるピークのアノテーション
その他・・・
・マイクロアレイは比率、今後はカウントデータ
・今後の課題
教科書
データベース
解析環境:Hadoopなど
まちがってたら、ごめん(書いてることがわかんないので、自信ない)