百醜千拙草

何とかやっています

素人用ソフト求む

2015-12-15 | Weblog
私、自分が持たされている携帯電話の使い方も良くわからないレベルで、新しいテクノロジーは興味があることに関しないものはなるべく近寄らないようにしてきました。しかし、生物学研究は、近年、ゲノムワイドのデータ解析が付きまといます。マイクロアレイのデータをエクセルで解析するぐらいのことならできますが、それ以上になると苦しいので、専門家に丸投げするという方針でやってきました。

ところが、ここに来て、ChIP-seqのデータを解析しないといけなくなりました。ChIP-seqをやってもらった所に、私でもわかるようにエクセルの形にしたものをつくってもらい、2年前にやったときのデータと比較しようとしたら、随分、データに非整合性があることがわかりました。それで、もう一度、データの解析を二年前のもの一緒にやってもらおうと思ったのですが、時間あたりで解析料金を請求されるので、最低限の知識を覚えてからにしようと思いました。そもそも今の段階では言葉が通じるかどうかさえ疑問です。

ウェッブの大海の中をキーワードを頼りに、ChIP-seq解析の初歩の初歩あたりが書いてありそうなページを、パラパラ読んでみて、改めて、私のこの分野の無知ぶりに我ながら愕然としました。

とりあえずしたいことは単純なことで、ChIP-seqのピークの同定と、一部のデータをゲノムブラウザ上に表示させることです。2年前は誰かに頼んでやってもらいました。その誰かは忙しいし、当時使っていた有料解析ソフトにアクセスできなくなっており、どうしたものか、悩んだ末、自分である程度やるしかない、という結論に達したわけです。

それにしても、インターネットの時代というのはすごいですね。チョロチョロと検索しただけでなんとなくできそうな気になってくるぐらいの情報は得られました。どうも、まず、SRAという最初のデータから作られたFastqとういうフォーマットのデータファイルが必要らしいと言うことがわかりました。手元のデータフォルダーを見てみると、一つのサンプルに各々5GBほどのFastqファイルが二つずつあります。それから、Fastqのシークエンスをまず、ゲノムにマッピングするようです。マッパーはGalaxyというソフトを使うのが最も一般的なようです。次に、シークエンスリードからピークを作っているゲノム領域を同定めしていくのに、MACSという方法を使うのが一般的で、最後にブラウザ上に表示させるのにIGVやUCSCブラウザに認識できるようなフォーマットに変えるようです。多分、この分野をちょっとやった人なら、常識中の常識で、何を言っているのかコイツは、と呆れられるレベルだろうと思いますが、三日前まではBigWig Fileってなんぞや、というようなレベルだったのです。インターネットでは、それぐらいの知識のある人を対象に書いてあるサイトが多く、本物のド素人が「なんちゃって解析」ができるぐらいになるように易しく、手とり足とり書いてあるサイトはほとんどありません。

もうこの時点で、Galaxy、MACS、IGVなどのサイトから複数のプログラムの使い方を覚えないといけないのか、と半ば絶望しておりましたが、必要は発明の母で、私レベルの素人でも使えそうなソフトを見つけました。九州大学の賢人が開発したSraTailorというソフトがあることを知りました。この教室はバリバリの発生生物学の教室で教授の出身ラボの仕事は10年前ぐらいはよく一流雑誌で目にしたことがあったので、やっぱり、みんなゲノムワイド解析には真剣に取り組んでいるのだな、と思いました。

最初はウインドウズマシンで使おうとしたのですが、Unix系のOS,Ubuntuとやらを使う必要があることがわかり、かつてOSをいじって痛い目にあって以来、「触らぬOSにたたりなし」という格言を守っているので、ウインドウズマシンは諦めました。そもそもここでも、Ubuntuとはなんぞや、状態でした。結局、Macに入れることにしました。ダウンロードはできました。でも、チュートリアルにあるようには、すんなりとはやはり行きません。二時間でできるはずものが三日かかって未だにできません。「なんとなくできるような気がする」と「実際にできる」との間には遥かなギャップがあるようです。はたして、リバイスに間に合うのでしょうか。

絶対失敗しないど素人向けのソフトはないでしょうか。
コメント (2)
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする