ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

生物情報学(2)-DNAから遺伝子をみつけ、機能を推測する

2008-02-07 22:25:46 | Weblog

放送大学の生物情報学実習で習ってきたことを、復習してみる生物情報学、前回は、DNAシーケンサーの電気泳動して得られた結果から、DNAのシーケンスをきめるところまできました。

 今回は、タンパク質の構造の予定でしたが、それよりも、そのあとの遺伝子の配置と機能推測のほうが順番的にいいので、そちらを先にやります。
 なお、理解が間違っているところもあるかも・・・・。




■DNAから遺伝子をきめる

 昨日は、DNAシーケンサーの電気泳動して得られた結果から、DNAのシーケンスをきめました。
 そして、ATCGの並びになりました。

 でも、これだけでは、なにができるのか、わかりません。
 セントラルドグマによれば、DNAから、メッセンジャーRNAができ、それが、アミノ酸を材料に、タンパク質ができ、このたんぱく質が、どんな働きをするかで、遺伝としてつたわります。
 遺伝として伝わるところが遺伝子なので、DNAのうち、メッセンジャーRNAをつくるところとか、ある程度遺伝する機能にかかわるところが、遺伝子となります。

 ということで、次の作業は、

 (1)DNAから、遺伝子の部分を切り出す。
 (2)切り出した遺伝子が、どんな役割をするか推定する

 ことまでして、はじめて、DNAに、どんなことが書いてあるかわかります。

 そして、実際に、その機能が発言するかどうかを確かめないといけません
 (DNAに書いてあっても、その細胞のところで、機能が働くかどうかはわからない。眠っている場合もある)。そこで


 (3)その遺伝子の機能が発現するかどうかを確かめる

 という作業もひつようになります。

 まず、(1)からみていきます。




■(1)DNAから、遺伝子の部分を切り出す

 これには、2とおりの方法があります。

・m-RNAを入れる。
 そのDNAをあつめて、いっぱいm-RNAもいれると、DNA中のm-RNAの部分は、入れたm-RNAとくっつくことから、どの機能があるかわかります・・・

 が、これだと、生物情報科学にならないので、

・コンピューターでもとめる。

 DNAは、AGCTの4種類のうち3つの組み合わせ(コドン)によって、作成するタンパク質のもととなるアミノ酸を指定します。このうち、読み取り終了のSTOPコドンがあります。
 このSTOPコドンがすぐに起きないように(遺伝子は結構長いので、すぐにSTOPコドンがきたら、それはおかしい)つなげていって、STOPコドンのところで終わりにします。




■(2)切り出した遺伝子が、どんな役割をするか推定する

 切り出した遺伝子と、既存の役割のわかっている遺伝子と、類似度を比較することによって、機能を推測します。類似度が高ければ、同じようなことやってるだろうと、推測します。




■これを行うソフトウエア

 上記のことを行うソフトウエアとして、fastaBLASTがある

●fastaの場合

 昨日、DNAをつなげるのを、bioeditで行いました。そのとき、*.fasというfasta形式で書きだしました。この*.fasのファイルを入力とします。
 そして、fastx34を実行すると、テキトーに切ってくれたあと、指定したDB(引数で指定する)から、似たような遺伝子を見つけてきてくれる。

●BLASTの場合
 BLASTを行う前に、まず、Glimmer2を使って、「(1)DNAから、遺伝子の部分を切り出す」。そして、切り出したら、blastを実行して、「(2)切り出した遺伝子が、どんな役割をするか推定する」

 基本的に、どちらも、似たようなことをするソフトである。




と、超簡単にせつめいしてみました。

次回は、「(3)その遺伝子の機能が発現するかどうかを確かめる」


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

生物情報学(1)-DNAの配列を決める方法と、そこで使うソフト

2008-02-07 00:47:23 | Weblog

今日、放送大学の生物情報学実習で習ってきたことを、復習してみる
(理解が間違っているところもあるかも・・)




DNAの並び方(シーケンス)は、
 アメリカの場合、NCBI(GenBank)
 日本はDDBJ
 ヨーロッパはEMBL
でデータベース化されている。
このシーケンスは、どーやって決めるか?という話。

 最近は、Pyrosequence法などもあるらしいけど、今回は、サンガー法について。




 この方法は、まず、調べようとするDNAを1本鎖にします。

 で、そーすると、反対側のDNAを合成するわけですが、このとき、

    ・DNA合成酵素である、dATP,dGTP,dCTP,dTTPを一杯入れておきます。
     →dはデオキシ、dNTPのNがA,G,C,T(アデニン、グアニン、シトシン、チミン)

    ・さらに、もうひとつ酸素をとった(デオキシ)ddATP,ddGTP,ddCTP,ddTTPも
     一杯入れておきます→これをまとめて、ddNTPと書きます。

 そうすると、dNTP(DNA合成酵素)が来ている間は合成をしていますが、ddNTPがくると、そこで、合成はとまります。(ddNTPがあると、酸素が取れているので結合できない)。

 たとえば、300塩基の一本鎖がたくさんあったとすると、

     ・1番目のみがdNTPで2番目がddNTPで、2番目で止まる
     ・2番目までがdNTPで3番目がddNTPで、3番目で止まる
     ・3番目までがdNTPで4番目がddNTPで、4番目で止まる
         :

 とか、いろんなところでとまるものができる。(極論すれば、無限にあり、ランダムに止まるとすると、1塩基でとまるものから、300塩基で止まるものまですべてのものがあるはず)。

 そして、最後のddNTPは、そのとまったところに対応する、DNAの塩基対(ATCP)に対応しているはずである。で、ここで、ddNTPは蛍光塗料でマークしておく。なので、1番目にとまったものの、止まった箇所のddNTPは、1番目のDNA塩基対に対応しているし、2番目の・・・

ってなかんじで、ddNTPは、そこのDNAに対応していて、1番目から300番目まで、すべての箇所のddNTPのものがあるはずである。




 さてここで、上記の「いろんなところでとまった」ものを、電気泳動する。

 そーすると、短いものから、長いものまで、順番に並ぶ。

 ってことは、

 1番目でとまったもの、2番目でとまったもの、3番目でとまったもの・・・300番目でとまったものというようにわかれる。

 このとき、1番目でとまったものは、上記のことにより、1番目のDNAに対応したddNTPで終わっていて(ってことは1番目のDNAの塩基は同じだから、1番目のところはみんな同じddNTPでおわっているはずだ。理論上)、そのddNTPのNが、AかTかCかGかは、ddNTPに蛍光塗料をぬっておいてあるので、その蛍光塗料の量で、どのddNTPが多いかでわかるはずだ。。

 ということで、それぞれの電気泳動でとまったところの、ddNTPの量を出してくれば良い。そのところのddNTPの量がおおいのが、そこに対応する塩基対。




 ここまでの処理を行うのがDNAシーケンサー

 で、そのddNTPの量から、DNAのシーケンスを決めるソフト(っていうか、画面でみれる)ソフトが、Chromas(シェアウエアのソフトって書いてある)

 で、これで、1本分がきまった・・・

 けど、実際には、こーいう塩基配列は、部分部分にきれているので、つなぎ合わせないといけない。この部分部分の塩基配列をつなぎ合わせるソフトが、bioedit(フリーソフト:ChromasみたいなddNTPの各量を表示したりする機能もある)。

 今回の実習は、abiファイルとかいうのができていて(上記のChromasなんかでも使う各量を波で表示するグラフ)、それを、

1.1本目は、File→Openで、
  2本目からは、File→Inport→Sequence alignment fileで読み込む

2.シーケンスが出てきたら、Back Colored View Modeというのにすると、
  AGCT別々の色になるので見やすい。
  このモードにするには、シーケンスが並んでいるところの、TCAGとかが4列になっている
  アイコンのうち、全部背景に色が塗ってあるものをクリックする(ごめん、わかりにくい
  説明で。いちばん左の南京錠からかぞえて、11番目。ちなみに、10番目はすでにON
  になっている)

3.左端のラベル?(シーケンスが始まる前の部分)を2つ選択。
  1つめはクリックでOK。2つめは、コントロールキーをおして、クリック

4.これから、どこが一致するか探す。
  まず、Sequence→Dot plotを選択。ダイアログは、OKで答えていくと、
  線がひかれた図がでてくる。
  もし、一致していれば、斜め下とかにむかって、大きく線が出る。それが一致面。
  そこの一番上のほうをクリックすると、上に座標が出る。X軸がその一致開始点
  (=つながるところ)

5.シーケンスにもどって、シーケンスの上のいっぱいアイコンが並んでいるところに、
  G/Dと書いてあるところがある(南京錠から数えて7つめ)ので、ここをクリックし、
  2本目をドラッグすると動くから、4のつながるところまで持っていく。

6.できたら、南京錠をクリックすると、はずすまでプロテクトされる。
  File→Save Asで保存できる。


なお、1本が3プライムから5プライムにしているのに、もう一本が5プライムから3プライムへと、逆方向にしてしまうと、当然一致しない。
 この場合は、Sequence→Nucleic Acid→Reverse Complementを選ぶと、方向が逆になる。




この、シーケンスを一致させるのを、自動的にやるソフト(contig assembly program)がある。
CAPっていうやつで、起動すると、自動的に適当?にやってくれる。
bioeditの中に入っているのかな?




今回はここまで。
次回はタンパク質のグラフィック表示 RasMol(フリーソフト)について
(本当は今日、ちょとやったけど、中途半端なのと、ここできりがいいので、
 今回はここまで)



  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする