もう手遅れかもしれませんが、遅ればせながらコーディングを覚えようとちょっと前から「R」の基礎の基礎のオンライン講座を始めました。いまやどの論文を見ても大量データを扱かっていないものは稀ですし、そうでないものも、パブリックドメインの大量データベースをマイニングしての仮説を作り、ある程度のバーチャル検証を行ってから実際の実験をやったというタイプのものも多いです。
私もRNA-seqやChIP-seqはたまにしますけど、そのデータを包括的に解析するのは、その筋の人に頼むしかありません。私が扱えるのはエクセルぐらいです。なので、私が自分でできることはエクセルについている機能に限られますし、残念ながらエクセルでさえ使いこなすというレベルではありません。そもそも三万行のエクセルの表のデータをちょっと整理するだけでも、私のやりかただとかなりの時間がかかります。
また、実際問題として困るのは、例えば出版用のグラフを書くのに、最近の多くの雑誌はデータをドット プロットで示すように指示されるわけですが、エクセルのグラフ機能ではそれが出来ません(できるのかもしれませんけど私にはできません)。それで、そいういう統計データとグラフ化はPrismという汎用されている別の有料ソフトを使って描くというようなことをやっています。しかし、Prismを使っても一流紙でみるような綺麗なグラフはなかなかつくれないし、ちょっとした細部を変えたいと思っても容易ではありません。
前回の論文の時には、スロベニアのLjublijana大学で開発されたOrangeというデータマイニングツールでデータの視覚化や解析を試してみようとしましたが、やはり隔靴掻痒の感があります。これを使えば素人でもとりあえずできるのですけど、私が心に思い描いたような形にはならないし、どうやって思うような形にすればよいのかもわかりません。思うにこれは、私がプログラミングの知識がゼロの素人なので、このソフトが動くロジックがそもそも理解できていないことが原因のようです。例えばエクセルでボタンをクリックすると計算処理を行うわけですが、実際にコンピューターのレベルでそのクリックがどういう命令を出してどういう手順に従ってなされているのかということが私には理解できていません。なので、ちょっとどこかを変えたいと思っても出来ないのです。Orangeにしてもそうで、説明によるとこれはPythonで書かれた非常に柔軟なソフトであり、最新のバイオインフォーマティクスの解析たとえばt-SNEやPC 解析なども素人でもできるし、望めばいくらでもカスタマイズできるようですが、あいにく私のような素人にはボタンをクリックするぐらいしかできないので、この優れたソフトを使いこなせないのです。
そんな感じでグラフをかいたり、大量データを解析したりする度に、フラストレーションが溜まる日々が続き、無駄かもしれないし無理かもしれないが、コーディングの基礎を学ぶしかないのではないか、と思い出しました。実は、こう思い出したのは最近のことではなく、何年か前にも同じ気持ちになって、実は、オンラインでPythonを勉強しようと思い立ってやり始めたことがあります。残念ながら一ヶ月しないうちに挫折しました。思うに、原因はそのコースが生物系のデータ解析を目的としたものではなく、どちらかというとウェッブのデザインやアプリの開発などを念頭においたものだったようで、興味が湧かなかったというのが大きかったようです。今はPythonに関しては何一つ覚えておりません。
それで、今回は前回の轍を踏まぬよう、生物学系のデータの解析と視覚化に特化したコースをUdemyでさがしました。プログラム言語も「R」にしました。
ピアノの練習を通じて、最初は難しくてもコツコツ繰り返して練習すれば(普通の人の五倍の時間はかかりますが)、私の年でもある程度のことができるということを学んだので、焦らずに毎日ちょっとずつやることを習慣づけようとしています。いま、初心者のためのRの基礎のコース、全部で11時間のレクチャーの約3割ぐらいを終えたところです。いままでで、なんとかエクセルなどの表データを読み込んで簡単なグラフを描くという作業を覚えましたが、まだそのクオリティーは低く、エクセルについているチャート機能で作ったグラフよりはちょっとマシというレベルで、一流紙の論文に使われているような華麗なグラフにはほど遠いです。
この初心者コースのレクチャー、聞き流すだけなら全部で11時間ですが、その内容を理解して、実際にRにコードを書いて動かしてみて覚えるということをやっているとその何倍もかかります。算数と同じで基礎を覚えて応用問題をやってみて、ようやくロジックを理解できるわけで、講義の内容を身につけるには、それを覚え理解して応用する練習が不可欠で、それに講義の時間の何倍もの時間がかかります。しかも、コマンドの綴りを間違えたとか、クオテーションマークを忘れたとか、些細なミスでプログラムが動かなくなるので、その原因を突き止めるだけで時間が経ち、何も覚えないまま、時間ぎれになったりします。また、覚えてもすぐに忘れるので、復習をしている間に終わってしまうということもしばしばです。三歩進んで二歩下がるというレベルではありません。5歩進んで4歩半下がるぐらいの亀の歩みです。
当初の計画では1日30分、週に5日の学習で、全部で50時間と見積もっていたので、5ヶ月ほどでRの初歩が理解できるつもりですが、この調子だともっとかかりそうな気がします。ま、しかしそれでも、その調子を維持できれば二、三年で、一流紙に載っているような華麗な解析とグラフの描画が自力でできるようになるのではと思っているのですが、どうでしょう。
私もRNA-seqやChIP-seqはたまにしますけど、そのデータを包括的に解析するのは、その筋の人に頼むしかありません。私が扱えるのはエクセルぐらいです。なので、私が自分でできることはエクセルについている機能に限られますし、残念ながらエクセルでさえ使いこなすというレベルではありません。そもそも三万行のエクセルの表のデータをちょっと整理するだけでも、私のやりかただとかなりの時間がかかります。
また、実際問題として困るのは、例えば出版用のグラフを書くのに、最近の多くの雑誌はデータをドット プロットで示すように指示されるわけですが、エクセルのグラフ機能ではそれが出来ません(できるのかもしれませんけど私にはできません)。それで、そいういう統計データとグラフ化はPrismという汎用されている別の有料ソフトを使って描くというようなことをやっています。しかし、Prismを使っても一流紙でみるような綺麗なグラフはなかなかつくれないし、ちょっとした細部を変えたいと思っても容易ではありません。
前回の論文の時には、スロベニアのLjublijana大学で開発されたOrangeというデータマイニングツールでデータの視覚化や解析を試してみようとしましたが、やはり隔靴掻痒の感があります。これを使えば素人でもとりあえずできるのですけど、私が心に思い描いたような形にはならないし、どうやって思うような形にすればよいのかもわかりません。思うにこれは、私がプログラミングの知識がゼロの素人なので、このソフトが動くロジックがそもそも理解できていないことが原因のようです。例えばエクセルでボタンをクリックすると計算処理を行うわけですが、実際にコンピューターのレベルでそのクリックがどういう命令を出してどういう手順に従ってなされているのかということが私には理解できていません。なので、ちょっとどこかを変えたいと思っても出来ないのです。Orangeにしてもそうで、説明によるとこれはPythonで書かれた非常に柔軟なソフトであり、最新のバイオインフォーマティクスの解析たとえばt-SNEやPC 解析なども素人でもできるし、望めばいくらでもカスタマイズできるようですが、あいにく私のような素人にはボタンをクリックするぐらいしかできないので、この優れたソフトを使いこなせないのです。
そんな感じでグラフをかいたり、大量データを解析したりする度に、フラストレーションが溜まる日々が続き、無駄かもしれないし無理かもしれないが、コーディングの基礎を学ぶしかないのではないか、と思い出しました。実は、こう思い出したのは最近のことではなく、何年か前にも同じ気持ちになって、実は、オンラインでPythonを勉強しようと思い立ってやり始めたことがあります。残念ながら一ヶ月しないうちに挫折しました。思うに、原因はそのコースが生物系のデータ解析を目的としたものではなく、どちらかというとウェッブのデザインやアプリの開発などを念頭においたものだったようで、興味が湧かなかったというのが大きかったようです。今はPythonに関しては何一つ覚えておりません。
それで、今回は前回の轍を踏まぬよう、生物学系のデータの解析と視覚化に特化したコースをUdemyでさがしました。プログラム言語も「R」にしました。
ピアノの練習を通じて、最初は難しくてもコツコツ繰り返して練習すれば(普通の人の五倍の時間はかかりますが)、私の年でもある程度のことができるということを学んだので、焦らずに毎日ちょっとずつやることを習慣づけようとしています。いま、初心者のためのRの基礎のコース、全部で11時間のレクチャーの約3割ぐらいを終えたところです。いままでで、なんとかエクセルなどの表データを読み込んで簡単なグラフを描くという作業を覚えましたが、まだそのクオリティーは低く、エクセルについているチャート機能で作ったグラフよりはちょっとマシというレベルで、一流紙の論文に使われているような華麗なグラフにはほど遠いです。
この初心者コースのレクチャー、聞き流すだけなら全部で11時間ですが、その内容を理解して、実際にRにコードを書いて動かしてみて覚えるということをやっているとその何倍もかかります。算数と同じで基礎を覚えて応用問題をやってみて、ようやくロジックを理解できるわけで、講義の内容を身につけるには、それを覚え理解して応用する練習が不可欠で、それに講義の時間の何倍もの時間がかかります。しかも、コマンドの綴りを間違えたとか、クオテーションマークを忘れたとか、些細なミスでプログラムが動かなくなるので、その原因を突き止めるだけで時間が経ち、何も覚えないまま、時間ぎれになったりします。また、覚えてもすぐに忘れるので、復習をしている間に終わってしまうということもしばしばです。三歩進んで二歩下がるというレベルではありません。5歩進んで4歩半下がるぐらいの亀の歩みです。
当初の計画では1日30分、週に5日の学習で、全部で50時間と見積もっていたので、5ヶ月ほどでRの初歩が理解できるつもりですが、この調子だともっとかかりそうな気がします。ま、しかしそれでも、その調子を維持できれば二、三年で、一流紙に載っているような華麗な解析とグラフの描画が自力でできるようになるのではと思っているのですが、どうでしょう。