ぴかりんの頭の中味

主に食べ歩きの記録。北海道室蘭市在住。

【論】Broberg,2003,Statistical methods for ranking~

2006年02月11日 21時42分16秒 | 論文記録
Per Broberg
Statistical methods for ranking differentially expressed genes
Genome Biology 2003, 4:R41
[PDFダウンロード][Webサイト]

・ROC(receiver operating characteristics)曲線を用いて、5種類の遺伝子ランキング法を評価する。
・ランキング法:samroc, t-test, Wilcoxon, the Bayesian method, SAM
・アレイデータ(3種類):Simulated cDNA data[Baldi and Long], Oligonucleotide leukemia data[Golub], Affymetrix spiking experiment data

・結果は微妙すぎて、どの方法が一番良いとははっきり言えない感じ。結局「場合によって使い分けましょう」というオチ。
・例)100人の人間を『男』『女』にクラス分け。
   男→positive、女→negative
   クラス分けの結果:『男』と判定→30人、『女』と判定→70人
 TP(true-positive rate):『男』にクラス分けされた男の数を100で割った値
 TN(true-negative rate):『女』にクラス分けされた女の数を100で割った値
 FP(false-positive rate):『男』に間違ってクラス分けされた女の数を100で割った値
 FN(false-negative rate):『女』に間違ってクラス分けされた男の数を100で割った値
 FDR(false discovery rate):『男』に間違ってクラス分けされた女の数(false-positive)を30で割った値

FDRの定義自体は単純だけど、事前に男か女かの答えを知っていなければならない。しかし実際は答えはわからないので、その辺をどう回避するのか?下の書き抜きがヒント。
ていうか、ググれば一発か!?
http://hawaii.naist.jp/~shige-o/cgi-bin/wiki/wiki.cgi?QValue
・・・アタマイテー orz

・「False discovery rate (FDR) may be defined as the proportion of false positives among the significant genes. False positive rate (FP) may be defined as the number of false positives among the significant genes divided by the total number of genes.
・「When testing methods in this field it is difficult to find suitable data for which something is known about the true status of the genes.
・「Instead, performance was assessed in terms of the average rank of the 50 genes, after all genes were ranked by their likelihood of being DEGs according to each of the methods.」 テキトーな閾値決めて勝手に"答え"を仮定する(仮の答えを製造)、ってことか?? で、これをやるには、ある統計的条件にあてはまっていることが必要。と。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする