Per Broberg
Statistical methods for ranking differentially expressed genes
Genome Biology 2003, 4:R41
・ROC(receiver operating characteristics)曲線を用いて、5種類の遺伝子ランキング法を評価する。
・ランキング法:samroc, t-test, Wilcoxon, the Bayesian method, SAM
・アレイデータ(3種類):Simulated cDNA data[Baldi and Long], Oligonucleotide leukemia data[Golub], Affymetrix spiking experiment data
TP(true-positive rate):『男』にクラス分けされた男の数を100で割った値
TN(true-negative rate):『女』にクラス分けされた女の数を100で割った値
FP(false-positive rate):『男』に間違ってクラス分けされた女の数を100で割った値
FN(false-negative rate):『女』に間違ってクラス分けされた男の数を100で割った値
FDR(false discovery rate):『男』に間違ってクラス分けされた女の数(false-positive)を30で割った値
・・・アタマイテー orz
False discovery rate (FDR) may be defined as the proportion of false positives among the significant genes. False positive rate (FP) may be defined as the number of false positives among the significant genes divided by the total number of genes.」
When testing methods in this field it is difficult to find suitable data for which something is known about the true status of the genes.」
Instead, performance was assessed in terms of the average rank of the 50 genes, after all genes were ranked by their likelihood of being DEGs according to each of the methods.」 テキトーな閾値決めて勝手に"答え"を仮定する(仮の答えを製造)、ってことか?? で、これをやるには、ある統計的条件にあてはまっていることが必要。と。