goo blog サービス終了のお知らせ 

ぴかりんの頭の中味

主に食べ歩きの記録。北海道室蘭市在住。

【論】Ruiz,2004,Gene subset selection based on an~

2006年01月16日 17時36分34秒 | 論文記録
Robert Ruiz, J.S. Aguilar-Ruiz, J.C. Riquelme,
Gene subset selection based on an efficient search in feature ranking,
Preprint submitted to Elsevier Science(2004)

●研究1
・4種類のDNAマイクロアレイデータを使い、既存の9種類の順位付け方法で遺伝子に順位をつけ、3種類の識別法で各サンプルが正常か異常かを識別。LOOCV(leave one out cross validation)で評価。
→結果データ数:4×9×3=108
・DNAマイクロアレイデータ
 1. Colon cancer: 62サンプル, 6000遺伝子[Alon]
 2. Leukemia: 72サンプル, 7129遺伝子[Golub]
 3. Lymphoma: 96サンプル, 4026遺伝子[Alizadeh]
 4. GCM(Global Cancer Map): 190サンプル, 16063遺伝子[Ramaswamy]
・順位付け法
 1. Soap(sp)(Selection of Attributes by Projections): NLC(Number of Label Changes)
 2. Informasion gain(ig)
 3. Relief(rl): nearest-neighbor[Kita, Rendell][Kononenko]
 4. Chi2(ch): chi-square statistic(χ^2)[Liu an Setiono]
 5. Non-linear crrelation(cr)
 6. Consistency(cn)
 7. Naive Bayes(nb): Bayes theorem
 8. Instance-based(ib): nearest-neighbor(K-NN) classifier
 9. C4.5(c4): decision trees
・識別法(※上記7,8,9と同じ)
 1. Naive Bayes(nb): Bayes theorem
 2. Instance-based(ib): nearest-neighbor(K-NN) classifier
 3. C4.5(c4): decision trees

●研究2
・従来法と今回提案する方法を比較。
・データ、識別法は研究1と同じ。
・順位付け法
 1. BIRS(best incremental ranked subset) 著者オリジナルの方法: It's based on redundancy idea, in the sense that a ranked-gene is chosen if additional information is gained by adding it.
 2. SF(sequential forward wrapper) 従来法??

・とりあえず、目につくデータ・方法を片っ端から試したもの。組み合わせによって結果(識別率)がマチマチ。各データの測定環境・数値処理(正規化)の違いが出てきているだけのような気がしないでもない。生体(DNA)データの不安定さが実証されたかたち。
・BIRS→遺伝子をある指標により単純に順位付けするだけでなく、識別に《効く》遺伝子だけをツマミ出す、という発想。 アルゴリズム理解できず(プログラム組めない)。
・"Filter"と"Wrapper"の言葉の使い方(概念)がわからない。
~~~~~~~~~~
・30ページほどなのに、ちんたら読んでいたら一ヶ月ほどかかってしまった(恥)。。。要スピードアップ。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする