Robert Ruiz, J.S. Aguilar-Ruiz, J.C. Riquelme,
Gene subset selection based on an efficient search in feature ranking,
Preprint submitted to Elsevier Science(2004)
●研究1
・4種類のDNAマイクロアレイデータを使い、既存の9種類の順位付け方法で遺伝子に順位をつけ、3種類の識別法で各サンプルが正常か異常かを識別。LOOCV(leave one out cross validation)で評価。
→結果データ数:4×9×3=108
・DNAマイクロアレイデータ
1. Colon cancer: 62サンプル, 6000遺伝子[Alon]
2. Leukemia: 72サンプル, 7129遺伝子[Golub]
3. Lymphoma: 96サンプル, 4026遺伝子[Alizadeh]
4. GCM(Global Cancer Map): 190サンプル, 16063遺伝子[Ramaswamy]
・順位付け法
1. Soap(sp)(Selection of Attributes by Projections): NLC(Number of Label Changes)
2. Informasion gain(ig)
3. Relief(rl): nearest-neighbor[Kita, Rendell][Kononenko]
4. Chi2(ch): chi-square statistic(χ^2)[Liu an Setiono]
5. Non-linear crrelation(cr)
6. Consistency(cn)
7. Naive Bayes(nb): Bayes theorem
8. Instance-based(ib): nearest-neighbor(K-NN) classifier
9. C4.5(c4): decision trees
・識別法(※上記7,8,9と同じ)
1. Naive Bayes(nb): Bayes theorem
2. Instance-based(ib): nearest-neighbor(K-NN) classifier
3. C4.5(c4): decision trees
●研究2
・従来法と今回提案する方法を比較。
・データ、識別法は研究1と同じ。
・順位付け法
1. BIRS(best incremental ranked subset) 著者オリジナルの方法: It's based on redundancy idea, in the sense that a ranked-gene is chosen if additional information is gained by adding it.
2. SF(sequential forward wrapper) 従来法??
・とりあえず、目につくデータ・方法を片っ端から試したもの。組み合わせによって結果(識別率)がマチマチ。各データの測定環境・数値処理(正規化)の違いが出てきているだけのような気がしないでもない。生体(DNA)データの不安定さが実証されたかたち。
・BIRS→遺伝子をある指標により単純に順位付けするだけでなく、識別に《効く》遺伝子だけをツマミ出す、という発想。 アルゴリズム理解できず(プログラム組めない)。
・"Filter"と"Wrapper"の言葉の使い方(概念)がわからない。
~~~~~~~~~~
・30ページほどなのに、ちんたら読んでいたら一ヶ月ほどかかってしまった(恥)。。。要スピードアップ。
Gene subset selection based on an efficient search in feature ranking,
Preprint submitted to Elsevier Science(2004)
●研究1
・4種類のDNAマイクロアレイデータを使い、既存の9種類の順位付け方法で遺伝子に順位をつけ、3種類の識別法で各サンプルが正常か異常かを識別。LOOCV(leave one out cross validation)で評価。
→結果データ数:4×9×3=108
・DNAマイクロアレイデータ
1. Colon cancer: 62サンプル, 6000遺伝子[Alon]
2. Leukemia: 72サンプル, 7129遺伝子[Golub]
3. Lymphoma: 96サンプル, 4026遺伝子[Alizadeh]
4. GCM(Global Cancer Map): 190サンプル, 16063遺伝子[Ramaswamy]
・順位付け法
1. Soap(sp)(Selection of Attributes by Projections): NLC(Number of Label Changes)
2. Informasion gain(ig)
3. Relief(rl): nearest-neighbor[Kita, Rendell][Kononenko]
4. Chi2(ch): chi-square statistic(χ^2)[Liu an Setiono]
5. Non-linear crrelation(cr)
6. Consistency(cn)
7. Naive Bayes(nb): Bayes theorem
8. Instance-based(ib): nearest-neighbor(K-NN) classifier
9. C4.5(c4): decision trees
・識別法(※上記7,8,9と同じ)
1. Naive Bayes(nb): Bayes theorem
2. Instance-based(ib): nearest-neighbor(K-NN) classifier
3. C4.5(c4): decision trees
●研究2
・従来法と今回提案する方法を比較。
・データ、識別法は研究1と同じ。
・順位付け法
1. BIRS(best incremental ranked subset) 著者オリジナルの方法: It's based on redundancy idea, in the sense that a ranked-gene is chosen if additional information is gained by adding it.
2. SF(sequential forward wrapper) 従来法??
・とりあえず、目につくデータ・方法を片っ端から試したもの。組み合わせによって結果(識別率)がマチマチ。各データの測定環境・数値処理(正規化)の違いが出てきているだけのような気がしないでもない。生体(DNA)データの不安定さが実証されたかたち。
・BIRS→遺伝子をある指標により単純に順位付けするだけでなく、識別に《効く》遺伝子だけをツマミ出す、という発想。 アルゴリズム理解できず(プログラム組めない)。
・"Filter"と"Wrapper"の言葉の使い方(概念)がわからない。
~~~~~~~~~~
・30ページほどなのに、ちんたら読んでいたら一ヶ月ほどかかってしまった(恥)。。。要スピードアップ。