Audrey P Gasch and Michael B Eisen
Exploring the conditional coregulation of yeast gene expression through fuzzy k-means clustering
Genome Biology 2002, 3(11):research0059.1-0059.22
[
PDFダウンロード][
Webサイト]
・"Fuzzy k-means clustring"のDNAマイクロアレイデータ解析への応用。そのアルゴリズムの丁寧な解説と、解析で得られた遺伝子クラスター間の相互関係による、詳細な生物学的考察。Gaschが行なった、Yeastの環境変化応答に関する研究の集大成。
・データ:あちこちから集めた、Yeastの公開データ。6153遺伝子×93サンプル。
・Fuzzy k-means clustringのアルゴリズム
1.主成分分析で遺伝子の第1成分を算出 → 重心(centroid)とする
2.重心と各遺伝子間の距離(membership(Pearson correlation))を算出
3.距離の近い(相関の強い)方向へ重心を移動
4.手順2~3を収束するまで繰り返し
5.相関が閾値(任意)以上の遺伝子を除く
6.遺伝子がなくなるまで手順1~5を繰返し
7.各重心と各遺伝子間の相関を全て計算 → Membership table
・例:ある学校の生徒を『野球部』『吹奏楽部』『その他』にクラス分けするとしたとき、従来法では『野球部』と『吹奏楽部』をかけもつ生徒がいた場合に対応できなかった。この問題はFuzzy k-means clustringを使うことで回避できる。しかし、部活に所属しているかどうか、を判断する閾値は任意で定めなければならないという別の問題が起こる(幽霊部員の扱いをどうするか)。
・問題点「
However, the central limitation of most of the commonly used algorithms is that they are unable to identify genes whose expression is similar to multiple, distinct gene groups, thereby masking the relationships between genes that are coregulated with different conditions.」
・新旧法の比較「
Rather than the hard partioning of standard k-means clustering, where genes belong to only a single cluster, fuzzy k-means clustering considers each gene to be a member of every cluster, with a variable degree of 'membership'.」
・目的「
These details implicate mechanisms that yeast cells use to orchestrate genomic expression programs in response to variable conditions.」
・問題点「
One potential drawback of this method is that the number of clusters, k, is limited to the number of eigen vectors (which is determined by the number of microarray experiment analyzed.)」
・注意点「
the algorithm performed slightly better on an input dataset that consisted of the subset of yeast genes that showed differential expression patterns, as opposed to the entire gene-expression dataset.」
・利点「
One of the most significant advantages of fuzzy k-means clustering is that genes can belong to more than one group, revealing distinct aspects of their function and regulation.」
・「
A key difference between these algorithms is that fuzzy k-means clustering requires no a priori information about the dataset.」
《チェック》
・Causton HC, Ren B, Koh SS, Harbison CT, Kanin E, Jennings EG, Lee TI, True HL, Lander ES, Young RA., Remodeling of yeast genome expression in response to environmental changes., Mol Biol Cell. 2001 Feb;12(2):323-37.