昨日、
いくつにグループ分けしたらいいか分からないとき、グループ分けし、その根拠を探る方法-(1)
http://blog.goo.ne.jp/xmldtp/e/788b7f9881e667afed1be7acb3f0dbde
を書いたけど、この方法だと、データの各要素を全て使ってクラスタリングする。そうすると、相関のある項目なんかを含んでいるため、無駄な情報が増える→雑音が増えて、肝心の知りたいことが、誤差に埋もれてしまうということがある。
(回帰の場合は、マルチコになるので、アウト)
なので、次数を下げたい。
そういうとき、どうするか・・・
■次数を下げる方法の1つ→因子分析する
次数を下げるには、表面的に見える要素の奥に隠れている、
根本的な要因を使って、分析をすればいい。
この、根本的な要因を出してくるのが(探索的)因子分析!
因子分析の因子得点を使って分析する
といっても、どれだけの因子で分析すればよいかわからない。
そこで、スクリープロットを使う
■ときかた
手順は
・データを読み込む
・スクリープロットを使って因子数をきめる
・因子分解してみる
・階層型クラスタを行い、いくつのクラスタに分けるか決める
・決めた数で非階層型クラスタリングを行う
・データの最後に、どのクラスタか、クラスタ番号を入れる
・決定木を行う(独立変数はクラスタ変数(bunrui))
■Rだと
階層型クラスタを行った後は、
いくつにグループ分けしたらいいか分からないとき、グループ分けし、その根拠を探る方法-(1)
http://blog.goo.ne.jp/xmldtp/e/788b7f9881e667afed1be7acb3f0dbde
と同じなので、そこから先は、そちらを参照してもらうこととして、
今回は、その前の因子分解するところ
注意:スクリープロット的には、このぐらいの因子がいいと
でても、その因子数だと、因子分析が回らない(因子が多くエラー)
となることがある。
いくつにグループ分けしたらいいか分からないとき、グループ分けし、その根拠を探る方法-(1)
http://blog.goo.ne.jp/xmldtp/e/788b7f9881e667afed1be7acb3f0dbde
を書いたけど、この方法だと、データの各要素を全て使ってクラスタリングする。そうすると、相関のある項目なんかを含んでいるため、無駄な情報が増える→雑音が増えて、肝心の知りたいことが、誤差に埋もれてしまうということがある。
(回帰の場合は、マルチコになるので、アウト)
なので、次数を下げたい。
そういうとき、どうするか・・・
■次数を下げる方法の1つ→因子分析する
次数を下げるには、表面的に見える要素の奥に隠れている、
根本的な要因を使って、分析をすればいい。
この、根本的な要因を出してくるのが(探索的)因子分析!
因子分析の因子得点を使って分析する
といっても、どれだけの因子で分析すればよいかわからない。
そこで、スクリープロットを使う
■ときかた
手順は
・データを読み込む
・スクリープロットを使って因子数をきめる
・因子分解してみる
・階層型クラスタを行い、いくつのクラスタに分けるか決める
・決めた数で非階層型クラスタリングを行う
・データの最後に、どのクラスタか、クラスタ番号を入れる
・決定木を行う(独立変数はクラスタ変数(bunrui))
■Rだと
階層型クラスタを行った後は、
いくつにグループ分けしたらいいか分からないとき、グループ分けし、その根拠を探る方法-(1)
http://blog.goo.ne.jp/xmldtp/e/788b7f9881e667afed1be7acb3f0dbde
と同じなので、そこから先は、そちらを参照してもらうこととして、
今回は、その前の因子分解するところ
#商品データ作成:shodata.csv library(psych) mydata<-read.csv("shodata.csv",header=T,sep=",") #スクリープロット VSS.scree(mydata) #因子は2つがよさそう。 #因子分析 result <-factanal(mydata,2,rotation="promax",scores="Bartlett") #結果表示 result #p値的に、これ使うの?っていうのはあるけど、サンプルなんで、 #まいっか!ということで、これを使って話を進める・・・ #因子分析の因子得点(result$scores)を対象データ(mydata)に入れ替える mydata<-result$scores #階層型クラスタ分析 kyori <- dist(mydata, method = "euclidean") hcl <- hclust(kyori) plot(hcl) #これ以降は前回と同じ |
注意:スクリープロット的には、このぐらいの因子がいいと
でても、その因子数だと、因子分析が回らない(因子が多くエラー)
となることがある。