ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

いくつにグループ分けしたらいいか分からないとき、グループ分けし、その根拠を探る方法-(2)次数下げ

2015-04-14 12:12:40 | AI・BigData
昨日、

いくつにグループ分けしたらいいか分からないとき、グループ分けし、その根拠を探る方法-(1)
http://blog.goo.ne.jp/xmldtp/e/788b7f9881e667afed1be7acb3f0dbde

を書いたけど、この方法だと、データの各要素を全て使ってクラスタリングする。そうすると、相関のある項目なんかを含んでいるため、無駄な情報が増える→雑音が増えて、肝心の知りたいことが、誤差に埋もれてしまうということがある。
(回帰の場合は、マルチコになるので、アウト)

なので、次数を下げたい。

そういうとき、どうするか・・・




■次数を下げる方法の1つ→因子分析する

次数を下げるには、表面的に見える要素の奥に隠れている、
根本的な要因を使って、分析をすればいい。
この、根本的な要因を出してくるのが(探索的)因子分析!

因子分析の因子得点を使って分析する

といっても、どれだけの因子で分析すればよいかわからない。
そこで、スクリープロットを使う




■ときかた

手順は
・データを読み込む
・スクリープロットを使って因子数をきめる
・因子分解してみる
・階層型クラスタを行い、いくつのクラスタに分けるか決める
・決めた数で非階層型クラスタリングを行う
・データの最後に、どのクラスタか、クラスタ番号を入れる
・決定木を行う(独立変数はクラスタ変数(bunrui))

■Rだと

階層型クラスタを行った後は、

いくつにグループ分けしたらいいか分からないとき、グループ分けし、その根拠を探る方法-(1)
http://blog.goo.ne.jp/xmldtp/e/788b7f9881e667afed1be7acb3f0dbde

と同じなので、そこから先は、そちらを参照してもらうこととして、
今回は、その前の因子分解するところ

#商品データ作成:shodata.csv
library(psych)
mydata<-read.csv("shodata.csv",header=T,sep=",")

#スクリープロット
VSS.scree(mydata)

#因子は2つがよさそう。


#因子分析
result <-factanal(mydata,2,rotation="promax",scores="Bartlett")
#結果表示
result

#p値的に、これ使うの?っていうのはあるけど、サンプルなんで、
#まいっか!ということで、これを使って話を進める・・・

#因子分析の因子得点(result$scores)を対象データ(mydata)に入れ替える
mydata<-result$scores

#階層型クラスタ分析
kyori <- dist(mydata, method = "euclidean")
hcl <- hclust(kyori)
plot(hcl)

#これ以降は前回と同じ


注意:スクリープロット的には、このぐらいの因子がいいと
でても、その因子数だと、因子分析が回らない(因子が多くエラー)
となることがある。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

第4の産業革命というより、インダストリー4.0という方が普通じゃないか?

2015-04-14 07:15:42 | Weblog
今、NHKニュース(7時の)で、
「第4の産業革命」という言葉を使っていたが、
「インダストリー4.0」(Industrie 4.0)っていうほうが、
ふつうじゃないのかなあ?

インダストリー4.0とは何か?
ドイツが官民一体で進める「第4の産業革命」(1)
http://business.nikkeibp.co.jp/article/world/20140717/268842/


ようするに、スマートな工場だよね(^^)v

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする