2015年4月13日のブログ記事一覧-ウィリアムのいたずらの、まちあるき、たべあるき

いくつにグループ分けしたらいいか分からないとき、グループ分けし、その根拠を探る方法－（１）

2015-04-13 13:53:24 | AI・BigData

これ、書いたっけ？

商品などを、いくつかにグループ分けしたい。
ただし、いくつにグループ分けしたらいいか分からない。
また、グループ分け後、どういう根拠でグループ分けしたかも知りたい

というとき、どうするか？

■なにが、問題なのか？

商品などをグループ化するには、k-meansに代表される、
非階層型クラスタリングを用いる。
　しかし、非階層型クラスタリングを用いると、
　　　いくつに分けるか、あらかじめ決めないといけない
　　　クラスタリングしても、そのように別れる根拠はわからない
　という２つの問題がある。

■ときかた
　問題に対し、
　　　・はじめに階層型クラスタリングを行い、図から
　　　　いくつに分けるか判断する
　　　・別れる根拠（＝分類した理由）を示してくれる決定木を使う
　ということを行う。

手順としては
・データを用意する
・階層型クラスタリングを行い、何個に分けるか決める
・決めた数で非階層型クラスタリングを行う
・データの最後に、どのクラスタか、クラスタ番号を入れる
・決定木を行う（独立変数はクラスタ変数（bunrui））

■Ｒだと

#商品データ作成：shodata.csv
library(psych)
mydata<-read.csv("shodata.csv",header=T,sep=",")
mydata

#階層型クラスタに分ける
kyori <- dist(mydata, method = "euclidean")
hcl <- hclust(kyori)
plot(hcl)

#ここで、図が表示される

#今回は5個に分けると決めた

#非階層型クラスタに分ける
kmeans(mydata,5)

#どうしてこのように分類されるか、決定木にかける
library(rpart)
#shobun1.csvはshohin.csvの各レコード末尾に、クラスタ番号(bunrui)を付けたもの
data<-read.csv("shobun1.csv",header=T,sep=",")
result<-rpart(bunrui~.,data=data,control=rpart.control(minsplit=5, cp=0.01))
par(xpd=T)
plot(result)
text(result)

ランキングに参加中。クリックして応援お願いします！

記事一覧 | 画像一覧 | フォロワー一覧 | フォトチャンネル一覧

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

アクセス
閲覧	923	PV
訪問者	555	IP
トータル
閲覧	34,798,793	PV
訪問者	8,670,203	IP
ランキング
日別	1,210	位
週別	640	位

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】プロ野球キャンプを見に行ったことはある？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

いくつにグループ分けしたらいいか分からないとき、グループ分けし、その根拠を探る方法－（１）

カレンダー

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

いくつにグループ分けしたらいいか分からないとき、グループ分けし、その根拠を探る方法－（１）

カレンダー

ログイン

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ