なんか、「類似タレント」で検索されたり
芸能人のイメージや類似タレントが探せる企業向け検索ビジネスと、それをリストラする中国の某会社
http://blog.goo.ne.jp/xmldtp/e/5172ce316fc83ed9c2a96dfd0d51fa40
を見ている人が急に増えた。
上記の記事を書いたときには、
新しい検索理論とかを構築すれば、注目は浴びそうなのに。。
今後伸びそうな気がするけどなあ。。
って書いたけど、もはやビッグデータブームで手法は決まっているので
当時の補足。ビッグ?データによる類似タレント調査法
■概要
これには、クラスタリングを使う。
まず、調査したいタレントを何人か(何十人か)挙げる
その調査したいタレントに対して、いくつかの項目について、
得点をつける。
調査項目を列、タレントを行にした行列を作成し、
・K-Means法を使って、非階層型クラスタリングを行い、
類似タレントをいくつかのグループにわけたり、
・階層型クラスタリングによって、類似しているタレントの系統図
(デンドログラム)みたいなものもつくれる。
■具体的に、おだい
たとえば、以下のタレント
橋本環奈
指原莉乃
篠田麻里子
中川翔子
道重さゆみ
キンタロー
を3つのクラスタにわけてみよう。
■分けるのに必要なもの「タレント」と「調査項目」
わけるために、調査項目をあげる。
これは、
・アンケート調査
・ファンの特性(平均年齢、金持ち、男女、職業(自宅警備員など)。。)
・タレントの能力(歌唱力、スキャンダル数、バラエティ)
・Twitterでの言葉の共起
でも、なんでもいい。最後のTwitterでの共起とは、Twitterのつぶやきで、そのタレントの名前が出てくる1ツイート内に、一緒に出てくることばのこと。
たとえば、
橋本環奈かわいい!
というツイートで、「橋本環奈」さんに「かわいい」1票、
さらに
道重さゆみは、かわいくって、おもしろいよね
で、「道重さゆみ」さんに「かわいい」1票、「面白い」1票となる。
■今回の調査用語と調査法
今回は面倒くさいので、YAHOO検索を使う
調査用語を
・かわいい
・おもしろい
・ぶす
・歌うまい
・オタク
とし、
タレント 調査単語
の組み合わせでYAHOO検索でのヒット数をもとめる
たとえば、「橋本環奈 かわいい」でYAHOO検索する
約21,800,000件と出てきたので、21,800,000を、
「橋本環奈 かわいい」の数とする。
■もととなるデータ
このように求めた数は、以下のとおり
■データ処理
Rで、K-Means法でおこなう。
上記のデータをCSVで書き出し、data1.csvという名前で保存している
kmeansで3と指定し、3つのグループにわけている
■結果
K-Meansは何回かやったほうがいいんだけど
(で、実際何回かやって確かめたけど)
その結果、(グループの数字は異なるが)必ず
グループA:橋本環奈
グループB:指原莉乃、中川翔子
グループC:篠田麻里子、道重さゆみ、キンタロー
にわかれる。よくわかんないが、とにかく
橋本環奈は、他のアイドルと違う?
(天使だから・・・)
■発展
もちろん、今選んだ言葉はテキトーなので、類似アイドルを
みつけるにはふさわしくないですが(もっと言葉を選んだり、
YAHOOヒット数とかじゃなくって、もっとちゃんとした?
データに基づくべき)
まあ、やりかたの雰囲気は分かってくれたと思います。
とすると、今調査項目を単語にしたけど、
顔の特徴にして、(顔の)特徴点を調査項目にすると、
アイドルの顔のイメージが分類できそうに思うけど、
これは、AV女優でやって失敗している事例がある
セクシー女優で学ぶ画像分類入門
http://www.slideshare.net/tkm2261/tokyowebmining26-3
単純な特徴点でなく、特徴点の組み合わせ(目の離れ具合とか?)
とかを使わないといけないのかもしれない。
すくなくとも、一工夫必要そう。