4コマの描き方と萌えキャラの描き方をamazonで購入して
勉強中の村山です。
恥ずかしくて本屋ではなかなか買えないですから、いい時代になったものです。
さて、そのamazonの売上に大幅に寄与したレコメンデーションで使われていることで
おなじみ(協調フィルタリングという手法です)のデータマイニングですが、
現在の私のお仕事の一つだったりします。
IT業界でもBIからマイニングを使った予測~最適化といった分野は最近の流行になってきてますね。
せっかくなので、似顔絵だけの人じゃないことをアピールしてみようかと思います(^^;
使用するデータはボウリングのスコアです。ちょうどPCで記録をつけていたので、
2009/10/2~2011/8/6のおおよそ2年間分で285ゲーム分のデータが
あるので、それを使います。
1.データの理解
まずは基本的な統計値とヒストグラムからデータの概要をつかんでみます
平均 156.3 中央値 156 最頻値 159
若干いびつさはありますが、基本的には正規分布に近い形だといっていいでしょうね。
残念ながらマイボウルで投げてても130以下のスコアも結構な数出ちゃってますね。
逆に200近辺はそこそこ出るんですが、210以上はなかなか出ない傾向ですね。
ちなみに今年の4月からのスコアを抽出した時のヒストグラムはこんな感じです。
ちょうど新しいボウルを買ったんですが、苦労してることがよくわかりますね。
いいときとわるいときの差が激しいです(^^;
2.クラスタリングでスコアパターンを把握する
投げてると「あ、今回はいけてるな」とか「これはダメなパターンかも」というのは
感覚的に分かってるものです。とはいえ実際にスコアとしてどういうパターンに
分けられるかとというと、人の力では説得性のある分け方をするのは困難です。
そんな時にはクラスタリングが有効です。決められた分析基準によって自動的に
分類してくれます。
それぞれのクラスタの特徴をあげるとこんな感じでしょうか?
クラスタ1:ほぼ平均的、どちらかというと前半低調、後半追い上げ型
クラスタ2:不調パターン
クラスタ3:ほぼ平均的だが、クラスタ1とは逆に後半が低調
クラスタ4:やや好調型。意外なことにクラスタ3より1Fの平均が低い
クラスタ5:好調型。200Overの基本パターン
かなりきれいに分けてくれたような感じです。
3.ディシジョンツリーで200Overのパターンを分類する
ボウリングのスコアの目標はとりあえず200オーバーを目指すことです。
では5F目までのスコアがどういう状態であれば、200オーバーできるか
ディシジョンツリーで分類してみます。
もうちょっとツリーがきれいに分岐したらよかったんですが、残念ながら
枝は一階層しか広がりませんでした。全体では200Overの数は17/285ですので、
5.96%です。約6%ですね。これがもし5F目までで96以上のスコアを出していた場合、
13/40で、32.5%の確率に跳ね上がります。
逆に96未満であれば、4/245で1.6%の確率でしか200Overにならないということになります。
う~ん・・・5Fまででほぼ100点とっていても約3割しか200Overにならないということは、
いい調子がなかなか最後まで続いていかないんでしょうね~
逆に5Fでのスコアが95だったとしても、今までの傾向でいうと200Overする可能性は
ほぼないということになります。普通に考えたら全然200over狙えるスコアなんですけどね。
せっかくなので、数値予測の場合のディシジョンツリーも作ってみました。
こちらで見ると5Fでのスコアが96以上の時は、期待されるスコアは、191でした。
ここの期待値が200越えてくれるといいんですけどね~
ということで、データマイニングの代表的な手法で簡単な分析をしてみました。
実際の業務ではこういった探索・知見発見型のマイニングではなく、予測型のマイニングばかり
してるのですが、それはまた機会があれば・・・
そういえば、統計やマイニングを扱ってる研究会をみかけないですね。
矢本さん、立ち上げましょうか?(ニーズがありそうならですけど)
P.Sリクエストをいただいたので、青木先生も描いてみました。
もう手のポーズはこれしかないかなと(^^;
Yシャツは青の縦じま入れたほうが良かったかもしれませんね~
どうでしょう?似てますかね?