3回に1回は、二度目に会う人に村上と言われる村山です。
まあ確かにありそうでなかなかない苗字ですけどね(^^;
さて前回、鴨志田先生にクラスタリングについてリクエストをいただいたので、
もう少しクラスタリングについて語ってみます。
クラスタリングは、ある分析基準に従って、データを集団(クラスター)に
自動的に分類する分析手法です。分析基準は様々な方法があるようですが、
それは研究者の領域ですので、我々ビジネスパースンは、分類することで、
何を得るかがポイントになります。
矢本さんが、プロ野球の打者を使った主成分分析をやられていたので、
同じくプロ野球の投手のデータ(2011/08/19現在)を使います。
分析の目的は
「12球団の成績と投手の分類構成がどのような関係にあるか?」
にします。
ということで、まずは例によってクラスタリングをさくっとやってみます。
今回は、分類数を指定して10個に分類しています。
クラスターには、私のほうで名前をつけました。
話題のルーキー「斎藤 佑樹」は、「先発:4,5番手」クラスターに入りました。
ライバルだった「田中 将大」は、11人しかいない「先発:エース」クラスターに入ってます。
ずいぶん差がついちゃったみたいですね~(^^;
次にこの結果を元に球団ごとの投手構成がどうなっているかクロス集計で見てみます。
球団は左から順に勝ち星が多い順に並んでます。SB、F、YSは大幅に勝ち越し、
L、BSは大幅に負け越し、後は5割付近をうろちょろといった感じなので、その
3グループで見ればいい感じです。
まず目を引くのがSB(ソフトバンク)なんとエース級が3人(杉内、和田、ホールトン)もいます。
不調な投手も少ないですし、そもそも投げている人数が少ないということは、怪我や故障も
少ないのでしょうね。現在の快進撃は安定した投手陣の影響が大きいといえるでしょう。
逆にBS(ベイスターズ)はひどいもので、先発4,5番手の位置づけの投手が主力を担ってます。
主力で働ける中継ぎが少なく、セットアッパーや抑えも固定できていないようです。
全体的に調子が悪いので、SBより8人も多い26人が既に登板してます。1軍と2軍を
行ったり来たりしている選手が多いのでしょうか?
面白いのがドラゴンズで中継ぎエースと抑えがしっかりしているため、数が少なく、
かつ中継ぎが異様に多いですね。継投で上手く勝ってるチームカラーがよく出ているのでは
ないでしょうか?
このようにクラスタリングのいいところは、様々な要素を全部ひっくるめて分類してくれるため、
データの理解が簡単に進むところです。今回クラスタリングに使った要素は16要素ありますが、
これを一つ一つ組み合わせてクロス集計したりすることを考えるとゾッとしますよね~
社内で顧客分類をする時とかに使ったりすると社内での評価が変わるかも?
ちなみに今回の分析は、Excel2007とSQLserver2005、2008があれば無償で使える
データマイニングアドインというアドインツールで作成しています。
興味があるって人がいれば、教えちゃうかも?
P.S大塚さんには申し訳ないんですが、今回似顔絵はありません(^^;
その代わりといってはなんですが、せっかく本を買って勉強したので、
萌えっぽい絵をさらしてみます。せっかくなので、大草さんが家でもボイストレーニングできるように
簡単なGIFアニメにしてみました♪
これ、簡単なゲーム要素つけてスマートフォン向けのアプリにしたら、売れないですかね?(^^;
どうでしょう?>IT系の方