みなさん、こんばんは。矢本です。
村山さん、静永さんのデータ解析や統計の記事に刺激を受けたし、
前日の小山さんが玉(球?)について語っていたので、
今日のテーマはプロ野球のデータ解析にしました。
プロ野球のデータを探してみると、ネットにかなり詳しく出ています。たとえば
http://baseball.yahoo.co.jp/npb/stats/batter?series=1
打率、各塁打数、出塁率、盗塁、三振、四球・・・・。
ふーん。成績の項目は一杯あるけど、いったい何を見ると一番いいんだろう、誰がいい選手なんだろう・・。
打率の高い選手? ホームランの多い選手? それとも打点の多い選手?
めんどくさいからこの成績データをまとめてマップしてみようと思った次第です。
いいかえると、
→ 目的変数なしで、全部のデータ項目をまとめた評価軸を作ってしまえ!。
→ それなら主成分分析!。
てなわけで、2010年の各選手の打撃成績を主成分分析(2軸)でマップしてみました。
エクセルにフリーのソフトをアドインするとできるし、項目を2軸にまとめる理屈もあるのですが、詳細は省略しますね。
分析の途中のデータを見ると、2軸何なのか推定できるのですけど、
・第1軸(縦軸)は総合的な出塁および進塁力、
・第2軸(横軸)は長打力
という感じになるようです。
やはり巨人は打撃が良い選手が多いんですね(昨年)。だから強いんだ。逆に横浜は打撃の良い選手が少ない。
ついでに、2009年もやってみました。やはり2軸は同じです。
うーん、多分グラフ右上の方の選手は良い選手なのだろう・・・。
(注)グラフの横に第一主成分は1-2番打者にふさわしい能力と書いたけど間違っていました。
第1主成分は出塁・進塁力だから打者全員に重要なので、訂正します。スミマセン。
実は、私は野球をほとんど見ないので、この結果が感覚的に正しいのかどうかがよくわかりません(笑)。
でも右上の方の選手の名前は聴いたことがあるから多分有名で成績もいい選手ですよね?
やっぱり自分が知っているネタじゃないと自信がなくて、考察不足ですね。
次回は違うネタにします(笑)。