ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

BIと、BA(データマイニング)、BM(ビジネスモデリング)をざっくり分けてみた

2013-06-04 18:21:00 | AI・BigData
こんなかんじかなあ・・・

  BI
  BA→データマイニングなどのビジネスアナリシス
  BM→ビジネスモデリング

をざっくり分けると・・
(独断と偏見です。何の根拠もありません)




■BI
データ解析(1、2変量中心)

<<主な内容>>
1変数
 代表値
   平均値(メジアン、モード)、分散(標準偏差)、歪度、尖度
 図
   ヒストグラム、箱ひげ

2変数
  質的データ
    クロス表
  量的データ
    代表値:相関係数(共分散)
    図:散布図

多変数→2変数
  OLAP
    ドリル、スライス、ダイス

検定
  t検定
  分散分析(ここじゃない?)
  カイ2乗検定(ここじゃない?)




■BA
多変量解析、予測、データマイニング、機械学習

<<主な内容>>
多変量解析
  主成分分析
  因子分析
  多次元尺度法
  (多変量回帰→回帰に)
  数量化Ⅲ類、Ⅳ類

クラスタリング
  階層型クラスタリング
  非階層型クラスタリング
    k-means
    k-nn

分類
  判別分析
  サポートベクタマシン
  ニューラルネットワーク
  回帰木
  決定木

相関
  アソシエーション分析

回帰
  一般化線形モデル
    一般線形モデル
      多変量解析
      数量化Ⅰ類
    ロジスティック
    ポアソン




■BM
統計的なモデルを作成する

<<主な内容>>

ベイズ関係?
  階層ベイズ
  確率過程
   ディリクレ
   中華レストラン
  LDA

グラフィカルモデリング
  共分散構造分析(構造方程式モデリング、SEM)
  ベイジアンネットワーク

パス解析




なかんじかしら・・
理解していない手法もあるので、まちがってるかもしれないし、
ビミョーなものも、いくつもあるので(特に回帰は、どっちでも・・というのが)
大雑把な話です。


参考

エンジニア長期インターン GREE Studio 2010 5日目
http://labs.gree.jp/blog/2010/09/1310/

(この内容をBAとしました)


データ分析の基本まとめ
http://blog.goo.ne.jp/xmldtp/e/7b2e81bc9c3e49f2b304e55bbb12b1d8

(この内容をBIにしました)

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

「クラウドで失敗するための10の秘訣」って(^^;)

2013-06-04 15:20:48 | ネットワーク
Interopで、@ibuchoが講演するらしいよ・・・

三井情報の

Interop Tokyo 2013 出展のご案内
http://www.mki.co.jp/event_news/event_news_2013/interop2013.html


の「■弊社ブース  ステージプレゼン」の6/13(木)15:30 - 16:00



  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

1時間後の競馬の予測をするために、データクレンジングを2時間しても、意味は無い。

2013-06-04 11:53:30 | AI・BigData
データクレンジングはたしかに大事。
でも、銀行の名寄せとは違い、
データ解析の場合、
「手持ちのデータをすべてクレンジングしないと処理できない」
というわけではない。

そもそも、
1時間後の競馬の予測をするために、データクレンジングを2時間しても、意味は無い。
クレンジング後に予測をして、レースが終わった後に当てても、何の意味も無い。

この場合、データクレンジングよりも、予測時間のほうが重要になる。




では、どうするのか?

この場合は、乱数を振る。

すべてのデータをクレンジングし、処理する時間がないのであれば、
限られたデータをクレンジングし、処理するしかない。

データを(無作為に)限定し、絞り込むために、乱数をつかって、
無作為抽出する。

そして、抽出されたデータの散布図、クロス集計、ヒストグラム、箱ひげ図などを
みながら、おかしなデータをチェックし、クレンジングする。

このとき、さらに詳細な、決定木とかを分析する時間がないのであれば、
データだけをみて判断するとかも、ありなのではないか?




利益に見合わない解析(費用のほうが、利益より多額になる解析)や、
結果を知っても意味ない解析(予測しようとする時点よりも後に予測結果がわかる解析)は、
解析する意味が無い。

あくまでも、時間と費用に見合った解析をするべきで、
それを前提として、精度を追い求めることになる。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

「合格体験記」はSNS時代にはすごく危険

2013-06-04 09:00:48 | ネットワーク
きけんです。きけんすぎますう(>_<!)

顔写真+大学・学部名+氏名→Facebookで検索

某(中央線と総武線は通るけど、山手線は通らない)学院の広告ですね、わかります・・・


予備校の「合格体験記」はSNS時代にはすごく危険
http://anond.hatelabo.jp/20130602135046


P.S 
これって、企業サイトの採用のところの、
「先輩の紹介」とかいうのも、そうだよね・・・

あれは、一般に部署名とか名前が書いてあるわけで、これをFacebook
なんかで照合すると・・・

・・・婚活とか、ヘッドハンティングに、利用できる?

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする