ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

状態空間モデルとカルマンフィルタ、階層ベイズとMCMC法なんかを聞いてきた

2013-09-10 23:13:21 | AI・BigData
筑波大学大学院文京キャンパス公開講座
「統計的解析によるビジネスデータの高度活用」
を聞いてきた!その内容をメモメモ




マーケティングデータを題材にモデリングをどうするか?
ベイズ→横断的な形で
統計  大雑把に3つ
 ・ネイマン・ピアソン:繰り返し実験(頻度論)
 ・フィッシャー   :尤度にすべての根幹をおく
 ・ベイズ統計:

最尤法;統計の中ではデータとパラメータ
 →パラメータを1つに決めうち

ベイズ:データもパラメータも確率変数
 →確率分布にしたがっている

<<ベイジアンモデリング超入門>>
・統計モデル
 数式によって表現される数理モデルの一種
 変数で表現し、変数間の関連は数式
  一般の数理モデル:不確実性をふくまない
  統計モデル:不確実性を明示的に取り込む
   →ノイズの影響を受けるので一意に決まらない
    不確実性を確率の概念で表現するとき
    その数理モデルを統計モデルと呼ぶ

尤度関数と最尤法
尤度:確率密度関数と裏表
  対数尤度を最大にするようにパラメータを決める
  既知の確率分布(パラメトリック)なら、最尤法でパラメータが決められる

統計的モデリングのパラダイムシフト
  従来
   パラメータの個数:小さくするのが美徳(けちの原理)
    →記述能力低い
   パラメータを増やしたら?:説明力を高めることはできる
    →汎化能力は低下する

  対策
   パラメータも統計モデルで表現する

ベイズの定理
  さまざまな情報を分布の形で捕らえる
    平均→分布
  通常は尤度関数しかつかわない
  ベイズは尤度関数・事前分布→事前分布を使う

ベイズモデルの構造

  α  2層目:ハイパーパラメータ
  ↓
 θt   1層目:αが与えられたときθの挙動を表現
  ↓
 Yt
     データ:θがあたえられたときのデータ

t:時系列だと時点、階層ベイズだと人

事前分布の決め方:4つ
・主観的に決める
・モデル化しているデータとは別の情報源からとる
   異種情報統合
・自然共役事前分布(conjugate prior)
  決まった分布を使う
・平滑化事前分布

分布
・事前分布、事後分布、尤度関数が同じ形の分布:共役
  →けいさんべんり
指数型分布族

状態空間モデル
前とほぼ一緒、ちょっとだけずらす

ベイズモデルのタイプ:αの推定をどうするか
 フルベイズ法:ベイズで行う
 経験ベイズ:最尤法で行う

<<状態空間モデル>>
・時間経過に伴って、変化がある
  →通常の統計的アプローチで対応できるか
   システムノイズを使う
  →観測モデルとシステムモデルの2つの方程式

・状態ベクトル
   状態変数 1こ1この変数
   状態ベクトル 状態変数をまとめた
 状態空間モデル

・線形ガウス型状態空間モデル
   観測するモデル
   yt=HtXt+Wt
   時間進展するモデル;システムモデル
   Xt=Fxt-1+Gvt
・鎖状(さじょう)構造グラフィカルモデル
  図で書く

・一般状態空間モデル
  正規分布ではないが既知の確率分布

・同時分布
 以下の2つのマルコフ性
   1個前がわかると、次が規定できる
   Xtが決まるとYtが決まる
 がきまると、簡単になる

周辺分布
 どちらかだけの分布
条件付分布

・状態空間モデル:3つの分布
  1期先の予測の分布:昨日までの予測
  フィルタ(ろは)分布:今日までのデータで予測→オンライン推定
  平滑化分布:すべてのデータがある→バックワード推定

・分布のアップデート

  一期先予測尤度の最大化

・固定区間平滑化
  すべてのデータを与えた元で、任意の時点
 固定ラグ平滑化
  亜種(あるていど)

・状態推定
  時間更新ルーチン
    一期先予測
    フィルタリング
    一時点尤度計算
   →対数尤度
  パラメータ固定ルーチン
  パラメータ最適化ルーチン

事例1:線形ガウス型
市場反応分析:市場反応モデル
  →集計型事象反応モデル
 通常:静的集計型市場反応モデル
  →もっともメジャー
  →不十分
・売価下がるといっぱい売れる
・エンド陳列売り上げのびる
・山ずみ→売価下がる:トレードプロモーション

ロスリーダー
 赤字になるけど、集客するための商品

・コーヒーは1度買ったらすぐには買わない
  →時間がないとわからない

・前半
  値引き→売り上げはねる
 後半
  値引きしても→売り上げあがらない
 というとき
  →時間がないとわからない

・潜在変数
  →観察されない、観察できないメカニズム

・仮定が必要:モデル化の仮説

・動的市場反応モデル
  時変係数モデルの考え方
    理論駆動の考え方
    データ駆動の考え方
  マーケティングは、理論駆動の考え方がない
  →データ駆動で

・時変係数モデルのモデル化
   ノイズを最尤法で

・状態ベクトルの推定
   1期先予測
   フィルタ:カルマンフィルタで
   1期だけ固定区間平滑化する

→DLMダイナミックリニアモデル
  Rでも推定できる

事例2:山積み陳列の実施の有無

・分布に違いがありそう

・モデル化の仮定

・状態空間モデル表現
  システムモデル
  観測モデル
・一期先予測
  状態なので、積分はいらず、状態の足し算
・フィルタリング(非ガウス、離散)
・平滑化(非ガウス、離散)


<<階層ベイズモデル>>

フルベイズ:
  MCMC法(マルコフチェーンモンテカルロ)
   山全体(事後分布)がどうなっているかが関心
  やること
   事後分布のサンプリング
  ステップ
   1.エルゴード性を有している(時間平均と空間平均が一致する)
     マルコフ連鎖のシミュレーションを通じたサンプリング
   2.モンテカルロ積分
アルゴリズム
  初期値
  マルコフ連鎖*
  動く前と動く後の比α
  乱数
  αと乱数により、
  動いたときと初期値のどちらかをとる 
  初期値の部分を捨てる

*マルコフ連鎖:
  M-Hサンプリング
    ・ランダムウォークで決める

  完全条件付き分布のとき
   →ギブスサンプリングが使える
    αがいつも1
    (シングルムーブの特殊系)

事前条件=人との間
尤度=自分の中のこと
事後条件が知りたい=尤度と事前条件がわかればよい

  他人のデータも使って事前条件を作る
  共役:ギブスサンプラー使える

DAG(だぐ:だいれくてぃっどあさいんにんぐぐらふ)

Rのパッケージ bayesm
データがあれば、階層ベイズできる
mcmcpack

winbugs:独立のソフト
→ギブスサンプラー

事例3:ブランド選択

非集計型市場反応モデル


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

汚染水にしろ、オリンピックにしろ、土木作業ロボットだろうね!

2013-09-10 11:45:40 | ネットワーク
福島第一原発の汚染水問題。
一気に解決したいなら、土に埋めるしかないだろう。

  タンクの周りに、ゼオライトかなんか巻き、
  土でタンクを覆い
  その上をコンクリートですっぽりかぶせる

コンクリートで覆ってしまえば、その上にタンクを置いても大丈夫?
まあ、基本は、水を止めるには、土嚢を積むってことっすかね?

こんな、危険な(放射能があるので)仕事をするのは、土木作業をする遠隔ロボット?




そして、東京オリンピック

これも、フル稼働させるとなると、人よりロボット?
となると、土木作業をする遠隔ロボット?

ってことで、時代は、土木作業をする遠隔ロボットになりそうだ・・・

P.S

もっとも、東京オリンピックは7年先。
それまでに、東京に地震とか、来ないのだろうか・・・??

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする