2019年5月14日のブログ記事一覧-ウィリアムのいたずらの、まちあるき、たべあるき

ベイズつかったABテストの分析方法とか、聞いてきた！

2019-05-14 08:47:05 | Weblog

５月１２日

実務で活かしたい人のための実践的ベイズ統計モデリングハンズオン
https://ml-for-experts.connpass.com/event/127987/

を聞いてきたので、内容メモメモ

・Google Colaboratoryが便利
　Googleドライブ→その他→Colaboratory
　Notebookで開く　GITHUB（他人のNotebookも）

今日の学習目標
・統計モデリングは何か
・ベイズ統計
・何回かやってみる

具体的な課題
・広告効果の推定：バナー広告のA/Bテスト
　主な参考資料Pythonで体験するベイズ推論
　　PyMCによるMCMC入門

・自己紹介
　チョコボールの秘密を解明している人

・資料はセミナー終了後に公開
　ソースはGithub　https://github.com/tok41/SeminarBayes
　（クレジットつけていただけると・・・）

・統計モデリング
　統計の手法を使ってシステムを記述／理解／説明
　→AIの基礎

・統計モデリングの活用の段階
　クラス分類
　（１）データの確率密度関数の推論（推論段階）→こっちに重きを置かれている
　（２）分類（決定段階）

統計モデリング
・統計学の手法→確率密度関数
　正規分布と家庭
　データからパラメータ（平均と分散）
　評価、活用

・なぜ、確率密度関数なのか
　計測には誤差が生じる
　コストなどの問題ですべての情報を使えない

・考え方
　平均と分散の推定
　　最尤推定（点推定）：予測はY%
　　ベイズ推定（分布推定）：予測値はX%～Y%の間

・ベイズ的考え方のメリット
　　チョコボールを１０個買ってエンゼルが１個も出ない
　　　最尤推定　０％→過適合
　　　ベイズ推定　まだ出ていない→事前分布で正則化
　→データが潤沢にあれば、どうでもいい問題。
　　異常発生率
　　効果測定
　※ポイントはデータが少ない時

・ハンズオン
　クリックされる確率：数％未満
　特にバナー広告のABテスト

　問題設定
　　・バナー広告のA/Bテスト
　　　効果をクリック率でみる
　仮定、モデル設定
　　・クリックイベント：i.i.d（独立同分布）確率Θ
　　→ベルヌーイ分布（３つだと、多項分布

　確率分布の選び方
　　李さん
　　　０以上で試行回数あり：２項分布、ベルヌーイ分布
　　　０以上、上限なし：ポアソン分布
　　連続
　　　範囲ー∞～∞　正規分布、ｔ分布
　　　範０～∞　ガンマ分布

　　状態の差：回帰モデル
　　個人差　混合モデルGLMM,階層モデル
　　　　　　　　　参考：データ解析のための統計モデリング入門
　モデリング：抽象化

・データの生成
真のクリック率の設定
シミュレーション（）
stats.bernoulli(p=p_a_true).rvs(size=N_a)

最尤推定→頻度
・尤度関数を最大化するΘ→平均になる

ベイズ推定
・ベイズの定理
　　手元にあるデータから、クリック確率を求める
　　　→尤度と事前分布の積
　　尤度と事前分布はともに関数→解析的に計算できないことも

　計算可能な事前分布を選ぶ（共役事前分布）
　近似計算
　　変分法
　　ラプラス近似
　　MCMC

・共役事前分布
　尤度と事前分布を書けてもおなじかたち
　　→事後b８運否はβ分布

・事前分布
　　何も情報ないときは一様分布
　
MCMC
　Pymc3で計算
　AB分布の差を確認
→差の分布：わからないことがわかる（０のライン）

・ベイズ的A/Bテスト
　効果の見積もり
　CTRの増加の見積もり
　期待収益の見積もり
※このときに、平均値をいれてしまうとよくない
　→事後分布のばらつきを考慮する

サンプル間の増加率の割合を見る：差を取って、割合にする
rift_posterior = (trace_banner['theta'][:, 1] - trace_banner['theta'][:, 0])/trace_banner['theta'][:, 0]
　２０％以上→そのところで積分を取る

・期待収益の見積もり
　商品の成約率→多項分布・共役事前分布ディリクレ分布
　クリック確率
　期待収益：

　　インプレッション　→　　クリック　　　→　　　コンバージョン
　　　　　　p(click|imp) p(cv|click)

・ベイズ推定
　分布の形で出てくる→期待値で報告、範囲で報告、中央値を出す？
　分布：データのあいまいさ

・データモデルは簡単なものから複雑なものへ
　（いきなり複雑なものからやると、無駄になることも）

・緑本「データ解析のための統計モデリング入門」久保拓弥
　　MCMCとかも載ってる

ランキングに参加中。クリックして応援お願いします！

記事一覧 | 画像一覧 | フォロワー一覧 | フォトチャンネル一覧

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

アクセス
閲覧	1,428	PV
訪問者	536	IP
トータル
閲覧	34,909,573	PV
訪問者	8,721,422	IP
ランキング
日別	811	位
週別	545	位

	【11/18】goo blogサービス終了のお知らせ
	【PR】プロ直伝・dポイントをザクザクためる術
	【PR】安い＆大量の「訳あり商品」がヤバい!
	【コメント募集中】「GWに旅行予定」はありますか？

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

ベイズつかったABテストの分析方法とか、聞いてきた！

カレンダー

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

ベイズつかったABテストの分析方法とか、聞いてきた！

カレンダー

ログイン

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ