今日(6月2日)AWS Summitにいって聞いてきた話のつづき
AWSによる番組を中心としたビッグデータ基盤の構築と活用事例
講師:テレビ朝日の人
をメモメモ
・自己紹介
・テレビ局もビッグデータを活用する時代です
視聴率がすべて
ビッグデータというワードも:2年くらい
1.番組を中心としたビッグデータとは
2.サービス事例
3.システム構築、運用について
テレビ局と視聴者の接触面
通信を使うことが多くなってきた
双方向ログがビッグデータになる
番組を中心とした情報は宝の山
海外テレビ局もビッグデータを活用
データはあるけど、どう使う?
テレビ局が活用するビッグデータは、番組を中心として構造化
番組サイトアクセスログ、番組メタデータなどなど・・
番組を中心としたビッグデータの構造
価値が高い・・
番組視聴ログ→技術的には可能だが、ユーザー説明、インターネット結線率で問題
番組連動ログ→セカンドスクリーン企画、番組終了から1時間以内にプレゼント応募(準視聴ログ)
番組サイトアクセスログ
番組関連グッズを買った
SNSログ、ユーザー属性データ、番組メタデータ→放送局でなくても集められる
テレビ局しか集められないデータに注力
→自社で収集
SNSなど、他社でも集められる
→他社とデータ連携
ビッグデータをLink IDで統合管理
ログイン不要のLINK IDをユニークキーにしてデータ管理
クッキーのID:ユーザーを識別できるけど、特定できないID
IDの発行は1400万を超えた:1週間でも100万UU
パーソナルデータ
識別・特定情報=個人情報
識別・非特定情報=ここでのテーマ
非識別・非特定情報
2.サービス事例
アウトプット3つ
(1)レコメンド
(2)O2Oトラフイック誘導
(3)マーケティングデータ
あなたにぴったりのオリジナルランキングをハイブリッドキャストにてお届け
20万パターンの情報の中からユーザーの嗜好に応じたコンテンツを出しわけ
テレビとインターネットのデータを連携
スマートフォンとテレビ:ペアリング
テレビコンテンツのパーソナライズ化
番組の視聴可能性層に対する
新たなプロモーション手段についても検討
番組を見たであろう人をターゲティング
テレ朝アプリ:音声キャッチ
テレビ朝日の番組見てたらマイルがたまってハワイに行ける?
→ビッグデータとして管理
3.システム構築、運用について
データウェアハウス:RedShift
BIツール:たぶろう
たぶろうでマーケティングデータを集計
2年前はAmazonEMRとHiveの構成で
プログラミングベースの運用
→インプットデータのクレンジングが進み、
汎用性よりも運用効率を重視
EMR:スポットだとコスト安い
RedShift:PostgreSQL互換、たぶろー
来年変わるかも。きっちりシステム化するのではなく
BIツールの導入段階は開発を外注して(あるべると)ノウハウを得ることに
データマートの設計、データビジュアライズ
最終的には内製
たぶろーで極力SQLを実行しないようにテーブル設計
開発期間は3カ月
テーブルをきめて、クレンジングして入れていく
AWSによる番組を中心としたビッグデータ基盤の構築と活用事例
講師:テレビ朝日の人
をメモメモ
・自己紹介
・テレビ局もビッグデータを活用する時代です
視聴率がすべて
ビッグデータというワードも:2年くらい
1.番組を中心としたビッグデータとは
2.サービス事例
3.システム構築、運用について
テレビ局と視聴者の接触面
通信を使うことが多くなってきた
双方向ログがビッグデータになる
番組を中心とした情報は宝の山
海外テレビ局もビッグデータを活用
データはあるけど、どう使う?
テレビ局が活用するビッグデータは、番組を中心として構造化
番組サイトアクセスログ、番組メタデータなどなど・・
番組を中心としたビッグデータの構造
価値が高い・・
番組視聴ログ→技術的には可能だが、ユーザー説明、インターネット結線率で問題
番組連動ログ→セカンドスクリーン企画、番組終了から1時間以内にプレゼント応募(準視聴ログ)
番組サイトアクセスログ
番組関連グッズを買った
SNSログ、ユーザー属性データ、番組メタデータ→放送局でなくても集められる
テレビ局しか集められないデータに注力
→自社で収集
SNSなど、他社でも集められる
→他社とデータ連携
ビッグデータをLink IDで統合管理
ログイン不要のLINK IDをユニークキーにしてデータ管理
クッキーのID:ユーザーを識別できるけど、特定できないID
IDの発行は1400万を超えた:1週間でも100万UU
パーソナルデータ
識別・特定情報=個人情報
識別・非特定情報=ここでのテーマ
非識別・非特定情報
2.サービス事例
アウトプット3つ
(1)レコメンド
(2)O2Oトラフイック誘導
(3)マーケティングデータ
あなたにぴったりのオリジナルランキングをハイブリッドキャストにてお届け
20万パターンの情報の中からユーザーの嗜好に応じたコンテンツを出しわけ
テレビとインターネットのデータを連携
スマートフォンとテレビ:ペアリング
テレビコンテンツのパーソナライズ化
番組の視聴可能性層に対する
新たなプロモーション手段についても検討
番組を見たであろう人をターゲティング
テレ朝アプリ:音声キャッチ
テレビ朝日の番組見てたらマイルがたまってハワイに行ける?
→ビッグデータとして管理
3.システム構築、運用について
データウェアハウス:RedShift
BIツール:たぶろう
たぶろうでマーケティングデータを集計
2年前はAmazonEMRとHiveの構成で
プログラミングベースの運用
→インプットデータのクレンジングが進み、
汎用性よりも運用効率を重視
EMR:スポットだとコスト安い
RedShift:PostgreSQL互換、たぶろー
来年変わるかも。きっちりシステム化するのではなく
BIツールの導入段階は開発を外注して(あるべると)ノウハウを得ることに
データマートの設計、データビジュアライズ
最終的には内製
たぶろーで極力SQLを実行しないようにテーブル設計
開発期間は3カ月
テーブルをきめて、クレンジングして入れていく