11月30日
第7回ステアラボ人工知能セミナーに行ってきた!
ので、その内容をメモメモ
■センターのイントロダクション
今日の講演者
■深層学習を利用した映像要約への取り組み NAIST 中島悠太先生
・これまでの研究
マルチメディアの研究
画像のプライバシー処理
どこに注目するのか、解析法、映像要約
AR,VR
・今日のゴール
映像要約がどんなものか知ってもらいたい
映像から意味を抽出する方法の技術的な俯瞰
・本日の話題
そもそも映像要約って何?
新しい映像要約に向けた取り組み
映像の意味の獲得
系列意データのマッピング
映像と文の意味空間へのマッピングの学習
・今日の内容は大谷まゆさんがメインでやってます
・映像要約とは
何も起こらない映像:ざらにある→すこしでも面白く出来ないか?
映像要約は、
長い映像を短くしたり、
漫画風にしたり、
IBM:ワトソン ホラー映画のトレーラーの学習
→典型的なショットを自動で取ってみた:まだまだ
・映像要約の大まかな流れ
映像分割
映像:カットで構成→カットを取ってきて分割
カットがない→何かの切り替わり
特徴量抽出など
サンプリング
・映像要約手法で考えるべきこと
どうやって映像を分割する
どんな特徴量・メタデータを使う?
低レベルVS高レベル
何を要約映像に含める
Coverage/Representative vs Importance/Interestingness
このみ
日本人は感動モノに弱い:全米が泣いた
アメリカはどんぱち
一覧性が必要なときもある
どうやってみせる?
・どんな特徴量・メタデータを使うか
低レベル
色
テクスチャ BoVWばっくおぶびじゅあるわーず
タグ:オブジェクト→メタデータ
イベント
内容が持つ構造:1イニング、1回裏→野球の構造
(反則?)キャプション:「人が笑っています」→画像処理しなくても・・
外部データ
高レベル
・なにを要約に含める
カバレッジ:映像全体
importance:猫が好きな人は、ねこのところだけ
→どういうところを目指すか
・いくつかの実例
アメフトの放送を要約 Babaguchi 2004
コメントと画像→何が起こっているかわかる
Fisher vector/SIFT desc類似度を測るニューラルネットGong2014
いろんな特徴量ごちゃ混ぜ、目的関数、Gygli 2014
目的関数最大化
・映像要約の問題とは
映像の意味をどれだけ獲得できるか
新しい映像要約に向けた取り組み
・より高レベルの意味を、より一般的に
部分映像→高レベルな意味空間
ドメインが分からなくても
・高レベルな意味って結局何?
色
形容詞
オブジェクト
名詞
名詞+動詞
イベント、キャプション
文・文章
・意味のカバレッジの最大化
今までは低レベルの特徴量
なるべく広げられるような
入力テキストによるimportanceに基づく要約
・映像の意味の獲得
映像と文を同じ高次元空間にマッピング
一般物体検出による方法(eg Li 2010)
おじさん 1
おばさん 0
:
:
ギター 1
→動詞にかかる情報はとれない
・じゃあどうしよう
テキストを高次元空間にマッピングする方法はある
単語の分散表現 word2vec→リカレントニューラルネット
映像も高次元空間にマッピングできる
CNN
3D-CNN
フレーム特徴量+RNN
Deep ニューラルネットでできそう
・DNNによる文と映像のマッピング
文章→DNN マッピング
映像→DNN マッピング
・系列データのマッピング
文も映像も系列データ
文の場合は単語の並び
CNN+Pooling(Pan2016など)
Mean Poolingでひとつのベクトルに
FC層でマッピング
3D-CNN(Tran2015など)
時間方向にも広がったカーネル
RNN
ループ処理で系列データを扱う
隠れ状態h(t)を経由してこれまでの情報を渡す
LSTM
Self-loopを導入して勾配が伝播する経路を確保
Wがかからない経路→勾配
GRU:
LSTMよりシンプル
Wを経由しないパスがある
・RNNを使った系列データモデリング
GRUを2段に重ねる
LSTMを一段どこかに入れて後で取り出す
・ネットワークの形は出来た
近いところにマッピング
→共通の特徴空間にマッピングするように映像・テキストのネットワークを学習
ユークリッド距離によるロス
→一点に集まってしまう
ランキングロス
ポジティブペア:関係有り
ネガティブペア:関係なし(ランダムに)
・A Man Playing the keybord
ピアノを弾く?キーボードをたたく?
・やってみた
テキストLSTM 映像CNN+Mean Pooling
ネットワーク構成
テキストとウェブ画像の特徴ベクトルの平均を使う
CNNとRNNは事前学習
データセット
結果
・まとめ
・今後の展開
映像の意味理解のアプリケーション
映像へのコメントの提案
映像に反応するチャットボット(しゃおみー)
Story telling(ブログ生成、ニュース画像生成)
課題
映像理解には、どんなメモリ処理・データ構造が必要?
ウェブ上の雑多なデータから効率よく学習は可能?
映画などはまだまだ難しい(汎化できていない・要求が高い)
・Take Home Message
映像要約はいろいろな要素を持つ研究です
意味空間へのマッピング
映像と文の類似度の学習
映像からの意味の抽出は面白い
Q&A
画像としてみたほうがいい?映像としてみたほうがいい?
画像と映像は実は違う
画像:ねらうのではずれない
映像;はずれる(1枚みても、なにやってるかわからん?)
動詞:何枚かあったほうがいいけど、1枚でもわかんないわけではない
→アクション認識
評価指標
難しい
映像要約データセット
ゆーじーびでお
マッチング
類似度を見ている