3月12日
ステアラボ人工知能シンポジウム2017
https://stair.connpass.com/event/48746/
を聞いてきた。まずは、一番初めの論文紹介をメモメモ
(論文紹介は4人ある。そのうちのはじめの先生)
■ごあいさつ
■最近の重要な論文の紹介-テキストとの対応づけによる映像の理解に関連して-
中島先生
・これまでの研究
映像に関するアテンション
ディープセマンティックフィーチャー:要約、プライバシー
・映像の表現
紹介する論文
・アテンションの仕組み
・メモリ付ニューラルネット
・Adversarial Examples
・アテンションの仕組み
アテンションの利用例
画像・映像・テキストをエンコード
時間(?)的に変化させる場合も
アテンションの基本的な仕組み
画像→CNN(たたみこみ)→位置が残るところでやめておく
言語→LTSM--------↑
応用
・翻訳、変換的なタスク
画像・映像のキャプショニング 言語観翻訳
・Visal Question Answeringのタスクでも
単純な作業では実はよく内面もありそう
言語しか見ないと正しく出るが、画像を入れるとよくないことも
画像理解に向けた可能性
人が映像を見るとき
外部情報のようなものはない?それでも人は、どこかに着目している
・メモリつきニューラルネットワーク
Differentiable neural computer(DCN)
DCNのすごいところ
読み込み、書き込みの仕組みもすべて微分できるカタチ
メモリの読み込み、ソフトアテンション
メモリの使い方も学習する
塩蔵理解で役に立ちそう?
RNNタイプのネットワークは本当に「メモリ」として働いているのか/役に立っているのか
3D-CNNのほうが性能がいい
Mean/Maxプーリングでも性能に大きな変化がない
シーン、人物を記憶する外部メモリの可能性
もっと単純なネットワークがいい?学習が難しそう
・Adversarial examples
人には分からないくらいのノイズを画像に足しただけでDNNは簡単にだませる
→DNNの線形性が問題
新しいロス関数として、xとXばーのロス関数をあわせたものを使うと汎用性能が上がる?
映像関連のタスクを考えてみると・・・
映像は似たようなフレームばかり、データ数もそんなに多くはない
使えるデータセット・・・(時間切れでせつめいできず)
ステアラボ人工知能シンポジウム2017
https://stair.connpass.com/event/48746/
を聞いてきた。まずは、一番初めの論文紹介をメモメモ
(論文紹介は4人ある。そのうちのはじめの先生)
■ごあいさつ
■最近の重要な論文の紹介-テキストとの対応づけによる映像の理解に関連して-
中島先生
・これまでの研究
映像に関するアテンション
ディープセマンティックフィーチャー:要約、プライバシー
・映像の表現
紹介する論文
・アテンションの仕組み
・メモリ付ニューラルネット
・Adversarial Examples
・アテンションの仕組み
アテンションの利用例
画像・映像・テキストをエンコード
時間(?)的に変化させる場合も
アテンションの基本的な仕組み
画像→CNN(たたみこみ)→位置が残るところでやめておく
言語→LTSM--------↑
応用
・翻訳、変換的なタスク
画像・映像のキャプショニング 言語観翻訳
・Visal Question Answeringのタスクでも
単純な作業では実はよく内面もありそう
言語しか見ないと正しく出るが、画像を入れるとよくないことも
画像理解に向けた可能性
人が映像を見るとき
外部情報のようなものはない?それでも人は、どこかに着目している
・メモリつきニューラルネットワーク
Differentiable neural computer(DCN)
DCNのすごいところ
読み込み、書き込みの仕組みもすべて微分できるカタチ
メモリの読み込み、ソフトアテンション
メモリの使い方も学習する
塩蔵理解で役に立ちそう?
RNNタイプのネットワークは本当に「メモリ」として働いているのか/役に立っているのか
3D-CNNのほうが性能がいい
Mean/Maxプーリングでも性能に大きな変化がない
シーン、人物を記憶する外部メモリの可能性
もっと単純なネットワークがいい?学習が難しそう
・Adversarial examples
人には分からないくらいのノイズを画像に足しただけでDNNは簡単にだませる
→DNNの線形性が問題
新しいロス関数として、xとXばーのロス関数をあわせたものを使うと汎用性能が上がる?
映像関連のタスクを考えてみると・・・
映像は似たようなフレームばかり、データ数もそんなに多くはない
使えるデータセット・・・(時間切れでせつめいできず)