ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

RNNとLSTMの基礎を聞いてきた!

2017-04-23 18:24:46 | ネットワーク
4月22日
「ディープラーニング」入門6時間集中講義/自然言語処理とニューラルネットワーク
に行ってきた!のつづき。、第二部をメモメモ




6時間集中講義 自然言語とニューラルネットワーク
第二部 RNNとLSTMの基礎

・共通の土台のRNN
 Bot:ああいえばこういう
   パターンマッチング→W3Cのドラフトが貧弱:割り切り方
   →人間がシナリオを書くところに本質

 知識の表現:エンティティモデル
  →自然言語の豊かさと比べると・・

・RNNの驚くべき能力について
 機械が文法を理解できている?兆候
  画像認識:明確
 →超えたもの
   文の意味、分法構造の理解
 Hochrelter
 Karpathy論文の学習:RNN

 RNNの能力について LSTM
  Hpchreiterら 90年代の論文
  REBER GRAMMAR
   人間は人工的な文法を理解できる
   →機械も学習できる
  LSTMはこの文法を学習できる

  掛け算の練習
  TEMPORAL ORDER

  パターンを機械が学習する

・RNNによる文の構成
 文章を作る
  5億文字
 Wikipedia風の文章を作る→なにしているの?

 かるぱしー
  でたらめだけど、数学の論文
 →LaTeXの文法を理解している

 Linuxのソースコードを入れたら、Cの文法を理解できる
 赤ん坊の名前
 →ハナモゲラ語もできる?

・マシンは簡単な文法は理解できる
 形式的に記述された文法はできる?

・RNNとは何か
 RNNはどう作られるか
  いままで:縦に並べる
  RNN:横に並べる:中間層を横に結びつける
   →たんによこにならべるのではなく、
    同じ形のユニットを並べる
    バイアスを共通に

  Uをかけて
  Bをたし
  ふぁいをかける

 データの塊が流れる:テンソルフロー

 単純な表記法にする

 RNN:重みも一緒・パラメータW共有
    横に並べる


 再帰
 再帰のループを繰り返しに

 ループが回る(再帰系)
 展開系

・シーケンスtoシーケンス
 RNN:いろいろパターンある
  同じパターンの繰り返しとか

・基本式φ(WX+B)
 入力Xのとき
  h = φh(Ux+bh)
 H
  o=φo(Vh+Bo)
 O

 RNNを式で表す
  Hにwがかかる
  ht=φh(Uxt+Wht-1+bh)
 隣の隠れ層Wht-1:新たに追加された層

・いったん失敗する
 シーケンシャルなデータ:たくさんある
  20年前の失敗:勾配が計算できなくなる
   Bengioの論文
 →状態が毎回書き換えある:不安定になる

・復活する
 Bengio,Hochreiterがもう一回引き上げる

LSTM
・標準的スタイルになる
 RNN:重みが一緒
 RNN:3つの段階
  入力から隠れ層へ
  前の隠れ層から現在の隠れ層へ
  隠れ層から出力へ

 隠れそうh:内部状態
  毎回書き換えられるのでうまくいかない
  LSTMもうひとつの状態はあまり変わらない:メモリー
   メモリーはあまり変わらない
 LSTM
  O

 →C

  H

  X


 再帰形で表すと
  Cのループ
  hのループ
→記憶を持つ
 Ctのループの重みを1に固定する:カルーセル:同じ状態を保持する
 記憶を忘れるゲートがある:重みを0にする
→コンスタントカルーセルとフォアゲットゲートが大事
 メモリーを操作しているのと同じ

・LSTMの振る舞いを理解する
 シーケンスで入ってきた文字列をシーケンスで返すとき
 →マークダウンの内部にいると興奮するニューロン
 末尾に興奮
 改行
  :
 →でも、大部分はわからない・・・

LSTM→忘却ゲートをもつRNN
  Sigmoid関数:S字状 0と1の間
 ゲートをシグモイド関数に任せる

  LSTM
                ht(上位層へいく)

 Ct-1 → 記憶→  状態 → Ct-1

      ↑

 ht-1→入力        ht(隣に行く)
      ↑
      X

・LSTMの中身を詳しく見る
 のは、書いてあるから自分の家でゆっくりみてね!


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

「自然言語とニューラルネットワーク」をまずはメモメモ

2017-04-23 14:25:35 | Weblog
4月22日
「ディープラーニング」入門6時間集中講義/自然言語処理とニューラルネットワーク
に行ってきた!ので、まずは、第一部をメモメモ




6時間集中講義 自然言語とニューラルネットワーク

バベルの塔の絵

今日の3部構成
・自然言語と人工知能
・RNNとLSTMの基礎
・Googleニューラル機械翻訳

ニューラルネットと自然言語のつながり
2012年におきたこと
 1.Googleの猫
 2.ImageNetで、Alexnet
 3.ひんとんが、音声認識に飛躍的
今日は第三の音声→テキストのはなし
今また、新しい動き
 ・Google機械翻訳
 ・デファレンシャル ニューラル 
   →第4のモデル:ターゲットはヒューリスティック推論

AI技術を構成する複数の流れ
・統計的分析(機械学習)
・ヒューリスティックに構築された対話アシスタント
・DeepLearning
・言語に対するアプローチ
→いまDeepLearning
 次、言語理解:転換点

第一部:自然言語と人工知能
・言語と人間の知能
 身近なもの:機械翻訳、
       ボイスアシスタントシステム
          →検索を実行するのがかぎ
          →ニューラルネットとは違うアプローチ
 知識体系の機械化
 Googleはかわってるっていう話

・言語と人間の知能
 生物の知能:目ができた→ニューラルネットの発展
  Pax-6:動物の目の遺伝子は同じ
 →DeepLearningが得意なところ

 人間:言語
  コミュニケーションは、動物にはいろいろある
  ソーシャルネットワーク
  言語能力に生物的基礎
   さいもんふぃっしゃー FOXP2:言語能力に関係する遺伝子
    →鳥にも存在。さえずりを真似する鳥とまねできない鳥
   ゴリラやチンパンジーとのちがい2箇所、ねずみは3箇所しか違わない
   ネアンデルタール人と同じFOXP2

・マックス・プランク研究所
 ”Language and Genetics"
   遺伝子からのアプローチ:わかっていない

・言語能力を持つのは人間だけ
  CNN:視覚のモデル化→とどかない
  言語:生物の進化の中で、ごくごく最近(6~10万年前に突然変異)

  文字:さいきん
  メディア
  機械
  コンピュータ
  インターネット

  言語能力がターニングポイント

・技術の進歩と人口
  文字の登場と数学(2000~3000)
   →爆発を準備

・シンギュラリティはおきている
  人類:地球にインパクト
 シンギュラリティ→機械が人間より賢くなったら・・・
  人間が愚かしくなれば、シンギュラリティを迎えるのでは?

・コトバと文字(Dyslexia)
  人間は、ほとんど同じ:実は違う
  Dyslexia→文字が読めない

 言葉の理解
  ウェルニッケ→ブローカー→脳
 文字
  視覚や→39野、40野:しゃべる→言語理解へ

 学習によって作られる回路
  39野40野に障害が起きるとつながらない
 
認識の発展
・外界の把握
・認識の飛躍
・知識の蓄積:メディア
・数学的な対象認識
→知能は重層的

・言語への言語学からのアプローチ
・チョムスキーの観察(1)
 聞いたこともない文章を理解できる
  →文を生成する文法が帰納的

・リカージョンの能力
  はと:3以上わからない
  さる:一般化できない
  あかんぼうは、ものには名前があることを知っている

・コトバの獲得
  うまれたところの言語の能力を短い期間で習得、その能力が消えない
   →強烈に学習
   →大量なデータではない:刺激の貧困
    共通な構造が埋め込まれている

・バイオリニスティック;生物学的言語学
  チョムスキー:みにまりすと
 なぜわれわれだけ、言語能力?

・最近のトピックス
   機械翻訳
   ボイスアシスタント

・翻訳
  Google翻訳 日本語→機械翻訳に影響 
  Google翻訳 103言語

  Google リアルタイムカメラ翻訳

  Microsoft Translator
    Skype X AI翻訳

・ボイスアシスタント
  アマゾンエコー:あれくさ
  Apple Siri
  MS こるたな
  Google Now→Google Grass

  2番目に始めた国:日本
   日本語:貢献→むずかしい
   聞いた音→文字?
     例:えーけーびーふぉーてぃーえいと、かかくどっとこむ、しゃらんきゅー
   →音声辞書をつくる:ワードピース
     英語:ワードの区切るある 日本語:くぎりない
     音声:くぎりない
   →じつはディープラーニング関係ない
  RNNで画期的
   音声をテキストに変える:ボイスアシスタントの出発点
   実はその先はたいしたことしていない。

・あれくさの実装
 マッチングすれば、定義されたIntentNameに対応付ける
  HelloIntent こんにちは
  HelloIntent おい
 スピーチレットでうける

 文字にするのはディープラーニング

 もじにしたら、対応する印テントを探す

 いんてんとがみつかったらOnIntentでやったことを実効

・ああいえば、こういう
  →かしこくない

・こるたな
  ListenForに相手がしゃべる言葉を書いておく
  Feedbackにかえすことば

  フランス語をListenForして中国語をFeedback

・Watson
  どれかをしゃべったら

  Grammerタグないのワイルドカードのアスタリスク
   *、$、%、#・・・マッチングする
  W3Cのマッチングで言語観を定義

・なんについてのことか、大まかにまとめる

・全部羅列している
  BOT

・Facebook Bot エンジン
 組み合わせの呪い

 ボット
   ルールベース
   マシンラーニング
 →核心部分は命令実行型

 たくさんの枝分かれ→いつかきっと破綻する

・ディープラーニングではない
 入り口だけ

・チューリングテストを突破したBot
 Botエンジンの特徴
  →話をはぐらかせる
 watson:会話を続ける→ごまかしていく

 Bot:こういうノウハウ大事!
  →すべてのパターンは想定できない

・IBM Watson
 Watsonは自然言語を解析する能力を持っている(部分的)
  質問の分析→検索→もう一度検索→評価

・人工知能と検索技術
 ニューラルネット:入り口部分だけ、検索技術が重要
  →コンシューマーターゲット
    IT技術と広告と検索を結びつける
    検索や広告:パーソナルアシスタントシステム
     広告もそう。広告の中に自分たちの探したいものがあれば
     ニューラルネットでリーチしえていない
・Google Knowlage Graph
  完璧な検索エンジン:あなたが意図したものを返す

 大規模グラフ処理
  Facebook:グラフをコントロールするものは、世界をコントロールする
 それまで
  大規模データ処理の第一世代への転化
  第二世代へ転化
   バッチ処理からリアルタイム Open Graph
   MapReduceをやめて、カフェインにPregalへ
  →Googleかつ:Knowledge Graph
  →知識データ処理:
    Google Caffeine→Pregal →Google+
    Apache Graph

 Moonshot

 Facenookの10年計画
  高度にパーソナライズかされたターゲット広告
  多様な人工知能サービスを可能にするSearch

 グラフのスキーマ;エンティティモデル
  言語の表現と知識の表現
   エンティティ:プロパティ:実態
  アインシュタインの誕生日
   アインシュタイン:エンティティを検索
   プロパティ:誕生日を探す
    →わかる
  全部じゃない:グラフデータは少ない

 schema.org→スキーマの提供
   ボキャブラリー
   型をもつ is-a
 プロパティを持つ has-a

 おさまらないもの:action→プロパティの一部

・HTML5マイクロデータ

 タグをつける(Itemprop)
 →自然言語で抽出できないので、タグをつける
 →かしこいか?Botとにてる
   →言語を理解していない

 Google Now カードシステム
  JSONのタグがメールに埋め込まれている
  受け取ったエージェントが解析している
 →タグ付けして

・自然言語から見たグラフスキーマの「貧困」
  リンネの分類学
 グラフ検索で荒れれるもの
  プロパティがないと、検索結果を返す
 ぐぐった結果でもう一回検索を繰り返す

 Schema.org:本当は貧弱(自然言語に比べると)

 タグ付け:英語がわかること必要
   →英語がわかるためにたぐづけしているのでは?

・ワードネット
  なんでもはいっている

・GAAFのAIへの取り組み
 →ボイスアシスタントシステムをしっかりやろう
  Facebook:執事をつくる(人間を助けるシステム)

  Amazon:AIは数十年続くトレンドの初期段階
   エコーとあれくさ
    ボイスアシスタント戦争
    あれくさ;プライバシー

  Apple:上品
   Siriをサードパーティに開放
   スマホの電池
   ユーザーのプライバシーを守る:デファレンシャルプライバシー
   スマホの情報をクラウドに飛ばさない
   キラー・ユーザー・エクスペリエンス

→ボイスアシスタントと自動車で食い込んでいく

  Google
   ラリーペイジ:世界のすべてを理解する。それが人工知能
   Elon Musk:それじゃスカイネット
   ラリーペイジは特殊

 GAAF(がーふ)
  消費者にターゲット
  違いもある:Google 究極のAI

・グラフの遍在と人工知能の未来
 自然言語とグラフ構造
  Watsonでさえ、自然言語を構造化されていないデータとしている
  →構造化されている
   タグ付けを人間がやっていることが問題

 自然言語のグラフの中心は動詞

・Scene Graph
  画像から、あれもあるこれもある→関係を出す
  →このグラフを機械では作れない
   でも、アルバイトは作れる
  →でも、つまんない文章(まちがってはいない)

  イメージキャプショニング:まちがえる
  その前に音声のキャプショニングが先
  →リアルタイム翻訳

・グラフの遍在と「すべてを知ること」
 究極の人工知能
 世界のすべての情報:把握できない?→次元の呪い
 世界のすべての情報を知る必要はあるか?たぶん、ない
 すべての知っているシステムは効率的なの?→集中になる
   →分散されてもたれていることで確実になる
 Wikipediaは50Gくらいしかない
   全員がもっていればいい
 科学:わからないことを解決している
   なぞ→科学のターゲット

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする