ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

最強のIT系かあちゃんからたかしへ

2016-12-01 17:17:32 | Weblog
って、なんなのこれw

最強のIT系かあちゃんからたかしへのアドバイス
http://togetter.com/li/299807

(以下太字は上記サイトからの引用)
たかしへ あなたの立てたスケジュール読みました。作成工数だけでバッファがありません。予想外の事態が起きた時はどうするのですか?残業でカバーですか?お客様が参加するイベントが入っていません。都度調整ですか?事前に提示していないと都合がつかなくても納期延長できませんが大丈夫ですか?

とか
たかしへ たかしの会社の決算報告書読みました。真っ赤ですね。SIerは稼働率をあげることで売上を回復できますが、人材以上の売上にはならず利益は増えません。利益をあげるには製造コストを3分の1以下にさげるか、売価をあげるしかありません。なにか策を考えてみてください。

とか

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Microsoft Cognitive Toolkit(旧CNTK)の話を聞いてきた!

2016-12-01 13:13:06 | Weblog
11月30日
html5ロボット部 第7回勉強会
スマートファクトリーとRoboticsAPI&CNTK
に行ってきた!ので、内容をメモメモ




■ロボット部
 昨年はコミュニケーションロボット
 今回ミニチュアスマートファクトリーを作ろう!プロジェクト

■ミニチュアスマートファクトリーを作ろう!プロジェクトについて
・株式会社アールティーについて
 ロボットのいるくらしを考える

・ミニチュアスマートファクトリーについて
 IoTの次は、ロボットがきます
・インダストリー4.0
 工作機械やロボットをネットにつなげて見える化
 工場のロボットはまだネットに繋がっていない
・Webからなにか出来そうじゃないですか
  W3CのロボットAPI
 ロボットのソフトを作る人が人手不足 
・ロボット紹介
  Raspberry Pi Mouse
  Raspberry Pi Arm  開発中
・低価格ロボットアーム
  ヴィストンからもでてる
  台車に着くアームロボット RTで
  Arduinoで動くアームロボット
  7Bot
・協働型ロボット
confidencialみたいなので省略するけど、
 たくさんあった


■WebエンジニアのためのロボットアームのAPIを考えてみる
・自己紹介
 日経System IoTの連載
 デバイスWebAPIコンソーシアム
 Github
  エンオーシャン、DLNA

・ロボットアームに近いのは・・・
 ネットワークカメラ ONVIF
  デバイス発見、PTZ制御、ビデオストリーミング

 PTZ:ぱん、ちると、ズーム
 ロボットとの違い:関節の数が違う

 安いネットワークカメラはあるけど・・・
 日本は安全だけど・・
 ネットワークカメラ;どこ経由してるんだ?

・ONVIF仕様概要
  NVT:ネットワークカメラのこと
  NVC:カメラにアクセスするもの(コントロール)

 NVT発見にWS-Discovery
 メッセージはSOAPベース(2008年策定なので)

・PTZコマンド
  コンティニュアスムーブ
  アブソリュートムーブ
  相対ムーブ
  ホームポジションにいく
  セット プリセット

 GetStreamUri:動画
   RTP

 GetSnapshotUri:静止画(JPEG)

・デモ

・ロボットアームAPIはこんなんはどう
 やはりイマドキの方式で
 機器発見
  Bonjour
 コマンド HTTP POST、WebSocket
 セキュリティー
  最低でもユーザー認証:ダイジェスト認証当たりがよい?
  TLS?

■Microsoft Cognitive Toolkit
・自己紹介

・機械学習
  AIのなかに機械学習
  機械学習のなかにディープラーニング

 質問に答える
  AかBか:分類アルゴリズム(2項分類)
  異常か:異常検出
  数値予測:回帰
  どのような構成か:クラスタリング(正解パターンがない)
  何をすべきか:強化学習

 訓練データを準備→機械学習→モデル

 Azure Machine Learning:従来型の機械学習
  Azure ML Studio:ブラウザだけあればできる

・Microsoft Cognitive Service
  身近なAIっぽいアプリ:顔写真年齢
  キャプション作成

 WebAPI経由で利用できる 人工知能パーツ

 便利なAPIが大量にある

・ディープラーニング
  CNTK:先月くらいまで→(名前変わった)→Microsoft Cognitive Toolkit
  オープンソースのディープラーニングのツールキット
   Tensor Flowなんかと同じ
   Skype Translator 無料で翻訳
  ImageNet:2012年からディープラーニング
       2015年マイクロソフト

 CNTK:CogNitiveToolKit

・デモ

Azure NC-Instanceで実行

 https://cntk.ai

動画

■次回
・2017年1月18日 Google 来週くらいに公募
・9回
 12月22日 マイクロソフト Intel Joule ubuntu 応募できる
 ラズぱいマガジン じゃんけん大会で

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

深層学習を利用した映像要約を聞いてきた!

2016-12-01 08:42:49 | Weblog
11月30日第7回ステアラボ人工知能セミナーに行ってきた!
ので、その内容をメモメモ




■センターのイントロダクション
 今日の講演者

■深層学習を利用した映像要約への取り組み NAIST 中島悠太先生
・これまでの研究
 マルチメディアの研究
 画像のプライバシー処理
 どこに注目するのか、解析法、映像要約
 AR,VR

・今日のゴール
 映像要約がどんなものか知ってもらいたい
 映像から意味を抽出する方法の技術的な俯瞰

・本日の話題
 そもそも映像要約って何?
 新しい映像要約に向けた取り組み
 映像の意味の獲得
  系列意データのマッピング
  映像と文の意味空間へのマッピングの学習

・今日の内容は大谷まゆさんがメインでやってます

・映像要約とは
 何も起こらない映像:ざらにある→すこしでも面白く出来ないか?
 映像要約は、
   長い映像を短くしたり、
   漫画風にしたり、
 IBM:ワトソン ホラー映画のトレーラーの学習
  →典型的なショットを自動で取ってみた:まだまだ

・映像要約の大まかな流れ
  映像分割
   映像:カットで構成→カットを取ってきて分割
      カットがない→何かの切り替わり
  特徴量抽出など
  サンプリング

・映像要約手法で考えるべきこと
  どうやって映像を分割する
  どんな特徴量・メタデータを使う?
    低レベルVS高レベル
  何を要約映像に含める
    Coverage/Representative vs Importance/Interestingness
    このみ
      日本人は感動モノに弱い:全米が泣いた
      アメリカはどんぱち
    一覧性が必要なときもある
  どうやってみせる?

・どんな特徴量・メタデータを使うか
   低レベル
     色
     テクスチャ BoVWばっくおぶびじゅあるわーず
     タグ:オブジェクト→メタデータ
     イベント
     内容が持つ構造:1イニング、1回裏→野球の構造
     (反則?)キャプション:「人が笑っています」→画像処理しなくても・・
     外部データ
   高レベル

・なにを要約に含める
  カバレッジ:映像全体
  importance:猫が好きな人は、ねこのところだけ
 →どういうところを目指すか

・いくつかの実例
  アメフトの放送を要約 Babaguchi 2004
    コメントと画像→何が起こっているかわかる
  Fisher vector/SIFT desc類似度を測るニューラルネットGong2014
  いろんな特徴量ごちゃ混ぜ、目的関数、Gygli 2014
    目的関数最大化

・映像要約の問題とは
 映像の意味をどれだけ獲得できるか

新しい映像要約に向けた取り組み
・より高レベルの意味を、より一般的に
  部分映像→高レベルな意味空間
  ドメインが分からなくても
・高レベルな意味って結局何?
  色
   形容詞
  オブジェクト
   名詞
   名詞+動詞
  イベント、キャプション
   文・文章
・意味のカバレッジの最大化
  今までは低レベルの特徴量
  なるべく広げられるような
  入力テキストによるimportanceに基づく要約

・映像の意味の獲得
 映像と文を同じ高次元空間にマッピング
 一般物体検出による方法(eg Li 2010)
  おじさん  1
  おばさん  0
   :
   :
  ギター   1
 →動詞にかかる情報はとれない

・じゃあどうしよう
 テキストを高次元空間にマッピングする方法はある
  単語の分散表現 word2vec→リカレントニューラルネット
 映像も高次元空間にマッピングできる
  CNN
  3D-CNN
  フレーム特徴量+RNN
 Deep ニューラルネットでできそう

・DNNによる文と映像のマッピング
   文章→DNN  マッピング
   映像→DNN  マッピング

・系列データのマッピング
 文も映像も系列データ
  文の場合は単語の並び
 CNN+Pooling(Pan2016など)
  Mean Poolingでひとつのベクトルに
  FC層でマッピング
 3D-CNN(Tran2015など)
  時間方向にも広がったカーネル
 RNN
  ループ処理で系列データを扱う
  隠れ状態h(t)を経由してこれまでの情報を渡す
 LSTM
  Self-loopを導入して勾配が伝播する経路を確保
   Wがかからない経路→勾配
 GRU:
  LSTMよりシンプル
   Wを経由しないパスがある

・RNNを使った系列データモデリング
  GRUを2段に重ねる
  LSTMを一段どこかに入れて後で取り出す

・ネットワークの形は出来た
  近いところにマッピング
   →共通の特徴空間にマッピングするように映像・テキストのネットワークを学習
  ユークリッド距離によるロス
   →一点に集まってしまう
  ランキングロス
   ポジティブペア:関係有り
   ネガティブペア:関係なし(ランダムに)

・A Man Playing the keybord
 ピアノを弾く?キーボードをたたく?

・やってみた
 テキストLSTM 映像CNN+Mean Pooling
 ネットワーク構成
  テキストとウェブ画像の特徴ベクトルの平均を使う
  CNNとRNNは事前学習
  データセット
  結果

・まとめ

・今後の展開
 映像の意味理解のアプリケーション
  映像へのコメントの提案
  映像に反応するチャットボット(しゃおみー)
  Story telling(ブログ生成、ニュース画像生成)
 課題
  映像理解には、どんなメモリ処理・データ構造が必要?
  ウェブ上の雑多なデータから効率よく学習は可能?
  映画などはまだまだ難しい(汎化できていない・要求が高い)

・Take Home Message
 映像要約はいろいろな要素を持つ研究です
   意味空間へのマッピング
   映像と文の類似度の学習
 映像からの意味の抽出は面白い
 
Q&A
 画像としてみたほうがいい?映像としてみたほうがいい?
  画像と映像は実は違う
   画像:ねらうのではずれない
   映像;はずれる(1枚みても、なにやってるかわからん?)
  動詞:何枚かあったほうがいいけど、1枚でもわかんないわけではない
   →アクション認識
 評価指標
  難しい
  映像要約データセット
  ゆーじーびでお
 マッチング
  類似度を見ている



  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする