9月28日、第5回 ステアラボ人工知能セミナーを聞いてきた。
聞いてきたのだがあ・・どこまで理解したは、疑問。
まあ、メモメモしてみる・・・
・ステアラボの紹介
2015年にできた
研究の専門機関(学部・大学院とは独立)
・このセミナー
毎月1回やりたいな 次回 ベイズ最適化
・今日の講演
マチューブロンデル先生
機械学習
factarization machine
その場で質問してね!
・Higher-order factarization Machines
(高次ファクタライゼーションマシン)
今まで2次→高次へ
・回帰分析
特徴ベクトルXからYの予測
訓練データ:YベクトルとXベクトル
ゴール
モデルパラメータの推定、
予測
・線形回帰
Y(x;w):=(W,X)=Σwjxj
W:重み
長所
予測値はo(d)のオーダー
wの最適解が得られる
短所
単純すぎるモデル
・問題の解決
多項式回帰
2次形式を加える
長所
より複雑:適応できる
最適化問題
短所
コスト増:高次元に向いていない
・カーネル回帰(kernel)
カーネル関数を使う
長所
非線形モデルができる
短所
データの数に依存(訓練データが多いほど、計算に時間)
→ビッグデータに向いていない
・Factorization Machines(FMs)
共通のパラメータを使う(ばーPjの内積)
パラメータが少ないほうがいい
長所:計算量すくない
短所:pの学習 ローカルミニマム、初期値
・応用2つ
推薦システム
欠損しているところの予測 FMsでできる
データをyとxの形に変える
one-hot encodingで行列
特徴量を持っている(ユーザー属性・映画の属性がある)
one-hot encodingで行列→とてもスパースなバイナリデータ
→実数データとまぜまぜしないほうがいい
実数とバイナリだと、それをかけたときに意味があるか問題になる
・FMsリバイず(ICML)
ANOVAカーネル使う
こうすると、dのm乗かかる→効率的に
パラメータの学習
alternating mimimization パラメータの固定を繰り返す
損失と推測のトレードオフ
Anovaカーネルが計算できれば、HOFMもできる
・計算方法
stochastic gradient update
→DP
・どうやってANOVAカーネルを計算する?(ICML2016)
j番目の特徴を除く→外に出せる
・Anovaカーネルの評価
内部に再帰を使うと冗長になる
メモリテーブルを用いたトップダウン
ボトムアップ・ダイナミックプログラミング(DP)
・バックプロパゲーション(chain rule)
微分の計算
フォワードパス 計算するだけ
バックワードで 計算と逆順で微分を計算する
→anovaカーネルの勾配の計算もおなじかんじ
逆順で計算できる
まとめ
・高次のFMsはANOVAカーネルでできる
・O(dm)で計算できる方法を提案
実験結果の紹介
・link prediction
論文で共同で書く可能性があるかの推測
Q&A
・3次でいい?
3次以上必要なものは、まだ見つけていない
・高次の場合は、
テンソル分解でできる
・今回の例は回帰だったけど・・
損失関数をかえると、ロジスティック回帰に出来る
・データは?
パブリックドメインのもの
・自然言語処理では?
性能的にはいい
聞いてきたのだがあ・・どこまで理解したは、疑問。
まあ、メモメモしてみる・・・
・ステアラボの紹介
2015年にできた
研究の専門機関(学部・大学院とは独立)
・このセミナー
毎月1回やりたいな 次回 ベイズ最適化
・今日の講演
マチューブロンデル先生
機械学習
factarization machine
その場で質問してね!
・Higher-order factarization Machines
(高次ファクタライゼーションマシン)
今まで2次→高次へ
・回帰分析
特徴ベクトルXからYの予測
訓練データ:YベクトルとXベクトル
ゴール
モデルパラメータの推定、
予測
・線形回帰
Y(x;w):=(W,X)=Σwjxj
W:重み
長所
予測値はo(d)のオーダー
wの最適解が得られる
短所
単純すぎるモデル
・問題の解決
多項式回帰
2次形式を加える
長所
より複雑:適応できる
最適化問題
短所
コスト増:高次元に向いていない
・カーネル回帰(kernel)
カーネル関数を使う
長所
非線形モデルができる
短所
データの数に依存(訓練データが多いほど、計算に時間)
→ビッグデータに向いていない
・Factorization Machines(FMs)
共通のパラメータを使う(ばーPjの内積)
パラメータが少ないほうがいい
長所:計算量すくない
短所:pの学習 ローカルミニマム、初期値
・応用2つ
推薦システム
欠損しているところの予測 FMsでできる
データをyとxの形に変える
one-hot encodingで行列
特徴量を持っている(ユーザー属性・映画の属性がある)
one-hot encodingで行列→とてもスパースなバイナリデータ
→実数データとまぜまぜしないほうがいい
実数とバイナリだと、それをかけたときに意味があるか問題になる
・FMsリバイず(ICML)
ANOVAカーネル使う
こうすると、dのm乗かかる→効率的に
パラメータの学習
alternating mimimization パラメータの固定を繰り返す
損失と推測のトレードオフ
Anovaカーネルが計算できれば、HOFMもできる
・計算方法
stochastic gradient update
→DP
・どうやってANOVAカーネルを計算する?(ICML2016)
j番目の特徴を除く→外に出せる
・Anovaカーネルの評価
内部に再帰を使うと冗長になる
メモリテーブルを用いたトップダウン
ボトムアップ・ダイナミックプログラミング(DP)
・バックプロパゲーション(chain rule)
微分の計算
フォワードパス 計算するだけ
バックワードで 計算と逆順で微分を計算する
→anovaカーネルの勾配の計算もおなじかんじ
逆順で計算できる
まとめ
・高次のFMsはANOVAカーネルでできる
・O(dm)で計算できる方法を提案
実験結果の紹介
・link prediction
論文で共同で書く可能性があるかの推測
Q&A
・3次でいい?
3次以上必要なものは、まだ見つけていない
・高次の場合は、
テンソル分解でできる
・今回の例は回帰だったけど・・
損失関数をかえると、ロジスティック回帰に出来る
・データは?
パブリックドメインのもの
・自然言語処理では?
性能的にはいい
9月28日、ワークスアプリケーションの「COMPANY Forum 2016」開催ー人工知能の未来に、答えを。に行ってきた!(明日も行く予定だけど)
ので、午前中の基調講演を途中からメモメモ(20分くらい遅れた。HUEのデモの途中から)
■(途中から)HUEの説明
・検索:縦横無尽に検索、なんでも聞けばよい
自分がやり取りした
・「昇格候補」の検索:
→昇格候補を教えている。変えてもよい。学習する
昇格候補データが入っていなくてもリストアップできる
・メールに添付しなくてもDBにはいっている
→回収、集計
HUE上にあつまっていく→プログラミングの設計なしに
・業務に特化したAI
→予約しましょう!:便利になることを教えてくれる
→消しこみ:取引先が不明→これじゃないですか?:対策までサジェスト
→支払通知:マジックインポート ここに入れるべきというのを解析する
→応募者情報の登録:非定型でも
→採用業務→戦略
・外国でも:言語対応、かっこく業務対応はすでにしている
・BOT機能:タレントサーチBOT
BOT:チャット相手が機械→タレントサーチ
人工知能があれば、企業が変わる。HUEは1つの形
特別ゲスト
■商船三井システムズ 嶋氏(代表取締役 社長)
・HUEを導入しようと作業中
・自社紹介
ワークスアプリケーションズのcompanyは導入
子会社・現地法人の提携
one mol
AS400から(陸上・会場の人事)→companyで統合
・商船三井グループの挑戦
先進技術の早期活用を目指して
・HUE採用の背景
商戦三井グループの展開
ONE MOL 各事業部、連携推進の仕組みと高度な運用設計作り
・HUEの活用で描く未来
あるべき業務運用
更なるデータ活用
・HUE採用の決断に込めた思い
革新への期待
新しい技術に挑戦するなら早いほうがよい
→企業として挑戦をするという決断
・HUEを使ってみて当社のユーザーが喜び
世界の顧客にもHUEはすごいと言われてほしい
■鹿島建設 内田氏
・会計:第四世代
1:キーパンチ
2:オフコン・メインフレーム(自社開発)
3:サーバー、クライアント、Web化(第二世代のまま)
4:AI
・自社紹介
・これからの「100年をつくる」基幹業務システムとしての「HUE」の採用
・売上高約2兆円の事業規模を20年間支えたシステム(第三世代)の代替
これまで:複雑で高度な旧システム
唯一代替可能:あらゆる会計業務・法改正に対応するパッケージシステム
・最先端技術を活用したさらなる業務の高度化
画像認識、入力予測、データの持ち方、
・HUEを活用することで・・・
請求書処理:入力工数の大幅削減
出先→できるといなくなる・そこで入力
工事の損益見込みをリアルタイムで把握可能
・能う限り将来を見据えたシステム
10年20年使えるシステム
コレはよくなったとのユーザー評価を聞きたい
HUEが業務処理の変革に対応すると同時に
HUEがgy6オウム処理を変革するきっかけに
・HUEに対する2つの見方
なかったよねという見方
ふつうにあったよねという見方
→HUEの人工知能は、コンシューマーの世界では、実証されているものばかり
それをビジネスにいれた
人工知能をいれたのが重要ではない
→分散技術:小さなサーバーを大量に並べ、同時に処理を行うこと
一気に進化したのはここ数年
大量のデータ処理を瞬時に行うことで、圧倒的なレスポンス
すでに世界のトレンドは分散技術、それ以外の選択肢はない
→若い人は、分散技術以外は興味も持たない
→高コストかつ高難度
HUEはそれを実現:パッケージベンダーだから
→おそらく数百億
多くの技術を開発
しかし、すべての領域をカバーできているわけではない
・HUEの分散技術を公開します
世界で唯一、企業システムに使える分散技術、HUE PaaSをご紹介します
■HUE PaaS
デザインツール:画面を見ながら
ERPシステム:テンプレートを用意して、チャットBOTとかも
開発:Eclipseベース、Java,JSベース:お手本
プログラムを人工知能で作れば?
→現時点は難しい。人工知能がフォローしてくれる
隣の人が何開発している?がわかる
アクティビティログ→元に戻せる
Cassandraなどを使って分散フレームワーク
Cassandra:ERPだと、これができない、あれができない・・
→複合的に、でも難しさを隠蔽
テストデータ作成機能
・分散技術によるパラダイムシフトはすでに起きています。
分散技術があるから、人工知能がある
その進化にぜひ参加してください
■カーツワイル氏(人工知能研究の世界最高権威)
インテリジェンスの未来
(The Future of intelligence)
・モジュールがたくさん→パターン学習・実行
ヒエラルキーになっている
→50年前に到達
・2012年:How to create a mind
モジュール:3億個大脳新皮質にある
ラリーページに誘われた
人間の言語の理解:科学・音楽 人間だけ→大脳新皮質があるから
頭蓋骨を大きくするのでなく、クラウドで実現
・収穫加速の法則
情報技術は予測可能:指数関数的な成長
ムーアの法則は一例に過ぎない
110年間のコンピューティングの指数関数的成長
5nmになり、縮小できない→第6のパラダイム
情報は:デフレ率50%で下がっている
消費は;倍増(指数関数的に伸びている。図は対数プロット)
1990年後半に検索エンジン、WWW
通信も;倍増
クーパーの法則
インターネットホストも増えている:よそくできる
・人体・医療も予想できる
遺伝子シーケンス・組み換え
指数関数的に
データを理解、シミュレーション
心臓発作がおきても、普通に歩けるように
・スパコンの処理能力:対数プロット
→直線的に
太陽光発電も:対数プロット
・2020 3Dプリンタ
→宅配便はなくなる?
3Dプリンタバンド
メール添付でモノを印刷
・テクノロジーの縮小(小さくなる)
→血液細胞のデバイス
T細胞:がんに対しても→免疫システムの拡張
・VR・AR:今は目から
2030年:別の場所に移ったと感じるように
・思考そのものを、第二の脳で
認識の型
脳外科手術の最中:笑い出した?ユーモアというコンセプトを刺激
生物学的な脳
非生物学的な脳
・ゲーム領域
ジェパディー:ワトソン君がやぶる
バイオロジー
免疫システム
第二の脳
ティっピングポイント:12年後
将来的には、不死身?
■インタビュー
・HUEの感想
デモはすばらしかった。AIは全ての分野で行われている(ERPはおそいが)
人間の知能と人工知能の組み合わせ
・シンギュラリティの時期、予想よりも速くなっているのでは?
そう見えるけど、予定どおり
2016年の時点では、よそうどおり
多くのエビデンス:画像認識、あるふぁご、自動運転
2029年 人間と照合 2030年、取って代わる
シンギュラリティ:継続的に
・3つの革命
バイオテクノロジーの改革:遺伝子のアップデート
ナノテクノロジー:2020、2030年
免疫システムのロボット:人工知能
・Googleでの研究内容とゴールについて
ネオコーテックスシミュレーター
Google:ディープラーニング:テンソルフローで共有
Googleのゴール:カイゼン、スマート、検索での意味の理解
文書の意味まで
・カーツワイルさんが目指そうとしているところ
人間の言語を理解:意味まで
長期的な研究目標
・30年くらい:何を考えて→方向性
大規模で行うことが出来る:答えから質問を推測
ワトソンが勝った理由:人間よりも読んでいた(量をこなした)
10億の事例:画像認識
少ない情報でどうやって・・・AIでは話題
・中国が延びてきた
日本:かてないなあ~人工知能:Googleの後塵を拝す
日本は?
まず、ゼロサムの話ではない。中国対日本ではない
エンジニアは、世界中で共有できる
日本:高学歴
中国はたいへん勢いで投資→イノベーションなど最近投資
中国は成功すると思うが、それが日本に問題になるわけではない
・シンギュラリティ大学について
8年前 ピーターディアマンティス・ラリーページ
大学いるよね
直感:直線的→ゲノムを集める 指数関数的に伸びる
指数関数的な人を集める
様々な業界
サマープログラム:夏あつまって。日本からも来る、
エクゼクティブ、政府関係者も。
プロジェクトを自立的に作ってもらう
らーんばいどーいんぐ
・シンギュラリティ:ターミネーター?
いろんな映画ある
AIがなぜか、敵になっていて、戦う??
そうではなく、何十億というAIが存在する
自分の手が高層ビル作れない→機械を作る
人間を助けるもの
体内に入ってくる
諸刃の剣でもある:火
悪用する人も出てくる→課題
例;バイオ→テロリストの手に入れば・・・
高い優先順位でモラル必要
情報の入手:世界が危ない場所?
→世界の裏まで知ることが出来るようになったから
ネガティブ情報を入手しやすくなったから
テクノロジーの進展とともに、よくなった
ので、午前中の基調講演を途中からメモメモ(20分くらい遅れた。HUEのデモの途中から)
■(途中から)HUEの説明
・検索:縦横無尽に検索、なんでも聞けばよい
自分がやり取りした
・「昇格候補」の検索:
→昇格候補を教えている。変えてもよい。学習する
昇格候補データが入っていなくてもリストアップできる
・メールに添付しなくてもDBにはいっている
→回収、集計
HUE上にあつまっていく→プログラミングの設計なしに
・業務に特化したAI
→予約しましょう!:便利になることを教えてくれる
→消しこみ:取引先が不明→これじゃないですか?:対策までサジェスト
→支払通知:マジックインポート ここに入れるべきというのを解析する
→応募者情報の登録:非定型でも
→採用業務→戦略
・外国でも:言語対応、かっこく業務対応はすでにしている
・BOT機能:タレントサーチBOT
BOT:チャット相手が機械→タレントサーチ
人工知能があれば、企業が変わる。HUEは1つの形
特別ゲスト
■商船三井システムズ 嶋氏(代表取締役 社長)
・HUEを導入しようと作業中
・自社紹介
ワークスアプリケーションズのcompanyは導入
子会社・現地法人の提携
one mol
AS400から(陸上・会場の人事)→companyで統合
・商船三井グループの挑戦
先進技術の早期活用を目指して
・HUE採用の背景
商戦三井グループの展開
ONE MOL 各事業部、連携推進の仕組みと高度な運用設計作り
・HUEの活用で描く未来
あるべき業務運用
更なるデータ活用
・HUE採用の決断に込めた思い
革新への期待
新しい技術に挑戦するなら早いほうがよい
→企業として挑戦をするという決断
・HUEを使ってみて当社のユーザーが喜び
世界の顧客にもHUEはすごいと言われてほしい
■鹿島建設 内田氏
・会計:第四世代
1:キーパンチ
2:オフコン・メインフレーム(自社開発)
3:サーバー、クライアント、Web化(第二世代のまま)
4:AI
・自社紹介
・これからの「100年をつくる」基幹業務システムとしての「HUE」の採用
・売上高約2兆円の事業規模を20年間支えたシステム(第三世代)の代替
これまで:複雑で高度な旧システム
唯一代替可能:あらゆる会計業務・法改正に対応するパッケージシステム
・最先端技術を活用したさらなる業務の高度化
画像認識、入力予測、データの持ち方、
・HUEを活用することで・・・
請求書処理:入力工数の大幅削減
出先→できるといなくなる・そこで入力
工事の損益見込みをリアルタイムで把握可能
・能う限り将来を見据えたシステム
10年20年使えるシステム
コレはよくなったとのユーザー評価を聞きたい
HUEが業務処理の変革に対応すると同時に
HUEがgy6オウム処理を変革するきっかけに
・HUEに対する2つの見方
なかったよねという見方
ふつうにあったよねという見方
→HUEの人工知能は、コンシューマーの世界では、実証されているものばかり
それをビジネスにいれた
人工知能をいれたのが重要ではない
→分散技術:小さなサーバーを大量に並べ、同時に処理を行うこと
一気に進化したのはここ数年
大量のデータ処理を瞬時に行うことで、圧倒的なレスポンス
すでに世界のトレンドは分散技術、それ以外の選択肢はない
→若い人は、分散技術以外は興味も持たない
→高コストかつ高難度
HUEはそれを実現:パッケージベンダーだから
→おそらく数百億
多くの技術を開発
しかし、すべての領域をカバーできているわけではない
・HUEの分散技術を公開します
世界で唯一、企業システムに使える分散技術、HUE PaaSをご紹介します
■HUE PaaS
デザインツール:画面を見ながら
ERPシステム:テンプレートを用意して、チャットBOTとかも
開発:Eclipseベース、Java,JSベース:お手本
プログラムを人工知能で作れば?
→現時点は難しい。人工知能がフォローしてくれる
隣の人が何開発している?がわかる
アクティビティログ→元に戻せる
Cassandraなどを使って分散フレームワーク
Cassandra:ERPだと、これができない、あれができない・・
→複合的に、でも難しさを隠蔽
テストデータ作成機能
・分散技術によるパラダイムシフトはすでに起きています。
分散技術があるから、人工知能がある
その進化にぜひ参加してください
■カーツワイル氏(人工知能研究の世界最高権威)
インテリジェンスの未来
(The Future of intelligence)
・モジュールがたくさん→パターン学習・実行
ヒエラルキーになっている
→50年前に到達
・2012年:How to create a mind
モジュール:3億個大脳新皮質にある
ラリーページに誘われた
人間の言語の理解:科学・音楽 人間だけ→大脳新皮質があるから
頭蓋骨を大きくするのでなく、クラウドで実現
・収穫加速の法則
情報技術は予測可能:指数関数的な成長
ムーアの法則は一例に過ぎない
110年間のコンピューティングの指数関数的成長
5nmになり、縮小できない→第6のパラダイム
情報は:デフレ率50%で下がっている
消費は;倍増(指数関数的に伸びている。図は対数プロット)
1990年後半に検索エンジン、WWW
通信も;倍増
クーパーの法則
インターネットホストも増えている:よそくできる
・人体・医療も予想できる
遺伝子シーケンス・組み換え
指数関数的に
データを理解、シミュレーション
心臓発作がおきても、普通に歩けるように
・スパコンの処理能力:対数プロット
→直線的に
太陽光発電も:対数プロット
・2020 3Dプリンタ
→宅配便はなくなる?
3Dプリンタバンド
メール添付でモノを印刷
・テクノロジーの縮小(小さくなる)
→血液細胞のデバイス
T細胞:がんに対しても→免疫システムの拡張
・VR・AR:今は目から
2030年:別の場所に移ったと感じるように
・思考そのものを、第二の脳で
認識の型
脳外科手術の最中:笑い出した?ユーモアというコンセプトを刺激
生物学的な脳
非生物学的な脳
・ゲーム領域
ジェパディー:ワトソン君がやぶる
バイオロジー
免疫システム
第二の脳
ティっピングポイント:12年後
将来的には、不死身?
■インタビュー
・HUEの感想
デモはすばらしかった。AIは全ての分野で行われている(ERPはおそいが)
人間の知能と人工知能の組み合わせ
・シンギュラリティの時期、予想よりも速くなっているのでは?
そう見えるけど、予定どおり
2016年の時点では、よそうどおり
多くのエビデンス:画像認識、あるふぁご、自動運転
2029年 人間と照合 2030年、取って代わる
シンギュラリティ:継続的に
・3つの革命
バイオテクノロジーの改革:遺伝子のアップデート
ナノテクノロジー:2020、2030年
免疫システムのロボット:人工知能
・Googleでの研究内容とゴールについて
ネオコーテックスシミュレーター
Google:ディープラーニング:テンソルフローで共有
Googleのゴール:カイゼン、スマート、検索での意味の理解
文書の意味まで
・カーツワイルさんが目指そうとしているところ
人間の言語を理解:意味まで
長期的な研究目標
・30年くらい:何を考えて→方向性
大規模で行うことが出来る:答えから質問を推測
ワトソンが勝った理由:人間よりも読んでいた(量をこなした)
10億の事例:画像認識
少ない情報でどうやって・・・AIでは話題
・中国が延びてきた
日本:かてないなあ~人工知能:Googleの後塵を拝す
日本は?
まず、ゼロサムの話ではない。中国対日本ではない
エンジニアは、世界中で共有できる
日本:高学歴
中国はたいへん勢いで投資→イノベーションなど最近投資
中国は成功すると思うが、それが日本に問題になるわけではない
・シンギュラリティ大学について
8年前 ピーターディアマンティス・ラリーページ
大学いるよね
直感:直線的→ゲノムを集める 指数関数的に伸びる
指数関数的な人を集める
様々な業界
サマープログラム:夏あつまって。日本からも来る、
エクゼクティブ、政府関係者も。
プロジェクトを自立的に作ってもらう
らーんばいどーいんぐ
・シンギュラリティ:ターミネーター?
いろんな映画ある
AIがなぜか、敵になっていて、戦う??
そうではなく、何十億というAIが存在する
自分の手が高層ビル作れない→機械を作る
人間を助けるもの
体内に入ってくる
諸刃の剣でもある:火
悪用する人も出てくる→課題
例;バイオ→テロリストの手に入れば・・・
高い優先順位でモラル必要
情報の入手:世界が危ない場所?
→世界の裏まで知ることが出来るようになったから
ネガティブ情報を入手しやすくなったから
テクノロジーの進展とともに、よくなった
これ見るまで。ダイヤの最適化計算に時間がかかっているのかと思ってた。
それよりも、人身事故が起きると、作業が、たいへんなのね・・・
「人身事故発生時、鉄道側はどんな作業をしているのか?」鉄道職員の投稿が話題に
http://buzzmag.jp/archives/87275
それよりも、人身事故が起きると、作業が、たいへんなのね・・・
「人身事故発生時、鉄道側はどんな作業をしているのか?」鉄道職員の投稿が話題に
http://buzzmag.jp/archives/87275