NTT R&Dフォーラム2013
の2月15日にあった、ワークショップ
「Big dataを活かす機械学習技術」
についてメモメモ。
メモを基に書いているので、書き漏らしがあると思う
間違いもあるかも。
まちがってたら、ごめん、
■データ量の増大
2011年1.8ZB→2020年40ZB
理由:
スマートセンシングの普及
ビッグデータの経済効果
アメリカ:ビッグデータ研究イニシアチブ
■アジェンダ
1.従来のデータ分析とどう違うか
2.機械学習とは
3.研究ビジョン
■1.従来のデータ分析とどう違うか
・分析対象の多様化
構造化データ+非構造化データ
蓄積データ+ストリームデータ
・Twitterで株価予測
インディアナ大 J.Bollen 86.7%あてた
・色情報を自動復元
・量を活かした分析
まったく異なるアプローチ
自然のデータ
分析のシナリオが独創的
・ビッグデータ分析
単一種類のデータ分析→多種多様から新価値創造
■2.機械学習とは
1950~80 人工知能研究の開花 記号処理
80 人工知能 エキスパート、ニューラルネット
90 データマイニング 計算機
2000~ 統計的機械学習 非構造データ、データマイニング
・機械に学習能力をもたせる 文字認識とか
学習能力:未知データでも性能を発揮する汎化能力
学習スキーム
教師有り
教師なし
半教師*
アンサンブル
半教師:ラベルなしデータをつかう
収集コストをさげ、識別能力が上げられる
教師:多重トピック分類
(1)スパースなデータ
(2)多重トピック
PMM(パラメトリック混合モデル)
機械学習
汎用性
工学/数理アプローチ
・ビッグデータ
冗長性:ビッグデータの大半は役に立たない
信頼性:ノイズ多い
→確率モデル
・確率モデルの構成要素
生成モデル:仮説
潜在変数
古典的手法:アマゾンの協調フィルタリング
類似ユーザー
確率モデル
推薦者→コミュニティ→結果
↓
ベイズの定理
■3.研究ビジョン
・More is different アンダーソン
当時の行き過ぎた要素還元主義に反論
1つの法則で記述するのはX
・最新理論だけでなく、技術の融合とデザイン
・スマートコンバージェンス
異種情報の融合
・研究プラットフォーム
バッチ+Jubatas(ゆばたす)
・関係データ解析
関係の類似性からクラスタ構造を自動抽出
例:オンラインコミックデータの分類
・生成モデルの考え方
グルーピング:ディリクレ過程に基づく分類
β分布によるパラメータ生成
ベルヌーイ分布に基づく0/1
非負値行列因子分解を応用
・予兆発見
センサデータ
・クラウド、ビッグデータ、モバイル、ソーシャル
の2月15日にあった、ワークショップ
「Big dataを活かす機械学習技術」
についてメモメモ。
メモを基に書いているので、書き漏らしがあると思う
間違いもあるかも。
まちがってたら、ごめん、
■データ量の増大
2011年1.8ZB→2020年40ZB
理由:
スマートセンシングの普及
ビッグデータの経済効果
アメリカ:ビッグデータ研究イニシアチブ
■アジェンダ
1.従来のデータ分析とどう違うか
2.機械学習とは
3.研究ビジョン
■1.従来のデータ分析とどう違うか
・分析対象の多様化
構造化データ+非構造化データ
蓄積データ+ストリームデータ
・Twitterで株価予測
インディアナ大 J.Bollen 86.7%あてた
・色情報を自動復元
・量を活かした分析
まったく異なるアプローチ
自然のデータ
分析のシナリオが独創的
・ビッグデータ分析
単一種類のデータ分析→多種多様から新価値創造
■2.機械学習とは
1950~80 人工知能研究の開花 記号処理
80 人工知能 エキスパート、ニューラルネット
90 データマイニング 計算機
2000~ 統計的機械学習 非構造データ、データマイニング
・機械に学習能力をもたせる 文字認識とか
学習能力:未知データでも性能を発揮する汎化能力
学習スキーム
教師有り
教師なし
半教師*
アンサンブル
半教師:ラベルなしデータをつかう
収集コストをさげ、識別能力が上げられる
教師:多重トピック分類
(1)スパースなデータ
(2)多重トピック
PMM(パラメトリック混合モデル)
機械学習
汎用性
工学/数理アプローチ
・ビッグデータ
冗長性:ビッグデータの大半は役に立たない
信頼性:ノイズ多い
→確率モデル
・確率モデルの構成要素
生成モデル:仮説
潜在変数
古典的手法:アマゾンの協調フィルタリング
類似ユーザー
確率モデル
推薦者→コミュニティ→結果
↓
ベイズの定理
■3.研究ビジョン
・More is different アンダーソン
当時の行き過ぎた要素還元主義に反論
1つの法則で記述するのはX
・最新理論だけでなく、技術の融合とデザイン
・スマートコンバージェンス
異種情報の融合
・研究プラットフォーム
バッチ+Jubatas(ゆばたす)
・関係データ解析
関係の類似性からクラスタ構造を自動抽出
例:オンラインコミックデータの分類
・生成モデルの考え方
グルーピング:ディリクレ過程に基づく分類
β分布によるパラメータ生成
ベルヌーイ分布に基づく0/1
非負値行列因子分解を応用
・予兆発見
センサデータ
・クラウド、ビッグデータ、モバイル、ソーシャル
デブサミ2013に、
2月15日行ってきたメモメモの続き。
TOCを基にした?TOCfE:TOC For Educationのお話。話の中で、
吉田さんの例は、ドッチボールについて
川野さんの例は、至急への対応
と例を上げて説明されたのですが、あえて、その例については、ふれずに
(触れるとTOCfEの手法が判りにくくなる)、
エッセンスだけを書きます。
<吉田さんのまき>
・こどもにも現場の悩みがある
何で、そうしたかったのか聞く
どうなるといいのか
・対立解消図(クラウド)
対立の状況を提示する
箱を埋めるだけ(下図参照)
![](https://blogimg.goo.ne.jp/user_image/65/5e/5083c295c140146dc9d4674d390d257c.png)
<<かわのさん>>
・クラウド(対立解消図)は、問題を特定し、解決策を出すために使う
・作って読む
[1]特定する(作る)
(1)問題の特定
(2)対立している行動の特定(上図D,D'を埋める)
(3)要望の特定(D、D’をもとにB,Cを埋める)
(4)共通目標の特定(B,CをもとにAを埋める)
[2]読む
「共通目標」のためには「要望」が必要である
「要望」のためには、「行動」すべきである
読んでみて、しっくりこなかったら修正
当事者がしっくる来ればOK、こなかったら、[1]→[2]を繰り返す
要望とは行動の結果であり、得られるものであり、満たされるもの
[3]ヒントを探す
「なぜならば」を探す(要望と行動の間)
(要望、行動が上下にあるから、2箇所でる)
[4]解決
各なぜならばを崩す方法を考える
(上下)2つを解決する方法を考える
![](https://blogimg.goo.ne.jp/user_image/07/47/ec0d25dfe108cd9a5a94229e67ca3e90.png)
・実際にやってみる
<<このほかに:中さんから>>
クラウド
ブランチ
アンビシャスターゲットツリー
P.S
でも、なんで、司会者の人(男)は、メイド服着てたんだろう・・・
・・・よくわからん???
2月15日行ってきたメモメモの続き。
TOCを基にした?TOCfE:TOC For Educationのお話。話の中で、
吉田さんの例は、ドッチボールについて
川野さんの例は、至急への対応
と例を上げて説明されたのですが、あえて、その例については、ふれずに
(触れるとTOCfEの手法が判りにくくなる)、
エッセンスだけを書きます。
<吉田さんのまき>
・こどもにも現場の悩みがある
何で、そうしたかったのか聞く
どうなるといいのか
・対立解消図(クラウド)
対立の状況を提示する
箱を埋めるだけ(下図参照)
![](https://blogimg.goo.ne.jp/user_image/65/5e/5083c295c140146dc9d4674d390d257c.png)
<<かわのさん>>
・クラウド(対立解消図)は、問題を特定し、解決策を出すために使う
・作って読む
[1]特定する(作る)
(1)問題の特定
(2)対立している行動の特定(上図D,D'を埋める)
(3)要望の特定(D、D’をもとにB,Cを埋める)
(4)共通目標の特定(B,CをもとにAを埋める)
[2]読む
「共通目標」のためには「要望」が必要である
「要望」のためには、「行動」すべきである
読んでみて、しっくりこなかったら修正
当事者がしっくる来ればOK、こなかったら、[1]→[2]を繰り返す
要望とは行動の結果であり、得られるものであり、満たされるもの
[3]ヒントを探す
「なぜならば」を探す(要望と行動の間)
(要望、行動が上下にあるから、2箇所でる)
[4]解決
各なぜならばを崩す方法を考える
(上下)2つを解決する方法を考える
![](https://blogimg.goo.ne.jp/user_image/07/47/ec0d25dfe108cd9a5a94229e67ca3e90.png)
・実際にやってみる
<<このほかに:中さんから>>
クラウド
ブランチ
アンビシャスターゲットツリー
P.S
でも、なんで、司会者の人(男)は、メイド服着てたんだろう・・・
・・・よくわからん???