12月11日の
Pivotalジャパンサミット2014
の話のつづき。メモメモ
途中、よくわからなかった(医療とライフサイエンスへのデータサイエンスの取り組み)
のがある。ほとんどメモになっていない(^^;)
表題の件は、このメモの最後のほう、「ご挨拶」を参照。
もっと詳しい話は
東芝ソリューション、ビッグデータ活用に向けたアジャイル開発センターを都内に開設
~Pivotal社のメソドロジーを利用して、お客様と新たな価値を創造し、ビジネスへ適用~
http://www.toshiba-sol.co.jp/news/detail/141210.htm
に載ってる(ってか、上記サイトを見れば、ご挨拶はみなくていいか・・ (^^;))
■チャンス発見学から生まれたデータ市場ゲーム
~データの中身を出さずに、データの利用価値を教わる技術~
東京大学 大澤先生
ビッグデータでなく、スマートなデータ(役に立つデータ)
チャンス発見
1993年からビッグなデータ
→スモールなデータに焦点が移った
どのように使うか=チャンス発見
恐ろしく簡単な方法で、大雪が早く来ることを的中
→1日で500億円
決定木学習→人間の解釈
人間の解釈:ネガティブに捕らえる人も
→どこかにはいる。
チャンス発見
頻度の低い売れない商品→チャンス
頻度が高いものを黒丸:クラスターが出る
クラスター間に出てくるものが重要KeyGraph
→どれがいいチャンスかは、コンピューターは教えてくれない
生地屋さん
誰に、何が売れた→KeyGraphに
グラフ→ストーリー
鉄則:シナリオは予測でも創造でもなく、覚醒される
→ストーリーができている
データ結晶化によって特許明細から得られたシナリオマップ
新たなシナリオと特許化・商品化された案
最初のQ:頭の中、こうなってませんか?
→データをコンピューターにいれると、パターンが出てくる
チャンス発見のプロセス
関心の自覚
ディスカッション→アイデアの可視化→メタ認知
イノベーションゲーム
イノベーション技術の発想法
原子力安全への適用(2009)データ結晶化(DC)法
Web版イノベーションゲームとその流れ→あまり役に立たない
データジャケット
・既存のデータ、データマイニングツールを組み合わせる
オープンデータ:でない
まして民間のデータを出すのか?
オープンデータサプライヤー:
使う人は金を払う→マーケット大事
データジャケット
→サマリーを出したいだけ出す
出したくないのは出さない
例:IMDJ(データジャケット)
健康変化に影響する要因を知りたい
データを結合する
データ項目だけ、必要なものをいう
→自分のデータを外に出さないで(自分で解析して)
結果だけ教えられる。
→オープンになる力が働く
チャンス発見
イノベーションゲーム
データジャケット
変数名:意味を書く
最後のQ:データサイエンティストはどこにいる?
Twitterの内容They
POSデータYou
自分たちの知識リソースを再利用するほうが先
■医療とライフサイエンスへのデータサイエンスの取り組み
ヘルスケア:構造化データ主
臨床データ、病暦、
ゲノム、画像→非構造化データ増えている
モバイルデータ、センサーデータ
構造化、飛行増加の360度ビュー→より意味のあるモデル
従来のやり方
・In-Memoryソリューション
・並列処理
違うやり方
・より良いテクノロジにアクセスできたら、いい結果になるの?
モデル→アプリケーション:データドリブンアプリケーション
(ごめん、よくわかんないので、キーワードだけ書く。こーどあそんの話らしい)
喘息について?
・シェパード相関法
・喘息患者→カイ2乗
・・・(ごめん、さっぱりわかんなくなった)
・モデルのクオリティをカイゼン
2つの目アプリ;自分の状況が分かる
・薬の残りとか
・・・(ごめん、さっぱりわかんなくなった)
・テクノロジーは受け入れられるか
アプリケーションを作る
・データサイエンスがほかの事に
不正を見つける
FWA
プロファイルを作る。
機械学習
・同じ価値を生み出させられるか?
MAT
モデル
・EDIP:早期心停止発見
・モデルの正確さは上がる→誤検知をなくす
・いろいろまわせた:ロジスティック回帰とか
結論
・一般の課題
データ増える、様々なデータ
PIVOTAL:いろいろに対応できる
テクノロジーの導入は些細なものではない
製造系センサーデータ
課題
・アクセス
・データ統合
・データ複雑
クロス表
調整ができる
(ごめん、意味わかんなくなったので休憩)
・・・お、おわっちゃたよ。。。
・・・ごめん、さっぱりわかんなかった(@_@!)
■次世代分析基盤の構築
インテージ
会社概要
インテージ=市場調査の会社
ドコモとジョイントベンチャー
市場調査の会社
インテージグループ9位
市場調査とは
カスタムリサーチ
パネル調査
インテージにおけるデータ例
・ビッグデータ→有効性を見つけるの大変
データ例:全国小売店パネル(3994店舗・20年)
SSP、i-SSP
カスタムリサーチ(アンケート)
→すぐに反応アリ:サーバー高付加だと答えてくれない
データセンター戦略
基本方針
・自社データセンターの有効活用(オンプレミス)
・パブリッククラウドの有効活用(AWS)
→ハイブリッドデータセンター
メリットのあるものはパブリッククラウドへ
・即時性
・短期利用
・ぎょうむ(あくせす)へんどうがおおきい
→大規模障害も考慮必要
死活監視も
負荷分散しながら可用性もUP
サーバー台数の遷移→結局、物理サーバーは結構ある
データ解析基盤
・DWH
社内データと社外データ
ビッグデータ
インテグレーション
可視化・透明化
ディープアナリティクス
基本アーキテクチャ
データソース
ETL/Hadoop・DHW
DWH
BI/自前
GreenPlumDB
GreenPlumDB
・並列分散DB
・更新が多いい
利用して
・取り扱いかんたん
苦労した点
・チューニング
i-SSP
・PivotalHD(Hadoop)+HAWQ(Hive)
・Pivotal前はMapReduce使ってた
・Hiveより速い。多重処理もOK
PivotalHD
・ベースがPostgreSQL
・データの持たせ方
まとめ
・基本的な方針の確立が重要
・扱うデータの特性を十分理解する
・事前検証を十分行う
・パブリッククラウドの有効活用
→結構高い(うまく使うと安い:ドル建て課金)
課題をお聞かせください
■Dev/Opsの進化
自己紹介
DEVOPS
・プロフェッショナルな動き
・コミュニケーションとコラボレーションのカルチャ
・自動化
・指標やデータに基づいて
・共通な問題をシェアリングする
むかし
・元寇のはなし
モンゴル→戦い方違う
八幡愚童訓
日本の戦い方違った
でも、自然に救われた
コンピューター
ソフトウェア→人が主導:開発者がつくる
新しいサービス
CDいれたのいつ?
CD使えない
インターネットすべて
プロセスは長い時間ず~と動く
プロセス
申請して
まつ
まつ
構成するまで・・1ヶ月?少なくとも数日
彼はたくさんのサーバーを見ている
→スクリプトを書く
うまくいけば、動くようになる
ITIL
スピードを落とすことで守ってくれる
→GoogleもAmazonも、うーバーもITILを使っていない!
DevとOpsの戦い
フリッカー:1日10回本番環境でPush
→変換期
DevOpsDaysTokyo2回やっている
技術者しか来ない
でも10%くらいエグゼクティブがくる
トップとボトム
2007年オペレーションが秘密のカギ
→ツールを使うと、100台が1000台、10万台になっても
Amazon Web Services
そして、OpenStack,Google、Azure,VMWare
悪いSQLを書いたせいで、オペレーターが徹夜して・・・
→開発者が対応すべきだろう
Amazonの優位性はプロセス、カルチャ
アイデアある
サーバーリクエスト
構成ツールで
Netflixの教え
・スピードが勝つ
・開発者が待つことがない
・信頼
・自由と高い責任のカルチャ=実装に失敗したら、自分が直す
・ビジネスにならないものはやらない
・シンプルなパターンを使い、自動化する
・セルフサービスクラウド
人材がいない→日本でも聞く
・ゲーム会社がみんな持っていく
KAOSモンキー:ランダムに仮想マシンを消す。ライブでやる
ハードウェア:故障する
小さなリリース:安全性の意味もある
3さつのほん
こんてにゅあすでりばりー
りりーすいっと
ふぇにっくすぷろじぇくと
クラウドファウンドリーですべてをかえる
■ご挨拶
・日本での最新事例
東芝ソリューション
→アジャイル開発センター
・ビッグデータ活用に向けたアジャイル開発センターを都内に開設
Pivotalのメソドロジーを利用して、お客様と新たな価値を創造
目的
・リーンスタートアップの実現
・ビッグデータファストデータの活用
・継続的なビジネス価値向上
ことをつくっていく
さーびす・でーた・ぶんせき
お客様・データサイエンティスト・アジャイルエンジニア
スナック食べ放題、ビール飲み放題