7月29日JTF2018に行ってきて
Preferred Networksの機械クラスタを支える技術
を聞いてきたのでメモメモ
■あいさつ(の途中にきた)
■注意事項
・スタンプラリー
・昼食の受け取り時間・場所
■基調講演
Preferred Networksの機械クラスタを支える技術
・自己紹介
・PFNでの主な役割
・本日の流れ
PNF.Chainer
機械学習クラスタサービス
もとめられること
・PFN
IoTX分散機械学習
戦略的パートナー
注力領域:デバイス寄りで、インダストリアル寄り
ピンキング自動化(2015) 深層学習利用
自動運転デモ(強化学習) CES2016:エージェントが環境とやりとり
・Chainer
ぱいそんでできている深層学習
とてもべんり
Numpyのインターフェース
CuPyも公開
Define-By-Run
ほかのもの:定義してからRUN
Chainer:礼儀しながらRun:動的に
追加パッケージ:Chainer MN(分散学習)、強化学習、画像認識
・Chainer MN
かんたん:分散して学習
複数のワーカー分散→すべてをやりとりする:InfiniBandを使っている
128GPU:ほぼ線形、制度もそのまま
・MN-1
クラスタ:構築運用 NTTコミュニケーション NTT-PCコミュニケーション
テスラP100を1024こ
1第8GPU X8台 を56GX2いんふぃに
LINPACKで国内1位 ImageNet 15分で学習 世界最速だったことも
・PFNはなぜ自社クラスタ
大量計算機を使って誰にも成し遂げらっれなかったことをしたい
→グランドチャレンジ
息をするように大規模な学習ができる環境
高速な通信環境をいつも使いたい
上から下まで保有することの重要性
・PFNにおける社内機械学習クラスタサービスの概要
はーばー、JankinsをAWSに
ぼっとをAzureにうかべていたり
全部Docker、くーばねいてぃすとめそすで管理
・内製ジョブ実行ツールの概要
Akka→自動的にDockerイメージ
学習:API
・PFNに求められる要件
シームレス実行
利用率・運用効率の向上
・シームレス実行:様々なリテラシーレベルのユーザー
様々な研究者・エンジニアが在籍
様々なリテラシーレベルへの対応状況→使いやすいツール
内製ジョブ実行ツール:yamlで記述 Gitリポジトリから
Jupyter hub
くーばねーてぃす
・PFNにおける典型的な開発
アルゴリズム・モデルの開発
ジョブのトレーサビリティ
・ジョブ実行ツールの概念モデル
プロジェクト
|
データセットー JOB - 結果
(いみゅーたぶる
バージョン管理
ACL可能)
・典型的なワークフローとの対比
スケーラブルな深層学習:中段に注力
ビッグデータは現在提供していない
・ジョブの再現性への要求
それを阻む非決定性
ニューラルネット 初期重み・ランダムノイズな中間層
データセット バリデーション・分散ワーカーの分け方
コード;コード Docker
CPU:マルチスレッドの実行順序 制御不能
GPU:GPU内の計算 再現性を保証していない
リピータびりてぃ:再実行性の保証
メタデータ
ツールで提供
・学習状況の可視化
・GPUをクラスタで利用可能
Mesos:めそすコンテナいざー&nvidia docker
Kubernetes:kubeletとnvidia docker→CPUしか使わない:GPU全部使ってじゃましてしまう
Infiniband
Mesos:ふつうに
Kubernetes:独自プラグイン ダミーのデバイスID
・クラスタ利用・運用効率
・効率よく柔軟なスケジュール
うまくジョブを配置:オンラインピッキング問題
MostResource
様々な配置製薬要求:通信ホップ、GPU
効率・柔軟以外の望ましい性質
公平性
・ギャングすけーじゅーリング
一気に分散ジョブをスケジュール きゅぶあーびとれーたー
・プリえんぷしょんとりえんとらんしー
オンラインピッキング問題はとても難しい
リエントラント:再入可能:エポックのところで再開
・グランドチャレンジ
クラスタの全景を活用してはじめて実行可能
・将来に向けて
・より効率的・柔軟・公平
クーばねーてぃすとめそすの空きの共有
・より効率的・柔軟・公平なスケジューラー
Infinibandデバイス
Bin パッキング
機械学習・強化学習の活用:独自の偏り
GPU:隣同士でスケジューリングしたほうが早い
プリえんぷしょん:より完全なりえんとれんしー
公平性:スロットル GPUを均等に
・ハイブリッドクラウド
・グランドチャレンジ:日常的なグランドチャレンジ
・OSS貢献への加速
・最後に
福田さんの言葉
機械学習の計算基盤技術は発展途上
スパコン+クラウドという2つの大河の合流点に我々は立っている
ボトルネック
一番貴重な資源にあるべき:人間のクリエイティビティ
Preferred Networksの機械クラスタを支える技術
を聞いてきたのでメモメモ
■あいさつ(の途中にきた)
■注意事項
・スタンプラリー
・昼食の受け取り時間・場所
■基調講演
Preferred Networksの機械クラスタを支える技術
・自己紹介
・PFNでの主な役割
・本日の流れ
PNF.Chainer
機械学習クラスタサービス
もとめられること
・PFN
IoTX分散機械学習
戦略的パートナー
注力領域:デバイス寄りで、インダストリアル寄り
ピンキング自動化(2015) 深層学習利用
自動運転デモ(強化学習) CES2016:エージェントが環境とやりとり
・Chainer
ぱいそんでできている深層学習
とてもべんり
Numpyのインターフェース
CuPyも公開
Define-By-Run
ほかのもの:定義してからRUN
Chainer:礼儀しながらRun:動的に
追加パッケージ:Chainer MN(分散学習)、強化学習、画像認識
・Chainer MN
かんたん:分散して学習
複数のワーカー分散→すべてをやりとりする:InfiniBandを使っている
128GPU:ほぼ線形、制度もそのまま
・MN-1
クラスタ:構築運用 NTTコミュニケーション NTT-PCコミュニケーション
テスラP100を1024こ
1第8GPU X8台 を56GX2いんふぃに
LINPACKで国内1位 ImageNet 15分で学習 世界最速だったことも
・PFNはなぜ自社クラスタ
大量計算機を使って誰にも成し遂げらっれなかったことをしたい
→グランドチャレンジ
息をするように大規模な学習ができる環境
高速な通信環境をいつも使いたい
上から下まで保有することの重要性
・PFNにおける社内機械学習クラスタサービスの概要
はーばー、JankinsをAWSに
ぼっとをAzureにうかべていたり
全部Docker、くーばねいてぃすとめそすで管理
・内製ジョブ実行ツールの概要
Akka→自動的にDockerイメージ
学習:API
・PFNに求められる要件
シームレス実行
利用率・運用効率の向上
・シームレス実行:様々なリテラシーレベルのユーザー
様々な研究者・エンジニアが在籍
様々なリテラシーレベルへの対応状況→使いやすいツール
内製ジョブ実行ツール:yamlで記述 Gitリポジトリから
Jupyter hub
くーばねーてぃす
・PFNにおける典型的な開発
アルゴリズム・モデルの開発
ジョブのトレーサビリティ
・ジョブ実行ツールの概念モデル
プロジェクト
|
データセットー JOB - 結果
(いみゅーたぶる
バージョン管理
ACL可能)
・典型的なワークフローとの対比
スケーラブルな深層学習:中段に注力
ビッグデータは現在提供していない
・ジョブの再現性への要求
それを阻む非決定性
ニューラルネット 初期重み・ランダムノイズな中間層
データセット バリデーション・分散ワーカーの分け方
コード;コード Docker
CPU:マルチスレッドの実行順序 制御不能
GPU:GPU内の計算 再現性を保証していない
リピータびりてぃ:再実行性の保証
メタデータ
ツールで提供
・学習状況の可視化
・GPUをクラスタで利用可能
Mesos:めそすコンテナいざー&nvidia docker
Kubernetes:kubeletとnvidia docker→CPUしか使わない:GPU全部使ってじゃましてしまう
Infiniband
Mesos:ふつうに
Kubernetes:独自プラグイン ダミーのデバイスID
・クラスタ利用・運用効率
・効率よく柔軟なスケジュール
うまくジョブを配置:オンラインピッキング問題
MostResource
様々な配置製薬要求:通信ホップ、GPU
効率・柔軟以外の望ましい性質
公平性
・ギャングすけーじゅーリング
一気に分散ジョブをスケジュール きゅぶあーびとれーたー
・プリえんぷしょんとりえんとらんしー
オンラインピッキング問題はとても難しい
リエントラント:再入可能:エポックのところで再開
・グランドチャレンジ
クラスタの全景を活用してはじめて実行可能
・将来に向けて
・より効率的・柔軟・公平
クーばねーてぃすとめそすの空きの共有
・より効率的・柔軟・公平なスケジューラー
Infinibandデバイス
Bin パッキング
機械学習・強化学習の活用:独自の偏り
GPU:隣同士でスケジューリングしたほうが早い
プリえんぷしょん:より完全なりえんとれんしー
公平性:スロットル GPUを均等に
・ハイブリッドクラウド
・グランドチャレンジ:日常的なグランドチャレンジ
・OSS貢献への加速
・最後に
福田さんの言葉
機械学習の計算基盤技術は発展途上
スパコン+クラウドという2つの大河の合流点に我々は立っている
ボトルネック
一番貴重な資源にあるべき:人間のクリエイティビティ