2016年2月29日のブログ記事一覧-ウィリアムのいたずらの、まちあるき、たべあるき

SPSSのModelerがオープンソースになった感じのRapidMinerなんかを説明してもらった！

2016-02-29 19:45:07 | Weblog

オープンソースカンファレンス 2016 Tokyo/Springの展示ブースで見てきたときの話

■ファーエンドテクノロジーで「Ｒｅｄｍｉｎｅ」のお話
開発のプロジェクト管理にも使える？例えば営業とか（ＳＦＡのつもりで聞いた）
にたいして、「開発案件以外にも使われている。営業とかにも使えると思う。
実際、いま会社では、ＲｅｄＭｉｎｅから指示がでてくる」という話をしていた。

入門ＲｅｄＭｉｎｅを１０００円で売っていたので買った

■ＫＳＫ　Ａｎａｌｙｔｉｃｓのお話
RapidMinerというオープンソースを紹介してもらいました。
分析がＧＵＩで設定できる、つまりですね、SPSSのモデラーが、オープンソースになったかんじ。コマンドラインからはnysolというのがあるらしい。
あとグラフ化するのにBIツールのpentahoをつかうが、このＥＴＬツールを使えば、データ加工できる

（と、説明を受けたが、素直にＥＴＬは、オープンソースのtalendを使い、データをＣＳＶにしたところで、
　RapidMinerで分析すればいいんじゃないだろうか？と思う）

Analytics Newsでいろいろ紹介している

ランキングに参加中。クリックして応援お願いします！

コンテナ、DockerとLXD,LXCの違いなどを聞いてきた！

2016-02-29 15:26:21 | Weblog

コンテナ型ハイパーバイザー「ＬＸＤ」入門

２月２７日のオープンソースカンファレンス 2016 Tokyo/Springに行ってきた！つづき

コンテナ型ハイパーバイザー「ＬＸＤ」入門

をメモメモ

【ツール】
ＬＸＤ（れっくすでぃー）について
・Ｇｏ言語製のコンテナが他ハイパーバイザー
　ＬＸＣを使って複数のホスト上の複数のコンテナを管理する仕組み
　クライアントサーバーモデル
　設定管理システム追加
　イメージ管理システム
　(クライアント）マルチプラットフォーム対応
　OpenStack Nova向けプラグイン

ＬＸＣ：Linuxのコンテナ機能を使うためのインターフェース
・Docker,systemdでも使われているカーネルのnamespaceやcgroupsなどを使用
・コンテナと呼ばれる軽量な仮想環境を構築
・ＣＰＵの仮想化支援機能が不要
・ＫＶＭに比べると、軌道が高速でイメージサイズが小さい
・各種言語向けのバインディングが存在
・Linuxでしか動作しない
→詳しいことはLXCで学ぶコンテナ入門ー軽量仮想化環境を実現する技術

Docker
・主にアプリケーションコンテナを作る
・１コンテナ１プロセス
・一度作ったら中身を変えない

LXC
・主にシステムコンテナを作る
１コンテナにinit以下のフルシステムが動く
・コンテナ内部にログインして作業を行う

上記はあるまで一般論で異なる使い方も可能

ＬＸＣの不満点
・何をするにしても管理者権限が必要
・同一ホストのコンテナしか操作できない
・コンテナの施ｔｙ亭を変更する方法が分かりにくい
・複数のホスト間でコンテナインスタンスを共有しづらい

ＬＸＣの昨日よりはユーザー向けのインターフェースに問題がある
→ＬＸＣのハイパー倍剤を作るＬＸＤ

改めてＬＸＤについて
・ＬＸＣを使って複数のホスト上の複数のコンテナを管理する仕組み
・クライアントサーバーモデル
　サーバー、コンテナを管理するlxd
　　lxdコマンドは管理権限が必要
　　lxcグループに入っていればいい
　　サブコマンド方式で統一性
　ネットワーク透過性
　ＲＥＳＴ　ＡＰＩの提供
　設定管理システム
　　コンテナの設定をsqlightに
　イメージ管理システム
　　非特権システムコンテナを簡単に構築
　　マイグレーション
　　他ホスト上にも
　マルチプラットフォーム対応
　　　Windows/Macからubuntu上のコマンドを操作できる
　OpenStack Nove向けプラグイン
　　KVMより一杯のもの立ち上げられる

非特権システムコンテナ
　rootがUID=0ではないコンテナ
　特権コンテナではホストとＵＩＤを共有する
　非特権コンテナは、user namespaceを使ってマッピングしている
コンテナの中にコンテナ作る場合は、親コンテナは特権コンテナ

ＬＸＤ，ＬＸＣに向いている仕事
・ＫＶＭやＶＭＷあれ、Ｘｅｎが行っていたシステムの仮想化
・リソースが少ない環境での仮想化
・組み込みでも使える（ubuntu Phone）

むいていない仕事
・ホスト、ゲストで異なるカーネル
・すでにDocker資産がある

ＬＸＤ入門
・ubuntuで動かす
・２種類0.x系と2.0系がある
・0,x系はこれまでのリリース版
・2.0系は次期正式リリースとして開発中
・unbuntu 16.04 LTSでは2.0が入る
・今から評価するなら2.0を使ったほうがいい

必要なもの
・ホストマシン ubuntu14.04以上（ＺＦＳ使うなら16.04以上）
　クライアント ubuntu14.04以上
・デモサービスある

インストール
・ppa追加
・update
・フルアップグレード
・apt install
・newgrp lxd

ＺＦＳについて

最初の一歩
sudo lxd init

イメージの取り込み
　lxd-images import ubuntu --alias ubuntu
　lxc image list

イメージの起動
　lxc launch ubuntu first

ホストとゲストのプロセスの状態
　lxc exec first -- ps axjf
　　--のあとに実行したいプロセス

リソースの制限
　lxc config set first 制限したい項目

スナップショット
lxc snapshot first clean
lxc restore first clean

インスタンスをイメージに
　lxc image list
　lxc stop first
　lxc publish first --alias first-base

イメージリストを他に

ライブマイグレーション

ランキングに参加中。クリックして応援お願いします！

オープンソースで始めるIoTデータ活用(PentahoでＢＩ，RapidMinerで解析）

2016-02-29 12:12:15 | AI・BigData

２月２７日のオープンソースカンファレンス 2016 Tokyo/Springに行ってきた！つづき

オープンソースで始めるIoTデータ活用～異常検知・故障予測、始めてみませんか？～

をメモメモ（途中から）

【ツール】
分析ソフト
・一長一短

Open Anaritics
・ＢＩツールと　データマイニングツールでカバー
　Pentahoなど、　今日紹介するRapidMiner

RapidMiner
　だれでも使える
　Rapid Miner Studio
　　２４９種類の分析など
　　　クラスタリング
　　　クラス分類
　　　次元圧縮
　　　回帰分析
　ほかのものと連携
　　Ｒと連携できる
　　エクステンションはレコメンデーション、テキストマイニング（英語）、時系列分析も
　可視化
　　でーたの見せ方→はこひげず

予防保全と異常検知のデモ
・ＲａｐｉｄＭｉｎｅｒで分析プロセスを作る
　　　ドラッグ＆ドロップで
　　　結果画面で結果をみる
　→テンプレートが入っている

セミナー
　ＩｏＴデータ分析ハンズオンセミナー
　テキスト分析ハンズオンセミナー（日本語）みその
　Pentaho無料体験ハンズオンセミナー

【アジャイル分析】分析ノウハウがない
・分析あるある
　たまっているデータを使って何かできるだろう
・日本の現状
　データ活用不足
　データ活用できる人は減っていっている→人材不足
　　データ分析できる人材を育てたい
　　分析ノウハウの提供・教育も兼ねる
　　ぶんせきほうほうをきめる：最後に仮説発見＆検証を持ってくるとだめ

分析ツールパートナーから分析ビジネスパートナーへ
　　くりすぷＤＭ
　モデリング：何のアルゴリズム→そこから入るのではなく、ビジネスの理解から

分析事例
・ＩｏＴ：故障予測
・離反分析
・レコメンデーション→パターン発見
・テキストマイニング：クレーム分析
・ＳＦＡデータ活用：最適な営業活動、新入社員教育、ＧＩＳも
　　→Analytics News
　→セミナー講演資料でダウンロードできる（来週の速いうちに）

世界の知恵が結集した「オープンソース」
反復型で効果を高める「アジャイル分析」

ランキングに参加中。クリックして応援お願いします！

「Hadoopエコシステムの最新技術動向」を聞いてきた！

2016-02-29 09:46:43 | Weblog

２月２７日のオープンソースカンファレンス 2016 Tokyo/Springに行ってきた！つづき

Hadoopエコシステムの最新技術動向とＮＴＴデータの取り組み

をメモメモ

Hadoopエコシステムの最新技術動向とＮＴＴデータの取り組み

・自己紹介
・Ｈａｄｏｏｐの概要
　　ＨＤＦＳ
　　ＭａｐＲｅｄｕｃｅ
　　ＹＡＲＮ
　エコシステムの最新動向
　データの取り組み

【Ｈａｄｏｏｐとは】
・オープンソースの大規模分散処理フレームワーク
・Doug Cutting（だぐかってぃんぐ）氏がJavaで開発
　扱うデータがビッグであるために従来のＩＴ－キテクチャでは難しかった
　　→２００５年から開発開始
　名前：ぬいぐるみから

Ｈａｄｏｏｐの構成
・集中管理がらの分散システム
　Ｈａｄｏｏｐマスタサーバー
　Ｈａｄｏｏｐスレーブサーバー
　Ｈａｄｏｏｐクライアント

Ｈａｄｏｏｐを構成するコンポーネント
　分散ファイルシステム：ＨＤＦＳ
　分散リソース管理機構：ＹＡＲＮ
→ＨＤＦＳとＹＡＲＮの２つのコンポーネントにより

ＨＤＦＳとは
　分散ファイルシステム
　複数のサーバー　１つのファイルシステム
　→外から見ると１つの巨大なファイルシステム

ＨＤＦＳの舞台裏
・分散ファイルシステムの舞台裏では
　各ブロックは複製され、スレーブサーバーに格納される
　ブロック→こわれたとき、スループット向上などのため
　レプリカは異なる３サーバーに配置される

ＭａｐＲｅｄｕｃｅとは
　ＭａｐＲｅｄｕｃｅアルゴリズム
　　大量の件数のデータがあった時に複数ワーカーで並列に処理できるしくみ
　例として：選挙の開票作業

　　第一段階
　　　１）用紙を適当に３つ分ける
　　　２）３人で並行して候補所ごとに仕分け
　　第二段階　　　　　　　　　　　　　　　　　　　ＭＡＰ処理
　　　３）候補者ごとに用紙を集める
　　第三段階　　　　　　　　　　　　　　　　　　　Ｒｅｄｕｃｅ処理
　　　４）３人で候補者ごとに枚数を数える

Ｍａｐ処理　　　　　　　　　　　　　　Ｍａｐタスク
　Ｍ人でやればＭ倍のスピード
　（相互に影響を受けずに作業できる）　　　　　　　　　　ＭａｐＲｅｄｕｃｅジョブ
Ｒｅｄｕｃｅ処理　　　　　　　　　　　Ｒｅｄｕｃｅタスク
　Ｎ人でやれば、約Ｎ倍のスピード
　（相互に影響を受けずに作業できる）

ＭａｐＲｅｄｕｃｅ：ＹＡＲＮ上で動作
　ＭａｐＲｅｄｕｃｅ＝ＹＡＲＮ上のアプリケーションの１つ

ＹＡＲＮとは
　Yet Another Resource Negotiator
　分散処理のリソースを制御する仕組み
　　Hadoopのスケーラビリティをさらに向上させる
　　柔軟なリソース制御によるスループット向上
　　MapReduce以外の分散処理を実行できる

ますたーサーバーの負荷軽減
　ジョブ・アプリケーション管理のイメージ
　　Resource Manager
　ＹＡＲＮでは
　　ジョブＸ→アプリケーション○
　　仕事（アプリケーション）の管理はメンバに依頼、とりまとめ役になる
　　任命されたApplication MasterはResourceManagerに進捗状況
　　タスクごとの進捗状況はApplication Masterがかんり、
　　ますたーサーバーの管理コストが減り、多数のメンバーを管理できる
　　　→スケーラビリティ向上　１００００ノード程度のクラスタも構成可能に

ＨＤＦＳ
　大量データをこうスループットに読み込める
　サーバーが故障してもデータの安全性担保
　サーバー数を増やせば格納できるデータ数はスケール
ＹＡＲＮ
　リソースベースで処理を割り当て、こうスループット
　サーバーが故障してもタスクが再実行されジョブは成功
　サーバー数を増やせば、処理性能は基本スケールする
ＭａｐＲｅｄｕｃｅ
　ＭａｐタスクＲｄｕｃｅタスクのみを指定すればあとはＹＡＲＮで

【Ｈａｄｏｏｐエコシステム】
　２０１１後半からＹＡＲＮ→ＹＡＲＮあたりまえ
　今、２．６．４と２．７．２

１１年目Ｈａｄｏｏｐ
・大容量、多件数データのバッチ処理基盤→仕組み・手法ともに成熟
　　クラウド
・MapReduceにこだわらない処理→ベースは感性、成長著しい
・新たなステージ→群雄割拠
　ＳＱＬ　on Hadoop
　Ｈａｄｏｏｐエコシステムの拡大
　Ａｐａｃｈｅ　Ｓｐａｒｋ

・代表的なＨａｄｏｏｐエコシステム
　Ａｐａｃｈｅ　ＴＥＺ→Ｐｉｇとじゃもうごく
　Ａｐａｃｈｅ　Ｓｐａｒｋ
　ＨＢＡＳＥ
　Ａｐａｃｈｅ　Ｉｍｐａｌｅ分散クエリ
　Ａｐａｃｈｅ　Ａｍｂａｒｉ
　Ｈｕｅ
　Ｋａｆｋａ（メッセージングシステム）

特に
・ＭａｐＲｅｄｕｃｅによらないあらたな分散処理

ＡｐａｃｈｅＳｐａｒｋ：コアを中心に成り立つライブラリ
　大規模データの分散処理をオンメモリで実現
　　繰り返し処理に柔軟に対応→機械学習のクラスタリング
　　　ＳＰＡＲＫ　ＳＱＬ
　　　ＳＰＡＲＫ　Ｓｔｒｅａｍｉｎｇ
　　　ＭＬＩＢ
　　　ＧｒａｐｈＸ

Ｓｐａｒｋ最新動向
・フロントエンドとバックエンドの進化
　フロントエンド：DataFrame　API→処理高速化
　バックエンド　：Project Tungsten→ＣＰＵの利用効率高める

Hive2.0　新たな時代のHive
・Apache Hive2.0 ：２０１６年２月リリース
　機能・運用面・性能面の強化
　ＣＬＩとしてBeeLineが標準に
　SQL　Ｓtandard Authorization
　Hive Server２機能強化
　ＬＬＡＰ
　実行エンジンとしてMapReduceは非推奨に

HiveServer2
　Ｗｅｂ画面：実行されたクエリの情報・実行計画
　　→メトリクスも
ＬＬＡＰ
　秒未満のクエリ実行時間を実現するための仕組み
　　コンテナ立ち上げに時間がかかった
　　→ＹＡＲＮのリソース管理　ＹＡＲＮ上にデーモン
　　　コンテナ：ＴＥＺ
　ベータ版

【ＮＴＴデータの取り組み】
・Apache Hadoop PMC就任
・その他公開資料
　　http://www.slideshare.net/hadoopxnttdata

まとめ
・Hadoopは１台のマシンで扱えない規模の大量データを高速に処理するためのフレームワーク
・Hadoopエコシステムの開発の勢いは今も活発
・NTTデータもHadoopの開発に参画しています
　　Hadoopだけでなく、エコシステム全般

ランキングに参加中。クリックして応援お願いします！

記事一覧 | 画像一覧 | フォロワー一覧 | フォトチャンネル一覧

日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29

アクセス
閲覧	1,743	PV
訪問者	926	IP
トータル
閲覧	34,808,794	PV
訪問者	8,676,535	IP
ランキング
日別	348	位
週別	741	位

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】「交通系IC」は何を使っていますか？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

SPSSのModelerがオープンソースになった感じのRapidMinerなんかを説明してもらった！

コンテナ、DockerとLXD,LXCの違いなどを聞いてきた！

オープンソースで始めるIoTデータ活用(PentahoでＢＩ，RapidMinerで解析）

「Hadoopエコシステムの最新技術動向」を聞いてきた！

カレンダー

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ