ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

SPSSのModelerがオープンソースになった感じのRapidMinerなんかを説明してもらった!

2016-02-29 19:45:07 | Weblog
オープンソースカンファレンス 2016 Tokyo/Springの展示ブースで見てきたときの話

ファーエンドテクノロジーで「Redmine」のお話
開発のプロジェクト管理にも使える?例えば営業とか(SFAのつもりで聞いた)
にたいして、「開発案件以外にも使われている。営業とかにも使えると思う。
実際、いま会社では、RedMineから指示がでてくる」という話をしていた。

入門RedMineを1000円で売っていたので買った


KSK Analyticsのお話
RapidMinerというオープンソースを紹介してもらいました。
分析がGUIで設定できる、つまりですね、SPSSのモデラーが、オープンソースになったかんじ。コマンドラインからはnysolというのがあるらしい。
あとグラフ化するのにBIツールのpentahoをつかうが、このETLツールを使えば、データ加工できる

(と、説明を受けたが、素直にETLは、オープンソースのtalendを使い、データをCSVにしたところで、
 RapidMinerで分析すればいいんじゃないだろうか?と思う)

Analytics Newsでいろいろ紹介している

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

コンテナ、DockerとLXD,LXCの違いなどを聞いてきた!

2016-02-29 15:26:21 | Weblog
コンテナ型ハイパーバイザー「LXD」入門

2月27日のオープンソースカンファレンス 2016 Tokyo/Springに行ってきた!つづき

コンテナ型ハイパーバイザー「LXD」入門

をメモメモ




【ツール】
LXD(れっくすでぃー)について
・Go言語製のコンテナが他ハイパーバイザー
 LXCを使って複数のホスト上の複数のコンテナを管理する仕組み
 クライアントサーバーモデル
 設定管理システム追加
 イメージ管理システム
 (クライアント)マルチプラットフォーム対応
 OpenStack Nova向けプラグイン

LXC:Linuxのコンテナ機能を使うためのインターフェース
・Docker,systemdでも使われているカーネルのnamespaceやcgroupsなどを使用
・コンテナと呼ばれる軽量な仮想環境を構築
・CPUの仮想化支援機能が不要
・KVMに比べると、軌道が高速でイメージサイズが小さい
・各種言語向けのバインディングが存在
・Linuxでしか動作しない
→詳しいことはLXCで学ぶコンテナ入門ー軽量仮想化環境を実現する技術

Docker
・主にアプリケーションコンテナを作る
・1コンテナ1プロセス
・一度作ったら中身を変えない

LXC
・主にシステムコンテナを作る
1コンテナにinit以下のフルシステムが動く
・コンテナ内部にログインして作業を行う

上記はあるまで一般論で異なる使い方も可能

LXCの不満点
・何をするにしても管理者権限が必要
・同一ホストのコンテナしか操作できない
・コンテナの施ty亭を変更する方法が分かりにくい
・複数のホスト間でコンテナインスタンスを共有しづらい

LXCの昨日よりはユーザー向けのインターフェースに問題がある
→LXCのハイパー倍剤を作るLXD

改めてLXDについて
・LXCを使って複数のホスト上の複数のコンテナを管理する仕組み
・クライアントサーバーモデル
 サーバー、コンテナを管理するlxd
  lxdコマンドは管理権限が必要
  lxcグループに入っていればいい
  サブコマンド方式で統一性
 ネットワーク透過性
 REST APIの提供
 設定管理システム
  コンテナの設定をsqlightに
 イメージ管理システム
  非特権システムコンテナを簡単に構築
  マイグレーション
  他ホスト上にも
 マルチプラットフォーム対応
   Windows/Macからubuntu上のコマンドを操作できる
 OpenStack Nove向けプラグイン
  KVMより一杯のもの立ち上げられる

非特権システムコンテナ
 rootがUID=0ではないコンテナ
 特権コンテナではホストとUIDを共有する
 非特権コンテナは、user namespaceを使ってマッピングしている
コンテナの中にコンテナ作る場合は、親コンテナは特権コンテナ

LXD,LXCに向いている仕事
・KVMやVMWあれ、Xenが行っていたシステムの仮想化
・リソースが少ない環境での仮想化
・組み込みでも使える(ubuntu Phone)

むいていない仕事
・ホスト、ゲストで異なるカーネル
・すでにDocker資産がある

LXD入門
・ubuntuで動かす
・2種類0.x系と2.0系がある
・0,x系はこれまでのリリース版
・2.0系は次期正式リリースとして開発中
・unbuntu 16.04 LTSでは2.0が入る
・今から評価するなら2.0を使ったほうがいい

必要なもの
・ホストマシン ubuntu14.04以上(ZFS使うなら16.04以上)
 クライアント ubuntu14.04以上
・デモサービスある

インストール
・ppa追加
・update
・フルアップグレード
・apt install
・newgrp lxd

ZFSについて

最初の一歩
sudo lxd init

イメージの取り込み
 lxd-images import ubuntu --alias ubuntu
 lxc image list

イメージの起動
 lxc launch ubuntu first

ホストとゲストのプロセスの状態
 lxc exec first -- ps axjf
  --のあとに実行したいプロセス

リソースの制限
 lxc config set first 制限したい項目

スナップショット
lxc snapshot first clean
lxc restore first clean

インスタンスをイメージに
 lxc image list
 lxc stop first
 lxc publish first --alias first-base

イメージリストを他に

ライブマイグレーション

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

オープンソースで始めるIoTデータ活用(PentahoでBI,RapidMinerで解析)

2016-02-29 12:12:15 | AI・BigData
2月27日のオープンソースカンファレンス 2016 Tokyo/Springに行ってきた!つづき

オープンソースで始めるIoTデータ活用~異常検知・故障予測、始めてみませんか?~

をメモメモ(途中から)




【ツール】
分析ソフト
・一長一短

Open Anaritics
・BIツールと データマイニングツールでカバー
 Pentahoなど、 今日紹介するRapidMiner

RapidMiner
 だれでも使える
 Rapid Miner Studio
  249種類の分析など
   クラスタリング
   クラス分類
   次元圧縮
   回帰分析
 ほかのものと連携
  Rと連携できる
  エクステンションはレコメンデーション、テキストマイニング(英語)、時系列分析も
 可視化
  でーたの見せ方→はこひげず

予防保全と異常検知のデモ
・RapidMinerで分析プロセスを作る
   ドラッグ&ドロップで
   結果画面で結果をみる
 →テンプレートが入っている

セミナー
 IoTデータ分析ハンズオンセミナー
 テキスト分析ハンズオンセミナー(日本語)みその
 Pentaho無料体験ハンズオンセミナー


【アジャイル分析】分析ノウハウがない
・分析あるある
 たまっているデータを使って何かできるだろう
・日本の現状
 データ活用不足
 データ活用できる人は減っていっている→人材不足
  データ分析できる人材を育てたい
  分析ノウハウの提供・教育も兼ねる
  ぶんせきほうほうをきめる:最後に仮説発見&検証を持ってくるとだめ

分析ツールパートナーから分析ビジネスパートナーへ
  くりすぷDM
 モデリング:何のアルゴリズム→そこから入るのではなく、ビジネスの理解から

分析事例
・IoT:故障予測
・離反分析
・レコメンデーション→パターン発見
・テキストマイニング:クレーム分析
・SFAデータ活用:最適な営業活動、新入社員教育、GISも
  →Analytics News
 →セミナー講演資料でダウンロードできる(来週の速いうちに)

世界の知恵が結集した「オープンソース」
反復型で効果を高める「アジャイル分析」

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

「Hadoopエコシステムの最新技術動向」を聞いてきた!

2016-02-29 09:46:43 | Weblog
2月27日のオープンソースカンファレンス 2016 Tokyo/Springに行ってきた!つづき

Hadoopエコシステムの最新技術動向とNTTデータの取り組み

をメモメモ



Hadoopエコシステムの最新技術動向とNTTデータの取り組み

・自己紹介
・Hadoopの概要
  HDFS
  MapReduce
  YARN
 エコシステムの最新動向
 データの取り組み

【Hadoopとは】
・オープンソースの大規模分散処理フレームワーク
・Doug Cutting(だぐかってぃんぐ)氏がJavaで開発
 扱うデータがビッグであるために従来のIT-キテクチャでは難しかった
  →2005年から開発開始
 名前:ぬいぐるみから

Hadoopの構成
・集中管理がらの分散システム
 Hadoopマスタサーバー
 Hadoopスレーブサーバー
 Hadoopクライアント

Hadoopを構成するコンポーネント
 分散ファイルシステム:HDFS
 分散リソース管理機構:YARN
→HDFSとYARNの2つのコンポーネントにより

HDFSとは
 分散ファイルシステム
 複数のサーバー 1つのファイルシステム
 →外から見ると1つの巨大なファイルシステム

HDFSの舞台裏
・分散ファイルシステムの舞台裏では
 各ブロックは複製され、スレーブサーバーに格納される
 ブロック→こわれたとき、スループット向上などのため
 レプリカは異なる3サーバーに配置される

MapReduceとは
 MapReduceアルゴリズム
  大量の件数のデータがあった時に複数ワーカーで並列に処理できるしくみ
 例として:選挙の開票作業

  第一段階
   1)用紙を適当に3つ分ける
   2)3人で並行して候補所ごとに仕分け
  第二段階                   MAP処理
   3)候補者ごとに用紙を集める
  第三段階                   Reduce処理
   4)3人で候補者ごとに枚数を数える

Map処理              Mapタスク
 M人でやればM倍のスピード
 (相互に影響を受けずに作業できる)          MapReduceジョブ
Reduce処理           Reduceタスク
 N人でやれば、約N倍のスピード
 (相互に影響を受けずに作業できる)

MapReduce:YARN上で動作
 MapReduce=YARN上のアプリケーションの1つ

YARNとは
 Yet Another Resource Negotiator
 分散処理のリソースを制御する仕組み
  Hadoopのスケーラビリティをさらに向上させる
  柔軟なリソース制御によるスループット向上
  MapReduce以外の分散処理を実行できる

ますたーサーバーの負荷軽減
 ジョブ・アプリケーション管理のイメージ
  Resource Manager
 YARNでは
  ジョブX→アプリケーション○
  仕事(アプリケーション)の管理はメンバに依頼、とりまとめ役になる
  任命されたApplication MasterはResourceManagerに進捗状況
  タスクごとの進捗状況はApplication Masterがかんり、
  ますたーサーバーの管理コストが減り、多数のメンバーを管理できる
   →スケーラビリティ向上 10000ノード程度のクラスタも構成可能に

HDFS
 大量データをこうスループットに読み込める
 サーバーが故障してもデータの安全性担保
 サーバー数を増やせば格納できるデータ数はスケール
YARN
 リソースベースで処理を割り当て、こうスループット
 サーバーが故障してもタスクが再実行されジョブは成功
 サーバー数を増やせば、処理性能は基本スケールする
MapReduce
 MapタスクRduceタスクのみを指定すればあとはYARNで

【Hadoopエコシステム】
 2011後半からYARN→YARNあたりまえ
 今、2.6.4と2.7.2

11年目Hadoop
・大容量、多件数データのバッチ処理基盤→仕組み・手法ともに成熟
  クラウド
・MapReduceにこだわらない処理→ベースは感性、成長著しい
・新たなステージ→群雄割拠
 SQL on Hadoop
 Hadoopエコシステムの拡大
 Apache Spark

・代表的なHadoopエコシステム
 Apache TEZ→Pigとじゃもうごく
 Apache Spark
 HBASE
 Apache Impale分散クエリ
 Apache Ambari
 Hue
 Kafka(メッセージングシステム)

特に
・MapReduceによらないあらたな分散処理

ApacheSpark:コアを中心に成り立つライブラリ
 大規模データの分散処理をオンメモリで実現
  繰り返し処理に柔軟に対応→機械学習のクラスタリング
   SPARK SQL
   SPARK Streaming
   MLIB
   GraphX

Spark最新動向
・フロントエンドとバックエンドの進化
 フロントエンド:DataFrame API→処理高速化
 バックエンド :Project Tungsten→CPUの利用効率高める

Hive2.0 新たな時代のHive
・Apache Hive2.0 :2016年2月リリース
 機能・運用面・性能面の強化
 CLIとしてBeeLineが標準に
 SQL Standard Authorization
 Hive Server2機能強化
 LLAP
 実行エンジンとしてMapReduceは非推奨に

HiveServer2
 Web画面:実行されたクエリの情報・実行計画
  →メトリクスも
LLAP
 秒未満のクエリ実行時間を実現するための仕組み
  コンテナ立ち上げに時間がかかった
  →YARNのリソース管理 YARN上にデーモン
   コンテナ:TEZ
 ベータ版

【NTTデータの取り組み】
・Apache Hadoop PMC就任
・その他公開資料
  http://www.slideshare.net/hadoopxnttdata

まとめ
・Hadoopは1台のマシンで扱えない規模の大量データを高速に処理するためのフレームワーク
・Hadoopエコシステムの開発の勢いは今も活発
・NTTデータもHadoopの開発に参画しています
  Hadoopだけでなく、エコシステム全般

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする