ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

SparkやMLlib等、Javaの機械学習の話を聞いてきた!

2014-12-17 21:00:29 | AI・BigData
12月17日

JJUGナイトセミナー 機械学習・自然言語処理特集!
に行ってきた。その内容をメモメモ

(記事になるらしい)




■Javaでカジュアルに始める機械学習

自己紹介
 SmartNews

機械学習!機械学習!

機械学習を始める前に知っておきたいこと
・機械学習とは何ぞや
  データによって賢くなるアルゴリズム
   →データから知識、ルールを自動獲得
・機械学習で何ができるのか
  分類・識別
  予測・回帰
  パターンマイニング・アソシエーションルール
  クラスタリング

 教師あり学習→データに正解がある
  分類・識別
  予測・回帰

 教師なし学習→正解はない
  パターンマイニング・アソシエーションルール
  クラスタリング

・何を入力データとするのか
  どんな形式のデータでもOKというわkではない
    数値列→非構造データはそのままでは与えられない
    非構造データ→特徴量を抽出→特徴量
  訓練データはラベルなど付与する

・得られた結果は正しいのか
  →教師なしは政界かどうか分からない
 教師あり学習
   k-分割交差検証(k-fold cross validation)
 正しさを量る
   Precision Recall,AUC,F-Mesure
 予測・回帰
   相関係数、決定係数 MAE,RMSE

・線形分離、非線形

・オンライン学習、オフライン学習
  オンライン学習:ストリーム
  オフライン学習:バッチ

最初に之だけは
・車輪の再発明はやめましょう→実装、辛みしかない

Javaによる機械学習向き不向き
1.問題認識
2.データ理解
3.モデル作成
4.モデル評価
5.システム化
 →3~5がJava、ただし、3、4はアドホック:RやPythonのほうが
  5に向いている

・Weka、Sparkインタラクティブ
・Rはシステム化が難しい

Javaから使える機械学習ライブラリ

・libliner-java
 ロジスティック回帰、SVM
 LibSVM;線形に特化
 割とがんばってる

Weka
 実装されている
 少量のデータなら

MLlib(Spark)
・アドホックでも利用できるはず(すからーで)

Mahout
・かなりオワコン感。かれている

SAMOA
・Stormなど

Jubatus(ゆばたす)
・リアルタイムな機械学習

h2o
・Deep learning これいったく

はじめてみよう機械学習
・データセット
  UCI マシーン ラーニング リポジトリ
  CSVで
 覚えておきたいデータセット
  とにかくiris:機械学習界隈のハローワールド

Wekaで分類 http://bit.ly/jjug-ml
・Wekaの入力形式 ARFFファイル
・CSVを変換するのはめんどうなので、
  CSVLoaderで

利用したクラス
 ・k-分割交差検証
 ・ロジスティック回帰
 ・決定木
 ・線形回帰

デモ

まとめ
・機械学習のお話
・ライブラリ
・Weka




■Spark/MLlib

・自己紹介
  hadoop,Spark

・お話しすること
  Spark+MLlibが解決したこと

大量データの扱いに関する課題
・大量データを使いたいとき
   精度を上げたい
   爆発的に増え続けるデータ
 →機械学習時間、データをどこに
・昔のライブラリは、単一マシン上に→コスパよくない
 →リーズナブルなスケールアウト

Hadoop
・オープンソースの大規模分散処理基盤

・HDFSとHadoop MapReduce
  HDFS:大きいファイルシステムに見せる
  MapReduce:Map処理→シャッフル→リリース
 →連携して動く。大きいファイルのバッチ処理
 →スループットに重きを置いている

Mahoutの登場
・苦手な処理

デモ
・k-Meansでグループ認識させる
・結果見る→精度良くない
・反復10回
 反復処理を重ねると、レイテンシが遅くなる
 →起動のオーバーヘッドがかかるから

Apqche Spark
・スループットとレイテンシの両立
・スカラーで開発
・1.2.0 数日中にリリース?

Hadoop2→YARN

MapReduce
 複数段のMapReduce
Spark
 RDDの変換チェイン、キャッシュする仕組み
Sparkのエコシステム
  SparkSQL
  SparkStreaming
  MLlib
  GraphX

MLlib
・すから、ぱいそん、Javaサポート
・オンラインk-mean
・SparkMLが後継

デモ

K-means
・何度も読み込み→キャッシュ(フレームワークが面倒見る)
・一連の反復全体を1つのジョブに

機械学習の仕組みを加速する仕組み
・試行錯誤できる
・分散フレームワーク間で連携が可能
  →成形されてない生データをHadoopで

まとめ
・Hadoopが切り開いた道
・機械学習
・Spark+MLlibが解決した問題
・加速する仕組み




■Luceneと日本語の検索

自己紹介

Lucene(るしーん)とは
・だぐかってぃんが生みの親
・高速検索
・Apache
・4.10.2最新もうすぐ3
・JDK7だたし、u25から55のものをつかうと、index壊れる

主な機能
・転置インデックス
・検索結果のスコアリング
・豊富なクエリ(近傍、フレーズ、範囲など)
・フィールド指定

転置インデックス
・用語
  インデックス
  ドキュメント(1レコードに相当)
  フィールド:メタ情報
  クエリ
  ターム、トークン:インデックスのキーになることば

・かつおはさざえの弟

 単語に分ける
   かつお は サザエ の 弟

 単語をベースにIDが引ける→転置インデックス

サンプルコード
 後日、GitHubに上げる

単語の抽出
  単語の区切り方:英語は簡単(スペース)
  日本語の場合・・・
オーソドックスなやり方
 N-GRAMと形態素解析
  形態素解析:意味がある単語の区切り→未知語では?
  N-GRAM:インデックス肥大化、品詞

Analyzerの概要
  tokenizer:英語系→日本語用もある
  stopward
  語尾の変化baseform

日本語
・kuromji
 Lucenには行っている
・lucene-gosen
 せん→ごせん→るしんごせん

そのほかのluceneの機能
・GEO
・ハイライト
・ファセット
・グルーピング

バージョン
モジュール

Elastic Searchのデモ

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

人工知能のWatson Analyticsがベータ版の提供を開始したらしい

2014-12-17 13:07:42 | Weblog
12月16日に来た
IBM【BD&A Today-3】
に、こんなことが書かれていました。

◆ Watson Analytics ベータ版の提供を開始

ビッグデータを分析してビジネスに生かすにはそれ相応のインフラと分析スキ
ルが必要です。ただし、全ての分析業務が最高度のものを必要としているわけ
ではありません。もっと、誰でも手軽に日々の業務でデータを素早く分析して
ビジネスの改善に生かすことができたら、驚くべき前進がなされることでしょ
う。クラウドにデータをロードするだけで自動で集計や統計分析が実行され、
かつ、ダッシュボードによりビジュアル化される。また、自然言語で質問をし
その答えを元に更に質問を繰り返すことで、欲しかった洞察に辿り着く。
そんな、夢のような話が、今、ここにあります。
Watson Analyticsが実現します。クラウド経由ですぐに始められます。

ご紹介ビデオ (YouTube 英語)
https://ibm.biz/WA_Info
こちらから、無料ですぐに開始できます。
http://www.ibm.com/analytics/watson-analytics/



おおおお、これは見なくては!

ちなみに、その下も

◆ 『IBM Big Data University』新コンテンツ掲載

Big Dataについて学べるサイト『Big Data University』に新規コンテンツが
アップロードされました。
・モバイル / IoTのデータベースソリューション:IBM Cloudant
・信頼できるビッグデータ活用を実現する方法とは?
・ビッグデータ・セキュリティーの最新動向と事例
・ビッグデータ・インテグレーションの最新動向と事例
・ビッグデータ時代に対応する最新データベース・テクノロジーとは?
IBMの専門家がビッグデータの最新テクノロジーについて、わかりやすく解説
します。いつでも、どこからでも気軽に学習可能なコンテンツを各種ご案内。
技術者の皆様の日々の業務に役立つ情報がきっと見つかります。
ぜひ、ご活用ください。
http://ibm.biz/BigDataUniv

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ビッグデータによる要求開発を聞いてきた

2014-12-17 08:21:42 | AI・BigData
12月16日

要求開発アライアンス 2014年12月 定例会
ビッグデータによる要求開発
(ハッシュタグ#redajp)
に行って来た!その内容をメモメモ




はじめに
・IT戦略支援部
 ・ビッグデータ推進G
 ・公共PMO支援G
・九州先端科学技術研究所

・ビッグデータビジネスのドライバー
  予知、予見だけでない
  高度ICT利活用
    予見-販促、デリバリー、故障箇所:キャリブレーションから(先のこと)
    監視-カードの不正利用、IoT、異常行動者の発見(現在)
    診断-病名診断、販売不振原因(過去)
 3つのわけかた-重要
   解決方法
   分析手法
 ※ワインの数式モデル:使いきり、バッチで十分→Hadoop:バッチのJCL
  異常発見者:バッチじゃ困る、CEP
  診断:バッチ、リアルタイム両方あり得る

・HPC&CEP
  背景は情報爆発 info-plodion(和製英語)
  2006年まで 16エクサバイト
  2006~2008年 そのくらいに
 ものすごくニーズがあるのは:役に立つデータ

・データを捨てる技術
  例:Amazon Kinesis
   1年でペタいく場合→データセンター作る話
   オンメモリー アベイラビリティーゾーンで処理
    →機械学習:HPC

  クラウドに来る前にどうするか?

・SDN(このあとに48はつきません)
  PFC(ぷろぐらまぶるふろーこんとろーらー)

・監視はニーズある
  実際は、入口から問題ある



自部署が必要なデータは社外にある
  オープンデータ 政府が公開するデータ
  RDF
  SPARQLのエンドポイント
  総務省の事業で開発
  →コンテスト、グランプリ50万、副賞20万
    bodic.org
  G空間:長野県と国土交通省
    登山する人にiBeacon
    準天頂衛星
    Webで場所が分かる。危険の予知

ビッグデータによる要求開発
1.スタッフが少ない力不足
2.データの分析活用方法が分からない
3.大量データの処理システム基盤がない
4.分散しているデータの統合が困難
5.データ収集・分析コストの増

データの分析活用方法が分からない→どちらともいえない

業務システムの要求開発
・何をどうして自動化するのか
ビッグデータの要求開発
・何をどのような情報で決めるのか(意思決定)

因果関係≠相関関係
 因果関係=かならずそうなる
 相関関係=9割あたればいい。

因果木の限界:経済的効果のあるアクションは因果律に縛られる必要がない
 特性要因図-理屈が正しいか(特にビジネス活動)

業務の自動化+意思決定のできる限りの自動化
 Industry4.0 ドイツ→すばらしいショーケースになっている
   →アカデミズムが先行?
 何を、どのような情報で決めれば良いのか
因果木からはじめない
 BSC戦略マップは、本当に戦略性があるのか
   戦略空軍、
 亀岡太郎:戦略とは、差別化である
 ビジネスモデルキャンバス→戦略キャンバス
現場が作るBSC戦略マップには限界がある
 →概念になってしまう
  事実から始まる
まずは、ゴール記述書
  課題:ゴールを達成する障害は何か
お金をもらうのに、かっこいい言葉は要らない
 データで証明できればいい
→10年分の仕訳解析がいっぺんにできる

PoCというアプローチ
→ぷるーふおぶこんせぷと
 コンセプトの確認だけはできる
BODIC.org,wCloud
 リポジトリ、データマーケット
 エンジンAWS

e-ラーニングも仮想プロジェクトルームで行う
人材育成
「ビックデータ事始」無料で見れます。
一通りやると、理解できる。マーケティング寄り
絵は自動的に作ってくれる
 反転学習
 インタラクティブマーケティング


22日開発者サイトオープン
福岡 BODIK コンテスト
で検索してね!アプリコンテストの案内出るから


事業を興すとき
・売る人と売るもののどちらが先
売る人
 マーケットがなけりゃ、物は売れない
・マーケットを知る

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

12月16日(火)のつぶやき

2014-12-17 05:41:01 | ネットワーク

「銀行とかで使ってる(メインフレームの)Z-Linuxは、SUSEが多いという話を聞いてきた」 blog.goo.ne.jp/xmldtp/e/70905…

1 件 リツイートされました


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする