ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

仮説検証は古い。今は「問い」が大事-西内 啓 氏(「統計学が最強の学問である」の)

2014-03-03 18:20:49 | AI・BigData
cloud days tokyo 2014にいってきた話の続き

【出版記念講演】1億人のための統計解析
~エクセルを最強の武器にする~
西内 啓 氏

を、途中から聞いてきた。その話をメモメモ
(ちなみに、西内氏は、思ったより若かった・・・)



Research Design
リサーチデザイン

【ありがちな話】
わが社のデータを分析したい
 →あなたの仮説を教えてください
:よいやり方ではない

【仮説思考の限界】
・昔は正しかった
・膨大なデータ→たった1個の変数を注目するのはもったいない
・YESかNoに頭が反応→やっぱりね!はうれしくない
・かつてはそれが正しかった→むかしはデータを取るのが大変だった

【仮説でなく「問い」】
・リサーチクエスチョン
・どうすればもっと儲かるのか?
 →具体化すると
 「解析単位」の「アウトカム」に影響しそうなものには、
  どんな「説明変数」があるのか

【アウトカム】
・望ましさを具体的に定義

【解析単位】
・望ましさを比べる単位

【説明変数】
・望ましさを存在しうる特徴

分析方針⇒比較軸

●アウトカムの定石
ゴールから逆算して立てる

●解析単位の定石
 WHO,WHAT,WHEN,WHERE,HOW

●説明変数の定石
 解析単位の特徴を可能な限りデータを定義してください
 ・コーザル情報、購買履歴
 ・すべての説明変数を多変量解析へ

【分析結果からアクションへ】
・その1
  動かせないアウトカム
  動かし得る説明変数→相手を動かす

・その2
  動かせないアウトカム
  動かせない説明変数→ねらいをずらす

・その3
  動かせないアウトカム
  動かせない説明変数
  制御下である
   最適化→説明変数
 (例:仕入れ数→在庫ロス)

【今自分が行っていること】
・リサーチデザイン
  ・(経営者)分析リテラシー
  ・(情シス)SQL・R
  ・(その他の人)Excel←ここの本

【まとめ】
・科学の型を利用しよう
・仮説ではなくオープンな問いを
・データとサイエンスが当たり前の国へ
  →データサイエンティストがタイピストと同じくらい




いちばんはじめの、「Research Design」は、本の紹介だったんだけど、
ちょうどそのところから入ったので、どの本をさしているのか
はっきりしなかった。ごめん・・・

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

急に「かな漢」が、まったく漢字変換しなくなった!!(Windows7で)

2014-03-03 15:46:04 | Officeソフト&VBA

こんなかんじ

変換しない・・・
え、どうしたの・・・(>_<!)
「辞書/学習」をみたら・・・

辞書がな~い(@_@!)
IME辞書が消えた・・・。
にあるように、(丸で囲んだ)「修復」をとりあえずやってみて、再起動したけど・・・
だめ、変換しない・・・

え~・・・なにした?このまえまでちゃんと動いてたぞ・・・
そのあとやったことは・・・

    ああああああ!!わかったああああ!

新人(といっても、もうほぼ1年たつが)に、
Officeいれてもらったんだった・・・
ってことは、かな漢が、OfficeIMEになっていて、
それが、おかしくなってるのかあ・・・

MS-IMEに戻しましょう!

ここ

既定の日本語入力システムを Office IME から Microsoft IME に切り替える方法
http://support.microsoft.com/kb/932104/JA

つまり、IMEの設定

から

全般タブ、「追加」というボタンをクリックすると、右側の画面が出るので、
MS-IMEにチェックをいれて

丸で囲んだところを、MS-IMEにして適用・OKしたら再起動
・・・すると

うん!ちゃんと変換できる・・・

めでたしめでたし(^^)v


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Hadoopを直接Windowsにインストールできるようになったらしい

2014-03-03 12:15:37 | AI・BigData
<検索でこのサイトに来た人に>-----------------------

表題の件、このエントリの一番最後を見てください。
詳しく方法を書いてあるサイト(ただし英語)が書いてあります。
表題の件に関しては、以下の文は、ほとんど参考にはなりません

---------------------------<以下、本文>-------

3月1日、OSC 2014 Tokyo/Springにいってきて

Apache Hadoopの現状、これから

を聞いてきた。その内容をメモメモ





Hadoopユーザー会
・Hadoopユーザーの集い場
  http://hugip.org/index.php
・不定期ですが、イベント
・ユーザーカンファレンスも

■おさらいHadoopとは
・課題
 日々増え続けるデータをたくわえ続けたい
 蓄えたデータを速やかに処理したい
 バッチ処理をできるだけ早く処理したい
  処理データ規模は問わない

特徴
・Hadoopの特徴
 複数のサーバで構成する分散ファイルシステムを提供
 複数のサーバで分散ファイル

・分散ファイルシステム上のリソースを活用して
 分散処理を実現、数十分~数時間の処理を数分~数十分に短縮
 CPUの並列処理

・Hadoopを動作させるサーバーは容易に入手できるサーバー
 を利用、リソース不足の場合は容易に追加可能
 サーバー

Google MpReduce MapReduceフレームワーク
  処理異常時は移動箇所のみ再試行
Google File System HDFS分散ファイルシステム
  サーバーが故障してもコピーを持っているため欠損しない

主な利用用途:集計、抽出、加工、分析

Hadoop
 ブロックで分割
 ブロックをデータノードで保存、3つのレプリケーション
 Map処理、Reduce処理
 データローカリティを意識した処理の割り当て

Hadoopエコシステム
  MapReduceフレームワーク
    Hive,Pig,Mahout
  HDFS分散ファイルシステム
    HBase,Impala,Spark,Sqoop,Flume

■Hadoop最新動向
・Hadoop1系とHadoop2系の違い

 Hadoop1系のMapReduceの問題
  JobTrackerへの負荷集中
    多数のリクエストを処理するため、ネックとなりやすい
   →3000から4000で頭打ち?スケールしなくなる
  TaskTrackerでリソースを予約して動作
    Mapスロット、Reduceスロット
   スロット数は固定であるため目、リソースを十分活用できない
   Map関数Reduce関数内で強引に処理を定義
   Giraph,Oozie
→YARNという新たな枠組み
  JobTrackerのリソース管理とジョブ管理を分離
    ResourceManager:リソース管理
     スレーブノード管理
    Application Master:アプリケーション

YARNを構成するノード
  コンテナ単位でジョブアサイン

YARNの特徴
・スレーブノードのリソースを十分に利用する仕組み
・MapReduce1.0APIとの互換性
 Hadoop1.0系のMapReduceアプリケーションも実行可能
   さいびるどで(将来的にはさいビルドもなくなる)
・さまざまなApplicationMasterが動作可能
  spark,Storm,Tez HOYA

・いくつかの機能は現在も開発中
  YARN HA
  さまざまなアプリケーションをYARNで動作させるためのしくみ

HDFS2
・NameNodeHA長年の問題が解決
・HDFS Snapshot オペミスからの復旧が容易に
・HDFSインメモリキャッシュ
・HDFS フェデレーション:NameNode分割
・ロック機構の改善
・ヘテロなすトレー時を利用可能
  メモリ、SSDなどを組み合わせて、利用可能に
・いよいよ問題なく利用できる状態に!

そのほかのポイント
・Java7対応
・Windows上でのHadoop環境
・ログ周りのカイゼン
  auditログ
  メッセージレベルの見直し
  無駄なstacktrace出力の抑制

HDFSに蓄えたデータの活用
・HDFS上のデータをMapReduce以外で活用する仕組み
   ・Apache Spark
      インメモリ
   ・Cloudera Impara
      低レイテンシ
   ・Presto
      分散SQLエンジン

Apache Spark
・インメモリによりMapReduce処理
・HadoopMapReduceの弱点を補う
  繰り返し処理(イテレーション)
・HDFSとの親和性
・高級言語(Scala,Java,Pyton)で処理を定義

Apache Spark構成要素
   Shark(HiveQL)
   spark streamingストリーミング
   MLib機械学習

■デモ
π計算
sparkとhadoop連携
 sparkはsparkシェルから実行

■リリース予定
2系2.3がカレント、2.4開発中
  HA,HDFStrace

1系・・1.3は幻?

Hadoop2系
 HDFS必要な仕組みは一通り
 YARN:MapReduceのみならそれなりに

エコシステムの膨張
  HDFSに蓄えたデータを扱う仕組み 
  MapReduceの弱点を補うしくみ

データを蓄えること大切




Windows上のHadoop環境とは、
Hadoopの2系から、Windows直接(Cygwinを入れずに)で
Hadoopが動かせるというものらしい・・・

・・・調べてみましょう!

ここですね!

Build and Install Hadoop 2.2 or newer on Windows
http://wiki.apache.org/hadoop/Hadoop2OnWindows

う、XPではだめみたい・・・Windows7のパソコンで、
こんどやるため、URLだけ、メモメモ

P.S Mavenいる?Windows上で・・・

maven2 (2.2.1) インストール手順 (Windows)
http://oscasierra.net/2011/10/install_maven2-2-1/

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Java9ではHSA(CPUとGPU連携)で、GPUアクセラレーションが容易になるらしい

2014-03-03 08:52:07 | トピックス
Java9ではHSA(CPUとGPU連携)で、GPUアクセラレーションが容易になるらしい

2月28日、OSC 2014 Tokyo/Springにいってきて

新OPTERONプロセッサーによる
クラウド製品戦略と今後
AMD 林さん

を聞いてきた。その内容をメモメモ




AMDの最新状況
クラウド時代に向けた製品ロードマップ
ソフトウェア・エコシステムとHSA
  :

AMDは
「最新のマイクロプロセッサーとグラフックス技術を提供する業界のリーダー」
X86 AMDとインテル
グラフィックス AMDとえぬびでぃあ
優位性:両方の最適化

競合他社との立ち位置が・・・
2012年 SeaMicroを買収:インテルさんも扱ってる→協業?
2012年 ヘテロジニアスシステムアーキテクチャ
2012年 ARMと64ビット向けプロセッサ共同開発
2013年 ソニーAPU採用:プレステ4も→マイクロソフトも
 →最近はゲーム会社支援、協業
2013年 次世代MacPro(7Tフロップス)にAMD
2013年 x86系 ムーンショットにAPU
モバイルからサーバーまでマルチメディアエンジン
→ピクセルデータ、GPUのほうが消費電力

2014年から大きく変わるAMD 4つの新たな成長戦略
・組み込み市場/セミカスタム:2%→25%へ!(プレステ4のおかげ)
・グラフィックス:タブレット CAD,組み込み GPUパススルー
・低消費電力&高密度サーバー:クラウドセンター向け
・Newクライアントビジネス:ハイブリットタイプなど・・よくわからん?
→いままで2割を5割へ

新規ユーザー、新デバイス、新アプリケーションが
 クラウドコンピューティングを爆発的に拡大させる
・処理はデータセンター

コンピューティング、ネットワーク、ストレージにおける根本的な変化
・いままでFATコア→仮想化しても6割以上、電気使う
  いろいろ
    メディアデータセンター:新しいプロセッサー
    セキュリティ:リモートデスクトップ
    ゲームのクラウド化

新しい環境へ、新しいAMDサーバー成長戦略
新しい環境へ、まったく新しいAMDサーバー
X86ビジネスも続ける
それにぷらす
ARM系

ARMを使うためのLinux
OpenComputeプロジェクト

ロードマップ
・AMD OPTERONサーバー

2ラインナップ
  Optron 6300 4300
  ワルシャワ低消費電力、低価格版

クラウド向け新ラインナップ
  きょうと 3300
  べるりん=きゃべり:新しいタイプのAPU
  ARM系(seatte)

3種類のOPTERON
 ・クラウド・メガデータセンター
 ・メディアクラスターAPU
 ・計算クラスター X86CPU/APU

ソフトウェアエコシステムとHSA
・ソフトウェアエコシステムパートナー
   OpenStack
   Linaro
  APUでJava=プロジェクト すまとら

AMD SEAMICRO=OpenStack認証サーバー
  ベアメタルも対応
  日本ではNetOne,CTC

HSA
  CPUとGPUをシームレスに連携
  GPUでも汎用演算
  メモリ空間も統合
 →ベルリン(今年6月から)飛躍的に性能が上がる

BERLIN APUプロセッサーのHSA機能
  HUMA ヘテロジニアスなメモリアドレス
 →CPU,GPU
   ヘテロジニアスキューイング
 HSA財団:世界の3分の2の半導体供給

アクティブに
Linaroから
  →fedora,Ubuntu 
    →LAMPS,OpenJDK  

Javaについて
  Oracleと協業:Java9になるとHSAシームレスに!!
  JavaでGPUアクセラレーション
  すまとら+HSA:8倍、10倍、12倍

OpenCV、Boltなども強化

京都(HSAにはまだ対応していない)
・4コア Japanコア
・クロック:全クロックOneプライス
  →なぜなら、BIOSでクロックをかえられるから
 最小11ワット、最大25ワット
→HP Moonshot

VDIはいままで仮想的に分けていた
Moonshotはもう1ノード1→HDI

電力、スペース、ネットワークの解
  次世代のホステット、デスクトップ、クラウドゲームへ

HSAによる開発環境は?
・きゃべりのプラットフォームでハード入手
・OpenCLの新しいバージョン
  →デベロッパーサイトで

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする