Twitterで、気になったもの。
idがその発言のID,screen_nameが発言した人で、下の行が発言内容
id:18674266954 screen_name:HPLinuxJP
2010年度日本OSS貢献者賞、IPAが候補者の推薦募集を開始だそうです http://ht.ly/2ck7J (ITPro)
id:18593004498 screen_name:HPLinuxJP
システムバックアップソリューションとして開発されました。→ http://ht.ly/2bMVH ミラクル・リナックスが、日本HPの協力を受け、エンタープライズ向けシステム・バックアップ製品を開発
id:18927245176 screen_name:shot6
え、SQL Azureって分散トランザクション使えないのは知ってたけど、そのおかげでTransactionScopeって使えないの?既存のコードまんま動くとかいってたけど、だめじゃん。
id:18925509207 screen_name:shot6
Rackspaceが仕掛けてきた感じかな。逆に言えば相当数のベンダを巻き込まないと今後が危ういシビアな戦いだということ。
id:18925196754 screen_name:shot6
協賛企業とかCommunity。 > http://openstack.org/community/
id:18921698095 screen_name:shot6
OpenStack ComputeはPython + Tornado + Twisted + AMQP + Redisですよ、と。 > http://openstack.org/projects/compute/
id:18807792196 screen_name:shot6
biometricsの例。HDFSをストレージとしてつかうのが結構よかったのかな。
id:18807625011 screen_name:shot6
ZettaVoxの例。なんかサポート団体が物々しいぞw DARPA/NSFなど・・・なんか軍隊関連なんでしょか。Hadoop + GPUは強そう。
id:18807329672 screen_name:shot6
BigSheetsの紹介、ってことかな。Hadoop、Pigをベースに拡張可能なUDFをつけてサービスに。RESTのAPIで分析、可視化をみれる。Nikonさんでの事例?
id:18807150122 screen_name:shot6
BigData analytics/Web browser based application platform/Mobile、この3つを抑えることが技術的には重要。ハイハイ、承知しておりますよ。
id:18805818811 screen_name:shot6
よくわからないRiffle annotations > http://github.com/cwensel/riffle
id:18805735229 screen_name:shot6
Cascadingの上でうごくマイニングツールキットBixo > http://bixo.101tec.com/
id:18805608962 screen_name:shot6
む。HiveでJDBCだすのか。あとCost-based optimizerとか面白そう。
id:18805288671 screen_name:shot6
.@okachimachiorz はい、そういうイメージです。>業務ソリューション + 最適なクラウド環境をチョイスできる技術基盤。 どちらにしても垂直結合で上から下まで高いレベルが求められると思います。双方の観点からの要求をぶつけあえる土壌が必要。
id:18804740210 screen_name:shot6
Honu、7末にOSSでgithubに公開。HBase/Cassandra連携も視野とのこと。
id:18804552438 screen_name:shot6
基本はEMRとS3ですね。Client SDKがついてて、log4jとかTomcatのログとかを収集するみたい。まあ考えることは同じですね、と。
id:18804464275 screen_name:shot6
Honu, streaming data & log collection based on Hadoop, Hive, Thrift.
id:18804381837 screen_name:shot6
@okachimachiorz MR本もやりたいコンテンツですよね。確立されたパターンという点では同意です。
id:18803824318 screen_name:shot6
Cassandraのベンチマークが出てる。仮想化すると5-15%くらいのパフォーマンスペナルティがみられる、とのこと。なるほど。
id:18803568349 screen_name:shot6
@toshi_miura やはり日本の書籍販売はあまりに特殊なモデルでガチガチなので、少しでもほころびが出ると危ないという危機感が既得権益の人にはあると思います。ほんと読者のことを考えていないなあと思うしだい。
id:18768984868 screen_name:shot6
CascalogはClojureで書いたHadoopでのデータ処理のためのDSL。
id:18763912896 screen_name:shot6
Oozie2 + Pigがいけそうな感じ。
id:18763765006 screen_name:shot6
Oozie2 > http://yahoo.github.com/oozie/releases/2.0.0/
id:18763612815 screen_name:shot6
@okachimachiorz ええ、それは同意です。逆にAmazonが最近異常なスピードなんですよね。まじで月6件重要な機能追加とか、なんですかそれ?ってレベルです。Hadoop、Amazonだけ突出して早い。他は割とゆっくりめです。
id:18763382812 screen_name:shot6
インデックス構築を4日間から6時間に短縮。現状Oozieユーザは50、ワークフローアプリは約5000、最大ワークフローは2000アクション、平均18アクションくらい。アクションをPigで書く人多し。
id:18763174947 screen_name:shot6
Oozie。構成要素は2つ。workflow engine/coordinator engine。
id:18763109757 screen_name:shot6
@kudoh_shigenori http://www.slideshare.net/ydn/3-hadoop-pigattwitterhadoopsummit2010 のp12, 13です。入力データはtweetなどのMySQLに格納されたデータですね。
id:18762811811 screen_name:shot6
今年当初くらいに思ってたのは、夏くらいにDryad登場→Hadoopに足りないところあるね→んじゃあ機能を足すか→DryadでもHadoop+αでも同等機能の提供。こういうシナリオ。
id:18762315912 screen_name:shot6
Piglet > http://github.com/ningliang/piglet 名前がひどいなあw
id:18762205256 screen_name:shot6
Analysisi。Pig先生の出番です。PigにするとMRの5%のコードで、実行時間は30%ましなだけ。まあPigだよね。。。
id:18761720515 screen_name:shot6
TweetデータはMySQL。MySQL to HDFS, MySQL to HBase, MySQL to MySQLを行う必要があって、それはCraneという自前のでやってるらしい。
id:18761485311 screen_name:shot6
input-> Scribe, Crane, storage -> ElephantBird, HBase, analysis -> Pig, Oink, products -> Birdbrainてかんじ。Crane, Elephant BirdはTwitterのOSS
id:18761421806 screen_name:shot6
Twitterの事例。Twitterのライフサイクルは4つ。Data input/Data storage/Data analysis/Data products
id:18761192640 screen_name:shot6
次。Facebookでは、WarehouseでHBase+Hiveを使ってる。20ノード、gzip圧縮6TBデータを初期ロード。その後は時間当たり30GBをHive経由で。
id:18759552927 screen_name:shot6
MVCCについては、既存のOSSのRDBMSでホントのところを確認するのが個人的には王道かなあと思ってます。逆説的やもしれないですが、Hadoopで上の層を重ねたいならRDBMSを見なさい、という直感があります。
id:18759281856 screen_name:shot6
.@okachimachiorz KarmashepreのってHadoopも意識させない感じですね。生Hadoopはつらいという認識は方向性はありと思います。Thriftもいらない。全然いらない。