ビッグデータを支えるファイルシステムの3つの鍵
とりあえずファイルシステム屋と同じ課になって、なめられないようにビッグデータを支えるファイルシステムについて調べ始めた。手始めに今日は、随分と昔に購入した「はじめてのHadoop 分散データ処理の基本から実践まで」(田澤孝之、横井浩、松井一比良著)をずっと読んでいた。
とはいうものの他のファイルシステムも気になるということでWebでリサーチ。とりあえず現時点で重要と思われる3つの鍵に焦点を当ててみた。知識が浅い上に一夜漬けの感があり、検討はずれなことを言っていたら、容赦なく突っ込んでください。
【3つの鍵】
■Hadoop
言わずとしれたビックデータには必ずと言っていいほど出てくるキーワード。分散ファイルシステムとしては、ある意味理想を追及したファイルシステム。ヘテロな環境でもJavaベースということもあって透過性が高い。スケーラビリティもあり、ビッグデータにはなくてはならないアーキテクチャ。メリットでもありデメリットでもあるのはJavaベースであるということ。これでは性能には限界がある。
■Lustre
クラスタファイルシステムの代表格。何と言ってもメリットはperformanceの良さ。InfiniBandなどの高速通信でもデータのやりとりが他のファイルシステムの群を抜いている。High Performance Computingには欠かせない技術。
■SAP Hana
インメモリでの高速DBアクセスは群を抜いている。これからはファラッシュドライブが普及してくるため、ますます重要性を増してくるであろう。
三種三様各々と強みを持っている。棲み分けも出来つつあるだろう。でもMeは敢えて言いたい。この3つの良いところ取りをした新しいファイルシステムが次世代のビッグデータを制するように思えてならない。今はまだ勉強し始めたばかりなので夢物語かもしれないが、近い将来世界最強の並列分散ファイルシステムのアーキテクチャが生まれてくる気がしてならないのである。
有識者の意見請う。
とりあえずファイルシステム屋と同じ課になって、なめられないようにビッグデータを支えるファイルシステムについて調べ始めた。手始めに今日は、随分と昔に購入した「はじめてのHadoop 分散データ処理の基本から実践まで」(田澤孝之、横井浩、松井一比良著)をずっと読んでいた。
とはいうものの他のファイルシステムも気になるということでWebでリサーチ。とりあえず現時点で重要と思われる3つの鍵に焦点を当ててみた。知識が浅い上に一夜漬けの感があり、検討はずれなことを言っていたら、容赦なく突っ込んでください。
【3つの鍵】
■Hadoop
言わずとしれたビックデータには必ずと言っていいほど出てくるキーワード。分散ファイルシステムとしては、ある意味理想を追及したファイルシステム。ヘテロな環境でもJavaベースということもあって透過性が高い。スケーラビリティもあり、ビッグデータにはなくてはならないアーキテクチャ。メリットでもありデメリットでもあるのはJavaベースであるということ。これでは性能には限界がある。
■Lustre
クラスタファイルシステムの代表格。何と言ってもメリットはperformanceの良さ。InfiniBandなどの高速通信でもデータのやりとりが他のファイルシステムの群を抜いている。High Performance Computingには欠かせない技術。
■SAP Hana
インメモリでの高速DBアクセスは群を抜いている。これからはファラッシュドライブが普及してくるため、ますます重要性を増してくるであろう。
三種三様各々と強みを持っている。棲み分けも出来つつあるだろう。でもMeは敢えて言いたい。この3つの良いところ取りをした新しいファイルシステムが次世代のビッグデータを制するように思えてならない。今はまだ勉強し始めたばかりなので夢物語かもしれないが、近い将来世界最強の並列分散ファイルシステムのアーキテクチャが生まれてくる気がしてならないのである。
有識者の意見請う。