Hadoopって何だ？ - ダメSE uramonの奮闘記

　以前から気になっていた「Hadoop」。これっていったい何？早速調べてみた。

　Hadoopは、大規模データの分散システムを支えるJavaソフトウェアフレームワークらしい。Googleのデータセンターで利用されているクラウド基盤システム(BigtableやMapReduce)の論文をヒントとし、Yahoo!のメンバーが主体となり開発されたもの。

　Hadoopは、Google File System(GFS)とMapReduceのオープンソース実装版である。全てJavaで記述される。

　複数のマシンに処理を分散させることで、1台で数日かかっていた処理を1日で終わらせるといったことが可能になる。

　Hadoopには以下のような特徴がある。これを見ると分かるように、少ないデータを扱う場合にHadoopを使うのはもったいないし、データに信頼性を求めるなら、従来どおりRDBを使いなさい、となる。

■ 向いているシステム

■ 向いていないシステム

　Hadoopは、主に以下のコンポーネントで構成される。

■ MapReduce

　処理を記述するプログラミングモデル。

■ HDFS

　ファイルシステム。複数マシンを1つのストレージとして扱う。HDFS上に構築されるデータベースとして、『HBase』がある。

　ざっくりとしたアーキテクチャは図の通り。

　MapReduceレイヤでは、JobTrackerがクラスタのジョブスケジューラおよびアロケータとして機能し、個々のスレーブノードにおけるTaskTrackerへのジョブ割り当てを行う。

　HDFSレイヤでは、Name nodeがファイルのメタデータ("場所")を管理し、Data nodeが実際のデータを保持する。