HadoopとSmartGrid・その3

前回のエントリーの続きです。ようやくHadoopの利用方法についての言及部分にまで進みました。「Googleを支える技術」を読んだ時は、これらにどんな利用用途があるんだろうと思ってしまったためか、ほとんど技術の深追いができませんでした。しかし、下記の部分を読んだことによって、もう一度、上記の本を読み返してみたくなりました。今日は時間がなかったので、読解量は少なめです。
http://www.cloudera.com/blog/2009/06/02/smart-grid-big-data-hadoop-tennessee-valley-authority-tva/

  • The Case For Hadoop At TVA
    • 最初の問題は、確実にPMUデータを保存し、いつでも利用可能な状態にするためにはどうしたらいいかということだった
      • ストレージ業界には多くの解決策があったが、どれも高価で、信頼性の高いハードウェアの利用を前提としていた
      • 複数のディスクにまたがるような巨大なデータを扱えば、a high mean time to fail (MTTF)を使ったとしても、システム障害が頻繁に発生してしまう
    • Hadoop’s aggressive replication schemeのためのファイルシステムを持っていた
      • HDFSを使っている他のグループの人たちから話を聞いた
      • HDFSは輝かしく宣伝されているように動くことがわかった
      • HDFSは、データの移動に適していて、いくつもの外部へのインターフェイスを持っている
    • Hadoopが、TVAのプロジェクトに適していると判断した
      • コモディティ化したハードウェアを使える
      • オープンソースのソフトウェア
      • 独自でシステムを持つよりも数分の1のコストで済む
      • データ量の増加曲線によるコスト増をマネージすることができる
    • 他の問題として、NERCやそれに関連する研究機関も、データにアクセスでき、処理を実行できる必要があった
      • MapReduceの“moving computation to the data”というコンセプトは、Hadoopをより魅力的な選択肢にさせた
      • PMUデータの利用用途は、シンプルなパターンスキャンから、複雑なデータマイニング処理まで、多岐にわたる
      • このような分析やアルゴリズムを、SQLで実現することは不可能
      • そのため、大規模なリレーショナルデータベースよりは、MapReduceのようなバッチ処理システムの方へ視点が向くようになった
    • Hadoopオープンソース・エコシステム
      • Hadoopは活発なプロジェクト
      • 関連する様々なプロジェクトが同時並行で進んでいる
      • これは採用する側としても価値があること
    • TVAにとって、Hadoop導入は一石二鳥の解決策
      • HDFSによるストレージ問題の解決
      • MapReduceによる堅牢な計算処理プラットフォーム問題の解決