Share!

Hadoopは処理能力の拡張性・安定性が高い

Hadoopは米Yahoo!社に所属していたDoug Cutting氏を中心として2006年に開発された分散処理フレームワークです。2004年Googleが論文にて発表した独自の分散処理フレームワークMapReduceをもとに生み出されました。ちなみに名前の由来はDoug氏の息子が持っていたゾウの人形です。

Hadoopのメリットはまずサーバーの台数に比例して処理能力を高められる、いわゆるスケールアウトが可能だということ。Web上のビッグデータはどんどん増え続けます。そんなときHadoopを実装していればコストを押さえつつ対応し続けられるのです。

また、安定性が高いのも魅力のひとつ。どこか一つのサーバーで障害が起こってもほかのサーバーが対応することで処理が止まりません。

ほかにもHadoop Streamingというツールを使えばあらゆる言語でスクリプトを作成できる、自動で同じkeyのデータがまとめられるといったメリットがあり、Yahoo!・Amazon・Facebookなどの有名企業でHadoopは活用されてきました。

ただしHadoopにはリアルタイムで特定のデータを見つけ出すような高速処理には向かない、Hadoop StreamingなしではJavaが必須といった弱点もあります。

SparkはHadoopが苦手なリアルタイム処理が行える

Sparkはデータの格納場所をHDDやSSDではなくメモリにすることでHadoopの10~100倍の速度を実現する分散処理プラットフォームです。カリフォルニア大学バークレー校で開発が進められ、2014年にApacheソフトウェア財団に寄贈されました。

SparkはHadoopが弱点とするリアルタイム処理に対応可能でかつ、データの格納場所の選択肢もHadoop Distributed File System (HDFS)、Cassandraなど多様です。

現在HadoopとSparkは共存関係にあり、「リアルタイムの高速処理が求められるデータはSparkで、メモリに乗り切る以上のサイズのデータを処理する場合はHadoopで」などと使い分けられています。

終わりに

分散処理フレームワークの基礎とその代表格であるHadoop、Sparkの2つについて述べました。記事中でも紹介した通り、Hadoop、Sparkの2つはデータを扱う職業において需要の高いスキルです。

この記事を皮切りにそれらを扱う腕を磨いていけば、データ活用が進む社会において非常に心強い武器となるはず。まずはHadoop、Sparkをインストールして簡単な処理を実行してみましょう!

参考URL
Hadoopとリレーショナルデータベースは「何」が違うのか┃@IT
分散処理 とは┃ITトレンド
データサイエンティストにおいて、最も需要のあるスキルとは┃POSTD
The Most in Demand Skills for Data Scientists┃Jeff Hale(Medium)
Hadoop生みの親が、ゼロックスからアップルに転職した理由┃@IT
Apache Sparkとは?:Hadoopに続く分散処理のフレームワーク|データ分析用語を解説┃GiXo

宮田文机

1 2

この記事を読んだあなたにおすすめのタグ

この記事を読んだあなたにおすすめのタグ

「データ活用」ランキング

人気のカテゴリ