カテゴリー

キーワード

データのじかんとは？

Apache HadoopとSparkの違いとは？分散処理フレームワークを基礎からわかりやすく解説！

データのじかんトップ > 新着記事一覧 > データ活用 > Apache HadoopとSparkの違いとは？分散処理フレームワークを基礎からわかりやすく解説！

ビジネス

更新：2024.01.23
公開：2019.08.01

#キーワード

Hadoopは処理能力の拡張性・安定性が高い

Hadoopは米Yahoo!社に所属していたDoug Cutting氏を中心として2006年に開発された分散処理フレームワークです。2004年Googleが論文にて発表した独自の分散処理フレームワークMapReduceをもとに生み出されました。ちなみに名前の由来はDoug氏の息子が持っていたゾウの人形です。

Hadoopのメリットはまずサーバーの台数に比例して処理能力を高められる、いわゆるスケールアウトが可能だということ。Web上のビッグデータはどんどん増え続けます。そんなときHadoopを実装していればコストを押さえつつ対応し続けられるのです。

また、安定性が高いのも魅力のひとつ。どこか一つのサーバーで障害が起こってもほかのサーバーが対応することで処理が止まりません。

ほかにもHadoop Streamingというツールを使えばあらゆる言語でスクリプトを作成できる、自動で同じkeyのデータがまとめられるといったメリットがあり、Yahoo!・Amazon・Facebookなどの有名企業でHadoopは活用されてきました。

ただしHadoopにはリアルタイムで特定のデータを見つけ出すような高速処理には向かない、Hadoop StreamingなしではJavaが必須といった弱点もあります。

SparkはHadoopが苦手なリアルタイム処理が行える

Sparkはデータの格納場所をHDDやSSDではなくメモリにすることでHadoopの10～100倍の速度を実現する分散処理プラットフォームです。カリフォルニア大学バークレー校で開発が進められ、2014年にApacheソフトウェア財団に寄贈されました。

SparkはHadoopが弱点とするリアルタイム処理に対応可能でかつ、データの格納場所の選択肢もHadoop Distributed File System (HDFS)、Cassandraなど多様です。

現在HadoopとSparkは共存関係にあり、「リアルタイムの高速処理が求められるデータはSparkで、メモリに乗り切る以上のサイズのデータを処理する場合はHadoopで」などと使い分けられています。

終わりに

分散処理フレームワークの基礎とその代表格であるHadoop、Sparkの2つについて述べました。記事中でも紹介した通り、Hadoop、Sparkの2つはデータを扱う職業において需要の高いスキルです。

この記事を皮切りにそれらを扱う腕を磨いていけば、データ活用が進む社会において非常に心強い武器となるはず。まずはHadoop、Sparkをインストールして簡単な処理を実行してみましょう！

参考URL

Hadoopとリレーショナルデータベースは「何」が違うのか┃@IT 分散処理とは┃ITトレンドデータサイエンティストにおいて、最も需要のあるスキルとは┃POSTD The Most in Demand Skills for Data Scientists┃Jeff Hale（Medium） Hadoop生みの親が、ゼロックスからアップルに転職した理由┃@IT Apache Sparkとは？：Hadoopに続く分散処理のフレームワーク｜データ分析用語を解説┃GiXo

（宮田文机）

分散処理のフレームワーク、HadoopとSpark

1 2

メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。

データ活用 Data utilization テクノロジー technology 社会 society ビジネス business ライフ life 特集 Special feature

関連記事Related article

5つのデータで読み解く！運転の概念も変わる？完全自動運転、各...

トレンド 2024.09.09

非構造化データとは？構造化データとの違いや課題についてわかり...

データ活用 2023.06.02

淡路島で自然×デジタルを実現！？自作IoT機器で快適すぎる庭...

データ活用 2025.11.20

第20話｜そうだ、組織目標だ by AI事務員宮西さん--デ...

データ活用 2025.07.03

データカタログとは？作成手順やデータマネジメント・メタデータ...

データ活用 2023.11.22

きれいなだけじゃダメ！？伝わるグラフってどんなもの？「データ...

データ活用 2019.12.25

書評記事Book-review

【書評】『データ視覚化の人類史グラフの発明から時間と空間の...

データ活用 2025.12.28

2025年の本はコレを読め！オススメのAI本23選–マスクト...

ピックアップ 2025.12.24

データ分析・生成AIは土台づくりからはじめる『データマネジメ...

トレンド 2025.12.12

生成AI時代こそデータ分析が重要！『ビジネス課題の発見と解決...

ピックアップ 2025.10.10

【書評】日本企業でこそ、従業員体験はなぜ重要？『EXジャーニ...

ビジネス 2025.08.26

【書評】歴史を数学的にモデル化することで見えた革命の要因。ピ...

ライフ 2025.06.11

データのじかん公式InstagramInstagram

データのじかん公式Instagram

30秒で理解！インフォグラフィックや動画で解説！フォローして『1日1記事』インプットしよう！

おすすめ記事Recommended articles

掲載特集

デジタル・DX・データにまつわる4コマ劇場『タイムくん』

データのじかんをもっと詳しくデータのじかんフィーチャーズ

「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』

DXの1次情報をを世界から『World DX Journal』

データで越境するあなたへおすすめの『ブックレビュー』

BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ

CIOの履歴書 by 一般社団法人CIOシェアリング協議会

なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える

日本ビジネスの血流である帳票のトレンドを徹底解説

データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ

BI（ビジネスインテリジェンス）のトリセツ

入社1年目に知っておきたい差が付くKPIマネジメント

CIOLounge矢島氏が紐解くトップランナーたちのDXの“ホンネ”

データのじかん Resources 越境者のためのお役立ち資料集

AI実装の現在地点-トップITベンダーの捉え方

データでビジネス、ライフを変える、面白くするDATA LOVERS

データマネジメント・ラジオ by データ横丁

データのじかんNews

データ・情報は生もの！『DX Namamono information』

ちょびっとラビット耳よりラピッドニュース

AI事務員宮西さん（データ組織立ち上げ編）

藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門

生情報取材班AI時代に逆行？ヒトが体感した「生情報」のみをお届け！

データはともだち〜怖くないよ！by UpdataTV Original

データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜

インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH

データの壁を越え、文化で繋ぐ。データ界隈100人カイギ

データのじかん・ブラウザツールbrowser tools

データ越境者に寄り添うメデイア「データのじかん」が提供する便利ツールです。
本ツールは、JavaScriptを用いてお客様のブラウザ上で処理を行います。サーバーとの通信は行われず、入力データはお客様のみの端末内で処理されます。

ツール一覧へ

気になるキーワード

DX BIツールデータ活用 LocalDX API 適応課題技術的問題ウイングアークキーワードデータ分析データのじかん編集部だより AI データドリブン経営ビジネストランスレーター

モバイルバージョンを終了