Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説! | ページ 2 | データで越境者に寄り添うメディア データのじかん
カテゴリー
キーワード
Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!

Apache HadoopとSparkの違いとは? 分散処理フレームワークを基礎からわかりやすく解説!

         

Hadoopは処理能力の拡張性・安定性が高い

Hadoopは米Yahoo!社に所属していたDoug Cutting氏を中心として2006年に開発された分散処理フレームワークです。2004年Googleが論文にて発表した独自の分散処理フレームワークMapReduceをもとに生み出されました。ちなみに名前の由来はDoug氏の息子が持っていたゾウの人形です。

Hadoopのメリットはまずサーバーの台数に比例して処理能力を高められる、いわゆるスケールアウトが可能だということ。Web上のビッグデータはどんどん増え続けます。そんなときHadoopを実装していればコストを押さえつつ対応し続けられるのです。

また、安定性が高いのも魅力のひとつ。どこか一つのサーバーで障害が起こってもほかのサーバーが対応することで処理が止まりません。

ほかにもHadoop Streamingというツールを使えばあらゆる言語でスクリプトを作成できる、自動で同じkeyのデータがまとめられるといったメリットがあり、Yahoo!・Amazon・Facebookなどの有名企業でHadoopは活用されてきました。

ただしHadoopにはリアルタイムで特定のデータを見つけ出すような高速処理には向かない、Hadoop StreamingなしではJavaが必須といった弱点もあります。

SparkはHadoopが苦手なリアルタイム処理が行える

Sparkはデータの格納場所をHDDやSSDではなくメモリにすることでHadoopの10~100倍の速度を実現する分散処理プラットフォームです。カリフォルニア大学バークレー校で開発が進められ、2014年にApacheソフトウェア財団に寄贈されました。

SparkはHadoopが弱点とするリアルタイム処理に対応可能でかつ、データの格納場所の選択肢もHadoop Distributed File System (HDFS)、Cassandraなど多様です。

現在HadoopとSparkは共存関係にあり、「リアルタイムの高速処理が求められるデータはSparkで、メモリに乗り切る以上のサイズのデータを処理する場合はHadoopで」などと使い分けられています。

終わりに

分散処理フレームワークの基礎とその代表格であるHadoop、Sparkの2つについて述べました。記事中でも紹介した通り、Hadoop、Sparkの2つはデータを扱う職業において需要の高いスキルです。

この記事を皮切りにそれらを扱う腕を磨いていけば、データ活用が進む社会において非常に心強い武器となるはず。まずはHadoop、Sparkをインストールして簡単な処理を実行してみましょう!

参考URL

Hadoopとリレーショナルデータベースは「何」が違うのか┃@IT 分散処理 とは┃ITトレンド データサイエンティストにおいて、最も需要のあるスキルとは┃POSTD The Most in Demand Skills for Data Scientists┃Jeff Hale(Medium) Hadoop生みの親が、ゼロックスからアップルに転職した理由┃@IT Apache Sparkとは?:Hadoopに続く分散処理のフレームワーク|データ分析用語を解説┃GiXo

宮田文机

 
分散処理のフレームワーク、HadoopとSpark

1 2

×

メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。


データ活用 Data utilization テクノロジー technology 社会 society ビジネス business ライフ life 特集 Special feature

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!

おすすめ記事Recommended articles

掲載特集

デジタル・DX・データにまつわる4コマ劇場『タイムくん』 デジタル・DX・データにまつわる4コマ劇場『タイムくん』 データのじかんをもっと詳しくデータのじかんフィーチャーズ データのじかんをもっと詳しく データのじかんフィーチャーズ 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 「47都道府県47色のDXの在り方」を訪ねる『Local DX Lab』 DXの1次情報をを世界から『World DX Journal』 DXの1次情報をを世界から 『World DX Journal』 データで越境するあなたへおすすめの『ブックレビュー』 データで越境するあなたへおすすめの 『ブックレビュー』 BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ BIツールユーザーによる、BIツールユーザーのための、BIツールのトリセツ CIOの履歴書 by 一般社団法人CIOシェアリング協議会 CIOの履歴書 by 一般社団法人CIOシェアリング協議会 なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える なぜ、日本企業のIT化が進まないのか――日本のSI構造から考える 日本ビジネスの血流である帳票のトレンドを徹底解説 日本ビジネスの血流である帳票のトレンドを徹底解説 データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ データを武器にした課題解決家「柏木吉基」のあなたの組織がデータを活かせていないワケ BI(ビジネスインテリジェンス)のトリセツ BI(ビジネスインテリジェンス)のトリセツ 入社1年目に知っておきたい差が付くKPIマネジメント 入社1年目に知っておきたい 差が付くKPIマネジメント CIOLounge矢島氏が紐解くトップランナーたちのDXの“ホンネ” CIOLounge矢島氏が紐解く トップランナーたちのDXの“ホンネ” データのじかん Resources越境者のためのお役立ち資料集 データのじかん Resources 越境者のためのお役立ち資料集 AI実装の現在地点-トップITベンダーの捉え方 AI実装の現在地点-トップITベンダーの捉え方 データでビジネス、ライフを変える、面白くするDATA LOVERS データでビジネス、ライフを変える、 面白くするDATA LOVERS データマネジメント・ラジオ by データ横丁 データマネジメント・ラジオ by データ横丁 データのじかんNews データのじかんNews データ・情報は生もの!『DX Namamono information』 データ・情報は生もの! 『DX Namamono information』 ちょびっとラビット耳よりラピッドニュース ちょびっとラビット耳よりラピッドニュース AI事務員宮西さん(データ組織立ち上げ編) AI事務員宮西さん(データ組織立ち上げ編) 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 藤谷先生と一緒に学ぶ、DXリーダーのための危機管理入門 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! 生情報取材班AI時代に逆行?ヒトが体感した「生情報」のみをお届け! データはともだち 〜怖くないよ!by UpdataTV Original データはともだち 〜怖くないよ!by UpdataTV Original データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 データ飯店〜データに携わるモノたちの2.5thプレイス by UpdataTV〜 インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH インサイトーク〜データで世界を覗いてみたら〜by WingArc1st + IDEATECH
close close