ビッグデータ処理を支えるオープンソースプラットフォーム。ペタバイト単位のデータ処理を可能にするHadoop(ハドゥープ)とは? | データで越境者に寄り添うメディア データのじかん
会員ページへmember

About us データのじかんとは?

ビッグデータ処理を支えるオープンソースプラットフォーム。ペタバイト単位のデータ処理を可能にするHadoop(ハドゥープ)とは?

         

SEなら知っているであろうHadoopですが、そのほかの職種の人だと、IT企業に勤めていてもなかなかその意味を知る機会がないと思います。

そこでこの記事では、Hadoopについて見ていくことにしましょう。

Hadoop(ハドゥープ)とは?

まずはHadoopの説明から。以前、「そもそもビッグデータとは? ビッグデータの定義から活用例までご紹介」という記事でHadoopについて取り上げました。この記事では以下のように説明しています。


「大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォーム」のこと

いまさら聞けないHadoopとテキストマイニング入門 (1_3):テキストマイニングで始める実践Hadoop活用(1)|@IT


Hadoopにより、ペタバイト(1ペタバイトは1テラバイトの1000倍)レベルの非構造化データ(メールや画像、動画などのデータ)の超高速処理が可能になりました。そして大量の情報を低コストで分析できるようになったのです。

HadoopはApacheソフトウェア財団のプロジェクトの1つであり、「Apache Hadoop」とも言われます。Java言語のフレームワークであり、ホートンワークス、米ヤフー、クラウデラといった企業のほか、インテル、マイクロソフトなども開発に携わっています

Hadoopが使われるようになった理由

ネット上に日々蓄積されている情報、たとえばテキストデータや音声、動画データなどはビッグデータとなりえますが、データ量はペタバイトに及びます。この大容量のデータを高速処理するために、新技術が必要となりました。

従来は、データを1つのサーバに蓄積させて計算処理をする、という方法を取っていましたが、これでは重いデータの高速処理に限界があります。そこで、データを複数のサーバに分散させ、各々のサーバで計算処理をさせることで、大容量データの処理を可能にしたのです。

しかしながら、サーバを複数に分散させるには、各サーバをネットワークでつないだり1カ所のサーバが止まった時に対処できるようにしたりする必要があり、複雑なシステムの構築が求められます。そこで、それらを解決する手法であるHadoopが使われるようになったのです。

Hadoopの2つの要素

Hadoopは、大きく分けて次の2つの要素から成り立っています。

 
Hadoopの今後

1 2

データ活用 Data utilization テクノロジー technology 社会 society ビジネス business ライフ life 特集 Special feature

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!

おすすめ記事Recommended articles

データのじかん会員なら、
全てのコンテンツが
見放題・ダウンロードし放題
データのじかん会員でできること
  • 会員限定資料がすべてダウンロードできる
  • セミナー開催を優先告知
  • 厳選情報をメルマガで確認
会員登録する
データのじかん会員について詳しく知りたい方
close close