「ちょっとこのデータを入力しておいてくれる?」
「キャンペーン施策の結果を分析したら、予想とまったく違う結果が出たよ。データが間違っているのかなあ」—— 等々、私たちは普段の仕事で何気なく“データ”という言葉を使います。
さて、この「データ」という単語について、みなさんは意味をご存じでしょうか?
『大日本百科事典』(小学館, 1980)は、データという言葉を次のように定義しています。
データ(data) : データム(datum)の複数形で、「論拠・基礎資料、実験や観察などによって得られた事実や科学的数値」などを意味する。「与える」意のラテン語ダーレ(dare)の受身形からでたもの。
近年はデータというと「数字」や「コンピュータが処理するもの」と捉えられがちですが、もともとは「客観的で再現性のある事実や数値」であり、必ずしも数字やコンピュータ分野の専門用語というわけではなかったようです。もともとラテン語のdare自体が「与える」という意味であり、「事実や知恵を与える・共有する」という意図も含んでいると考えられます。
・フリー百科事典ウィキペディア(Wikipedia)「データ」
ちなみに、国際標準化機構(International Organization for Standardization:ISO)と日本工業規格(Japanese Industrial Standards:JIS)ではデータを次のように定義しています。
国際標準化機構の「ISO/IEC 2382-1」および日本工業規格の「X0001 情報処理用語-基本用語」において、「データ」の用語定義は “A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing.”「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」とされている。
(日本版Wikipedia「データ」より転載)
この定義に則って考えると、コンピュータのデータは、「コンピュータを使って伝達、解釈または処理に適するように形式化されたもの」といえます。文字データであれば「.txt」、画像であれば「.jpg」などそれぞれに適したフォーマットがあり、それぞれのフォーマットに適したソフトウェアでデータを読み込めば、情報として解釈(再現)できます。
データサイエンティストになると、コンピュータを使って膨大なデータを処理し、意味ある情報を“発見”することが求められます。さすが、データのプロフェッショナルですね。
ここまでは“データ”の定義や概念について紹介しました。
ここでは、もう少し具体的に、コンピュータのデータの基礎的な内容について触れてみたいと思います。
コンピュータで使用するデータは、”0”もしくは”1”で表されたデジタルの2進数で取り扱われます。
この“0”、”1”という値は磁気や電子などの物理量を置き換えることで表されます。
磁気であればハードディスクの磁性金属粒子の磁気の方向、電子であればメモリの半導体セルに印加されている電圧の値でコンピュータは”0”、”1”を区別します。
昨今では、電力を供給しなくてもデータを保持し続ける不揮発性メモリ(NAND)の進化により、データの高集積化と処理の高速化を実現しています。
デジタルの2進数のデータでは、“0”と”1“の2状態しか示せません。
例えばテキスト文字なら8個(ASCII)、フルHD(1920×1080)の写真(256色)なら16,588,800個のデータを必要とします。
この1個のデータの単位をbit(ビット)と言います。
bit数のままだとデータの大きさと中身の関係が分かりにくいため、8bitの集合体を1とするByte(バイト)といった単位が用いられています。
こうすることで、例えばテキストのデータが64Byteだった場合、文字数が64文字であることが即時に把握でき、データが取扱いやすくなります。
デジタル技術の進歩、通信速度の向上、活用する人の増加に伴いデータの取り扱う量は劇的に増加し続けています。
特に写真、音声、動画等のデータは非常に膨大で、データ量の桁数は増え続けるばかりです。
増え続けるデータ量を単純に示せるよう、データには接頭辞が持ちられており、2022年でスマホの一般的なメモリ容量137,438,953,472bit(ビット)は128GB(ギガバイト)として表されています。
このG(ギガ)は国際単位系 (SI) における接頭辞で109(=十億)倍の量を示します。
かつてG(ギガ)は“膨大”とったニュアンスを示す言葉としても用いられていましたが、T(テラ)のデータ量が当たり前になった最近ではインパクトが弱くなりつつあります。
最近のデータでよく用いられているSI接頭辞を以下にまとめておきます。
記号(接頭辞) | 10n | 十進数表記 | 漢数字表記 |
P(ペタ) | 1015 | 1,000,000,000,000,000 | 千兆 |
T(テラ) | 1012 | 1,000,000,000,000 | 一兆 |
G(ギガ) | 109 | 1,000,000,000 | 十億 |
M(メガ) | 106 | 1,000,000 | 百万 |
k(キロ) | 103 | 1,000 | 千 |
デジタルの根底の技術は“通信技術”にあります。
通信とは、インターネットをはじめとするコンピュータ同士やコンピュータ内の電子部品間のデータのやり取りのことです。
モノ同士でデータをやり取りする場合、お互いが認識できるよう集合体の中身を決めておく必要があり、この中身をフォーマット、量をパケット・フレームといった単位などで表記します。
またデータ形式は、コンピュータ上のファイルの記憶方式を示す拡張子(txt、jpeg、mpgなど)を指す場合もあります。
現実社会をコンピュータで取り扱うには、データをより抽象化する必要があります。
ここでいう“抽象化”とはデータを一定の構造や形式にすることで、これによってコンピュータのプログラムは必要な情報を用いた自動処理などが行えるようになります。
数値、物理量をどのようにデータで表現するか?の取り決めをデータモデルといい、ファイルやデータベースなどの中身は、データモデルのフローやダイアグラムに従って作成されます。
データを活用するには、目的に応じた形にする必要があります。
これは単一、もしくは複数のデータをインプットし、プログラミング(アルゴリズム)によって実行される集計・加工・変換といったデータ処理後にアウトプットする、といった過程で経て作成します。
デジタルにおけるデータ処理は基本、加算の繰り返しで、コンピュータの演算処理装置であるCPUは、プログラムに命令された内容に従い、データを処理します。
そんなデータですが、いわゆる「コンピュータで扱う電子データ」の活用が盛んになってきたのは最近のことです。
企業の基幹システム改革が進められるようになった1990年代後半からあらゆる企業活動のデータが蓄積されるようになりました。そして2000年以降に入ると、今度は日常生活においてもインターネットが浸透し始め、ネットを介したモノやサービスの流通が始まるようになります。また、2008年に登場したスマートフォンをはじめ、以下のようなデジタル技術・ITツールなどの登場により、普段の生活やビジネスで流通するデータ量は劇的に変化しました。
・ビックデータ
従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群で「様々な形をした、様々な性格を持った、様々な種類のデータ」を指します。
・AI(Artificial Intelligence)
「言語の理解や推論、問題解決などの知的行動を人間に代わってコンピュータに行わせる技術」のことで、自然言語処理・音声認識・画像解析などを指します。
・BI(ビジネスインテリジェンス)
企業などの組織のデータを収集・蓄積・分析・報告することにより、経営上などの意思決定に役立てる手法や技術を指します。企業に蓄積された大量のデータを集めて分析し、迅速な意思決定を助けるためのツールをBIツールといい、経営管理や売上のシミュレーションなどに活用されています。
・オープンデータ
一切の著作権、特許などの制御メカニズムの制限なしで、全ての人が望むように利用・再掲載できるデータのことです。個人や企業では調査が難しい、もしくは調査できない範囲の様々な分野の公共データが公開され続けています。
いまも世界のどこかにいる誰かが自分のつぶやきや画像、位置情報などを発信し続けているでしょう。有史以来初めて、かつてないほどのデータに取り囲まれながら、私たちの生活やビジネスはこれからも変化し続けるのです。
・機械学習
【参考文献】『大日本百科事典』(小学館, 1980)
(岩崎史絵)
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!