プリントアウトした書類も、手書きの書類も電子化できるOCRとはどんな技術!?どのくらいの精度で読み取れるの? | データで越境者に寄り添うメディア データのじかん
会員ページへmember

About us データのじかんとは?

プリントアウトした書類も、手書きの書類も電子化できるOCRとはどんな技術!?どのくらいの精度で読み取れるの?

         

かつて紙の資料の電子化は文字を打ち直すしか方法がなく、手書きもそうでないものも一様になかなかやっかいな存在でしたが、最近では、印刷した活字はもちろんのこと、手書きの文字でもかなりの精度で電子化できるようになってきました。

その立役者となったのが「OCR」と呼ばれる技術なのですが、このOCRとは一体どのような技術なのでしょうか?そして今、かつては想像し得なかった多種多様な業種でOCRが注目を集めているのはなぜなのでしょう?

その技術の秘密に迫ってみました。

文字は自動入力の時代!OCRとはどのような技術なのか?


OCRとは「Optical Character Recognition/Reader」の略で、光学式文字読み取り装置や、光学式文字認識などと訳されます。

OCRとは、印刷された文字や手書きの文字をスキャナやカメラで画像として取り込み、画像から文字を認識して文字コードに変換する技術のことです。しかし、ページレイアウトによっては、縦書きや横書きが混在したり、文中に図表があったり、多段組みなどの書式では、意図したとおりにデータ化するのが難しい場合もありました。これなら、人間が手入力したほうがよっぽど早いし正確である、という時代が長く続きました。

しかし、目覚ましい技術の進歩によりレイアウトを自動で解析し、図表やコラムなどのブロックと文字を識別し、文字の配置を正しく読み取ることがだんだん可能となってきました。また、複雑なレイアウトでは、ブロックごとに読み取る順番を人が指示することにより、OCRが徐々に学習し解析精度が上がっていきます。一度解析したレイアウトは、同じ書式なら次回から指定することなく自動で読み取り順番を正しく認識し、データ化してくれます。

癖のある手書き文字でも、認識した文字の変換候補を人が正しく選択することにより、繰り返しの作業で学習し、使い続けるほどに識字率が上がることが特徴です。そのため、段々と手入力で修正にかける時間が少なくなります。初見では判読するのが難しい癖字でもOCRが書いた人の癖を分析し正しい文字コードに変換してくれます。

表の枠や各項目の幅など、レイアウトを保持したまま出力できるため、WordやExcelで流用したり加工したりと自由自在にデータを活かせるため、業務の効率化にもつながるでしょう。

解明!OCRが重要視されている理由とは?


OCRなら、人間がキーボードや音声で文字入力をする必要がなく、簡単に処理することが可能です。

テキスト形式の文字データなら少ない容量で多くのデータを記録することができます。紙ベースの膨大な書類をデータ化することにより、正規表現検索などで効率よく書類の検索が可能です。重たい紙ベースの資料ファイルを手に取って書類を探す手間がなくなるのはかなりの時短にもなります。何より、紙ベースで保管するために広いスペースで保管していた書類が非常にコンパクトにデータ化されるため、管理の手間も省けます。

このように、手書きの書類が電子化されペーパーレスになることによって、多くのメリットが実感できるでしょう。

続いて、OCR技術の進歩の歴史についてご紹介します。

 
ここまで来た!OCR技術の進歩の歴史

1 2 3

データ活用 Data utilization テクノロジー technology 社会 society ビジネス business ライフ life 特集 Special feature

関連記事Related article

書評記事Book-review

データのじかん公式InstagramInstagram

データのじかん公式Instagram

30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!

おすすめ記事Recommended articles

データのじかん会員なら、
全てのコンテンツが
見放題・ダウンロードし放題
データのじかん会員でできること
  • 会員限定資料がすべてダウンロードできる
  • セミナー開催を優先告知
  • 厳選情報をメルマガで確認
会員登録する
データのじかん会員について詳しく知りたい方
close close