帳票OCRとは、スキャナで読み取った紙の帳票の活字、手書き文字、QRコード、バーコード、チェックマークを編集が可能な電子データ(文字コード)に変換するソフトウェアのことを指します。スキャナで読み取った帳票は画像として認識します。
OCR(光学的文字認識)は、「Optical Character Recognition or Reader」のの頭文字です。読み取った画像データに対し、レイアウト解析、行の切り出し、文字の切り出し、図(QRコード、バーコード、チェックマーク)の切り出し、文字認識といった処理を行い、ExcelやWordなどで再利用が可能な電子フォーマットに変換して出力します。OCRは25年以上前から登場はしていましたがかつては文字認識能力に問題があり、特に手書きの文字の認識には多くの修正を必要としていました。
その後、画像処理エンジンの進化、ハイブリッド化(エンジン複数併用)、AI技術の導入などにより、認識能力の精度は飛躍的に向上しました。
「帳票」は法律上、一定の期間の保管が義務づけられていましたが、2005年4月に施行された「e-文書法」により、多くの企業は「電子帳票化」を導入しています。
帳票は、社内で作成したものだけでなく、社外(企業、従業員)から入手するものもあり、これらの領収書や伝票の多くは「紙帳票」でやり取りされています。
OCRは、元データのない社外で発行されたものや電子化されていない過去の帳票の電子データ化を実現してくれるので、
といった効果を期待することができます。
帳票OCRは、帳票業務の効率向上を配慮したOCRで、以下に紹介するような機能を備えています。
帳票の取り込みはクラウド対応のオフィス用複合機などで画像取り込みを行います。多くの帳票OCRでは、複合機の遠隔操作にも対応しており、ADF(Auto Document Feeder|コピー機・複合機に設置されている自動原稿送り装置)等を用いることで大量の帳票を一括して読み取ることが可能です。また帳票OCRは様々な複合機に対応しているため、専用のハードにコストを要することなく、帳票OCRの環境を構築することができます。
フォーマットとは取り込んだ帳票の様式の作成のことで、帳票OCRによっては「テンプレート」ともいいます。画像として取り込んだ帳票の各フィールドの設定、フィールドの属性の指定(活字、手書き、帳票画像)、文字種などを指定することでフォーマットを作成します。また公的書類の帳票であれば、帳票OCRがその帳票をテンプレートとして備えているので、フォーマットを作成することなく、簡単に電子データに変換することができます。
OCR処理を実施することで切り出した文字図を文字コードに変換出力します。この際、元の帳票の手書き文字と文字認識した文字コードに違いがあれば手修正を加える必要があります。多くの帳票OCRでは、認識しにくい文字や元帳票の記入の誤りを検出するエラー機能等を備えています。このような機能は帳票の不備や見落としなどを防いでくれるため、帳票業務のクオリティを大幅に高めてくれます。
帳票には文字だけでなく、バーコードやQRコード、取引先企業のロゴといった商標登録などが記載されています。帳票OCRは項目や数字が記載された帳票の各フィールドだけでなく、帳票に記載されている図も切り出してくれます。帳票ではこれらも重要な情報として取り扱う必要があり、帳票OCRはバーコードやQRコードの画像保存だけでなく、図の文字コード化にも対応しています。
帳票OCRの認識結果は、CVSなどのデータベースのフォーマットとして保存されます。取り込んだ帳票の出力の際は、データベースから帳票のフィールド、図をフォーマットに転記し、ExcelやWordファイル、PDFといったファイル形式で出力することができます。もちろん、プリンタによる紙印刷にも対応しています。
帳票は企業の活動内容を記録した書類です。そのため、帳票は企業内の様々な部署で使用し、また多くの企業では受発注システム、勤怠管理システム、経費精算システムなどを導入しています。帳票OCRで取り込む帳票は社外からの紙帳票、電子帳票化前の社内の紙帳票などですが、電子データ化した帳票を社内の別システムに転送することで、社内の業務システムで帳票が共有できるようになります。
「e-文書法」が施行された2005年4月以降、多くの企業は帳票の電子化を推進し続けていますが、2020年現在、全ての帳票を「電子帳票」としてやり取りするまでには、至ってはいません。
そのため企業の多くは紙帳票と電子帳票が混在した状況下での帳票業務が強いられており、「帳票OCR」は企業の帳票業務に様々なメリットをもたらしてくれます。
帳票OCRの文字認識は手作業による帳票の業務システムへの入力の負担を大幅に削減してくれます。一枚あたりの紙帳票の電子化にかかる時間を劇的に削減し、高い生産性を実現してくれます。
帳票OCRには、各フィールドの入力データをチェックする機能を備えています。OCR処理による文字認識だけでなく、実際に認識データそのものの誤りや不備を検出してくれるので、帳票業務の品質も高めてくれます。
帳票は「法人税法」および「会社法」にて保存期間が定められています。法人税法では7年、会社法では10年の保管が義務付けられているため、紙で帳票を管理している企業では、帳票を保管するためのスペースや保守のためのコストが強いられています。
帳票OCRで電子帳票に変換した紙帳票は、税務署に申請書を提出することで廃棄が認められるため、煩わしかった帳票の保守・管理の手間を大幅に省くことができます。
帳票OCRによって電子化された帳票は、社内の様々な業務システムから閲覧、出力、編集、管理ができるようになるため、社内の帳票業務の効率が大幅に向上します。特にデータベース化による一元管理は、紙帳票の運用でトラブルになりがちな紛失、持ち出し、書類偽装といったリスクから大事な帳票を堅牢に守ってくれます。
OCRには画像識別能力が高い、低いといった括りだけで良し悪しが決めにくく、それぞれの製品の強み、弱みを把握した上で選定する必要があります。
・文字認識能力
「文字認識能力」はOCRのコアとなる技術で精度の高い文字認識力が求められます。帳票には活字、手書き、チェックボックス、マークなど様々な書式・書体が入り混じっています。
画像文字は複雑なアルゴリズム処理を実施する「エンジン」が識別します。ただエンジンには得手不得手があり、どうしても認識できない文字や誤識別してしまう文字などがあります。
こういった弱点をケアするために複数のエンジンを搭載し、適材適所で切り替えながら文字を識別する帳票OCRは精度の高い文字識別を実現してくれます。
・確認・修正作業のしやすさ
帳票OCRの作業はスキャナで読み取ってフォーマットに変換するだけでなく、各フィールドに入力されたデータの確認や修正といった人の手による作業も伴います。
帳票OCRには、確認や修正が簡単に分かりやすく行えるような工夫も取り入れられています。
・生産性の高さ
企業で取り扱う帳票は量だけでなく様式(種類)も多いため、帳票業務には高い生産性と効率が求められます。
帳票OCRには、ADFで大量に取り込んだ様々な帳票の自動識別、スキャン位置の自動補正、誤認識学習、フォーマット作成といった生産性の向上に繋がる様々な機能を備えています。
・出力機能や別システムとの連携性
多くの企業では帳票OCRにて電子化した帳票のデータをデータサーバーに保存することで社内の別の業務システムでも帳票業務を行えるようにしています。CSV出力対応や連携機能を備えているものを導入することで、OCRで取り込んだ帳票をスムーズに社内の業務システムで使用できるようにしてくれます。
帳票OCRは様々なベンダーから提供されており、帳票に特化していないものも含めると市販されている製品数は数十種以上にも及びます。
製品サイト |
|
紹介文 |
OCRだけでなく、文書管理・記録管理、データ活用・可視化、 |
特徴 |
|
費用 |
10ユーザー・ストレージ50GB 50,000円/月〜(税抜) |
開発元 |
ウイングアーク1st株式会社 |
製品サイト |
|
紹介文 |
パナソニック独自の言語処理解析技術により、 |
特徴 |
|
費用 |
製品:398,000円(税抜) |
開発元 |
パナソニックソリューションテクノロジー株式会社 |
製品サイト |
|
紹介文 |
「メディアドライブ」ブランドとして実績が豊富なNTTデータNJK の |
特徴 |
|
費用 |
製品:600,000円(税抜) |
開発元 |
株式会社NTTデータNJK |
製品サイト |
|
紹介文 |
世界シェアNo.1のドキュメントスキャナー、組込みコンピュータなどのハードウェア |
特徴 |
|
費用 |
非公開 |
開発元 |
株式会社PFU |
製品サイト |
|
紹介文 |
TeleForm ReaderはTeleFormシリーズのOCRに特化したアプリケーションで |
特徴 |
|
費用 |
非公開 |
開発元 |
株式会社ハンモック |
帳票OCRが持つ機能と導入することで得られるメリット、そして帳票OCRを選ぶポイントを紹介させて頂きましたが、紙帳票と電子帳票が混在する昨今の帳票業務ではOCRが必要不可欠であることをご理解して頂けたでしょうか?
最後に今回紹介させて頂いた要約をまとめとして、以下に記載させて頂きます。
メルマガ登録をしていただくと、記事やイベントなどの最新情報をお届けいたします。
30秒で理解!インフォグラフィックや動画で解説!フォローして『1日1記事』インプットしよう!