【AI-OCRツールをご検討・ご利用の方へ】AI-OCRのサンプルケースを公開
AI-OCRの実力とは?
OCR(光学文字認識)の処理工程にAI技術を組み込み、文字の読取精度を大きく向上させたものがAI-OCRです。文書の電子化において有効性が高いといわれているAI-OCRですが、実際の実力がどの程度のものか、ということはあまり知られていないのではないでしょうか。
そもそもAI-OCRを導入している企業でもない限り、AI-OCRによる読取結果を目にすることはありません。
今回は実際にAI-OCRを用いた読取テストの検証結果をご紹介します。
読みやすい文字、読みにくい文字
活字と手書きにおける検証結果の一例をご紹介します。
活字の読取
機械から出力された活字については、AIを用いないOCRソフトでも読取精度が高いのですが、AI-OCRを用いると95%以上の読取精度が当たり前になってきています。
しかし、読取精度をどれだけ向上させたとしても、読取精度を100%とすることは現実的には不可能と言われています。その理由は、印刷元データの解像度や、印刷出力時に生じる文字のカスレや歪み、紙媒体自体のしわや、紙の繊維に挟まった汚れなど、読み取りを妨げる不測の事態によって、判読が困難な文字が出てくる可能性があるためです。
ただし、AI-OCRによる読み取り処理を前提として、紙媒体の品質や、読み取り範囲の規則性、活字の文字サイズなどを適切に整えておく事ができれば、ある程度の不測の事態も織り込みながら100%の読取精度に迫る結果を出すことも可能です。
しかしAI-OCRの強みは、機械で出力された活字だけではなく、人が書いた手書き文字に対する高い読取精度です。
手書き文字の読取精度
状況によって大きく変わりますが、手書き文字を対象とした読取精度は、近年では95%程度まで向上しています。
こちらは当社で実際に記入した手書き文字をAI-OCRで読み取りを行った例です。こちらのサンプルでは、100%の読取精度が出ています。
画数が多い漢字も簡略化されずに書かれているため、AIはしっかりと正しい文字を判断することができました。この程度の文字であれば、AI-OCRは十二分に機能するといえます。
実際にAI-OCRの処理対象となる手書き文字は、普段の業務で使われる書類である場合が多く、そうした書類に書かれた文字は、丁寧で美しい、とは程通い書体であるものも少なくありません。極端な例でいえば、日本語かも怪しい走り書きの電話メモが机に残されていた、という経験がある方もいらっしゃるかもしれませんが、人間の目でも判読が難しいクセ字や達筆な文字をAIが正確に判断できるかとなると、非常に難しいものがあります。
読みとりを阻害する要素
OCR処理において、読取精度を低下させる要素にはどのようなものがあるかご紹介します。
文字自体の変形
先にも述べましたが、文字のかすれや傾きなどは、読み取りを妨げる代表的な原因です。古い文書によく見られる紙自体の日焼けや汚れや、文字の上に沿った折られた跡なども読み取りを阻害する原因となります。
他には、薄い文字や黄色といったコントラストが低い文字は、光学文字認識の特性上、光を当てて読み込む際に、文字が光に溶け込み消えてしまう可能性があります。
また、活字における「㎡」や「㈱」といった特殊文字や、網掛けや背景に色が引かれた文字、縦書きや横書きが混在していて規則性がない原稿、文字の間隔が狭く詰まって書かれた文字なども、OCR処理においては読取精度が低下する傾向があります。
こうした要素はそもそも文字の形状が本来のものに比べて大きく異なってしまうため、AI-OCRであっても読取精度を高めることは困難です。
シンプルな形状こそ難しい
画数の多い複雑な漢字は、読取精度が高くなるか低くなるか、どちらだと思われますか?
文字が簡略化され過ぎている、あるいは、線が重なって文字がそもそも潰れている、という状態でなければ、実は複雑な文字のほうが、読取精度が高くなる傾向にあります。細かな特徴が多いほど判断材料も多くなるため、かえって複雑な文字のほうがAIは得意なのです。
逆に、シンプルな形状の文字は、判断材料が少ないため読取精度が下がる傾向があります。
例えば、「ト」と「イ」などの文字は、書き手の癖から生じる傾きやズレ次第で、AIは全く別の文字と認識してしまう場合もあります。AI-OCRはAIの深層学習により読取精度が向上するといわれていますが、このような単純な文字はそもそも得られる情報量が少なく、書き手による個体差も手伝い、読取精度の向上は難しいといわれています。人間であれば、文章の流れから文字を判読することもできますが、AIが微妙な差異を正確に判断することは困難です。
こちらは当社で実際に記載した手書き文字をAI-OCRで読み込んだ例(人名)です。
名字に関しては、手書きの「口」の字が大きく崩れていますが、「山口」と読み取ることができました。
しかし名前の方は、この手書き文字は人間でも判断が難しいレベルです。人によっては過去の人名の知識から、「大介」ではないかと推測できるかも知れません。AIは「又」と判断しています。確かに一文字として見ると「又」のほうが正しい判断とも思えます。
このように、以前に比べAIの判断力は優秀になってはいますが、人間の判断力に比肩できない場面も存在しています。
読取精度を高める工夫
OCR処理において読取精度を高めるためには、どのような方法があるのでしょうか。
それは、AIでも人間でも読みやすい文字を書き手に書かせるデザイン設計です。
ガイドラインを設ける
例えば、白紙の紙に手書きで自由に文書を書くと、書き進めていく内に行自体が斜めに傾いてしまう事もあります。人間の腕はその構造上、回転する動作をとるようになっているので、並行に文字を書き進める動作は実は難しいものなのです。
先の説明にあるように、文字の傾きは読取精度を低下させる原因のひとつとなります。そこで、学習ノートや手帳にあるように、横線に沿って文字を書けば、文字の傾きをある程度抑制することができます。更にいえば、原稿用紙のように、一文字がマス目の中に納まるような様式を用いれば、精確な文字を書く意識が働き、より読取精度も高めることもできます。
実際に電子化する文書においては、このように文字の記載範囲を制限するなどの工夫を施しておくことで、読取精度を高めることができます。
ストレスなく書けるスペースを設ける
書き手が窮屈することなく書けるスペースの確保も重要です。
例えば、申込書などでは住所を記載する項目がありますが、この項目が非常に狭いスペースだと、そのスペース内に収めることを第一の目的としてしまうため、長い住所になるほど、自ずと読みづらい記載になってしまいます。住所の最後の方で余白が少なくなり、急に小さな文字になったり、スペースからはみ出してしまったりという経験は誰しもがあることでしょう。書き手がストレスを感じずに書けるようなレイアウトの工夫も重要な要素のひとつです。
動作経済の原則では、人間の動作群において効率的で有効な動作を組み合わせることで、生産性向上を果たすことを目的としていますが、書き手にやさしい設計を施すことで、OCR処理を高めるだけでなく、記入のしやすい様式とすることができます。
NTT印刷の「まるごと電子化(プリドキュ)」では、AI-OCRによる文書電子化だけでなく、印刷会社として培ったノウハウを活用した帳票デザインの改善を提案する「帳票コンサルティング」を設けています。OCR処理を前提とした様式の作成だけでなく、誤記入や記入方法の問い合わせといった不要な対応を軽減する提案をご提供します。
またOCR処理においても、OCR処理後のデータを取り扱う業務を自動化し、労力を軽減するRPAのご提案も可能です。
是非一度、お問い合わせください。
AI-OCR利用時は、様式のデザインも含めて検討しましょう
実際の業務にAI-OCRを組み込み、高い精度の結果を出すためには、まず初めにAI-OCRの文字認識率100%は達成不可能である点を理解し、AIの読み取り精度に依存せず、読み取り自体を良好にするために、記入先となる様式のデザインの検討や、文書品質の確保といった、補助的な対応も踏まえる必要があります。
新型コロナウイルスの感染拡大で、企業経営にはテレワーク機能が欠かせない状況となっています。
円滑なビジネスの運営のためには、社内の紙文書の電子化を実施し遠隔でも書類が閲覧できる環境作りや、AI-OCRにより入力業務を自動化するなど、場所を選ばず業務が進行できるよう、生産性を高めなければなりません。
請求書や見積書、契約書や納品書などの証憑書類は電子帳簿保存法に基づき、申請と保存手続きを施すことで、紙文書を電子化して保存することが可能となっています。
この機会に、AI-OCRを利用した紙文書の電子化を検討されてはいかがでしょうか。
参考: