10月25日と26日の2日間、奈良先端科学技術大学院大学(NAIST)で情報処理学会 第242回自然言語処理研究会が開催されました。
「NL研」と呼ばれるこの学会で、横浜国立大学大学院の阪本 浩太郎さんが、Genial Technologyのサポートのもと、漢字のOCRエラー訂正手法について論文発表を行いました。
この記事では、OCRのまわりで何が起こっているのか、この手法がどんなインパクトを与える可能性があるのかをお伝えします。
背景
世の中には紙のデータがあふれています。日本政府や大企業がペーパーレス化をすすめてはいますが、直感的に調べたり、手で書き込んだりできるので紙はまだまだ使われ続けそうです。
上のグラフは日本製紙連合会による2019年 紙・板紙内需試算報告から抜粋した情報用紙(コピー用紙等)の国内需要です。縦軸の下部分8割がカットされているのでペーパーレス化による減少傾向が感じられますが、割合にすると2018年から2019年へはたった1%の減少、ほぼ横ばいです。
OCR (光学文字認識) とは、このような紙の資料に何と書いてあるのか理解して、テキストデータとして書き起こすコンピュータ処理のことです。例えば、「Google翻訳」というアプリを使えば、OCR結果を機械翻訳することで、海外旅行で看板に何が書いてあるのか理解できます。
OCRがもっとも役に立つのがRPA (ロボットによる業務自動化) です。RPAは、単純作業はコンピュータに覚えさせて、業務を効率化しようという取り組みです。調査会社IDC Japanによると、2018年のRPA市場規模は前年比成長率113.5%の155億円。
RPAは特に経理、人事、法務といったバックオフィスの事務作業をできるだけ自動化して楽をしようという発想のもとに世界中で流行しています。WinActorやUiPathといったRPAツール名を聞いたことがある方も多いのではないでしょうか。
世の中にあふれている紙の資料は人間には理解できますが、コンピュータにはピクセルの集合としか映っていません。これではRPAを導入しても紙に書かれたデータは利用できません。
ここでOCRの出番です。業務で利用する文書をスキャンしてOCRすれば、コンピュータが理解できるようになります。ADF(オートシードフィーダ)付きのスキャナーを使えば、ホチキスを外すだけで効率的にスキャンすることができます。
課題
RPA + OCR で楽をしようという流れのなかで、東アジアの国だけの問題があります。
漢字のOCRエラーです。
英語ではアルファベット小文字26文字 + 大文字26文字 + 数字 10文字 + 句読点や通貨マークなどの記号を認識できれば、高い精度でOCRすることができます。
他方、日本語は英語に加えて、カタカナ、ひらがな、全角アルファベット、全角数字、そして漢字を認識しなければなりません。常用漢字のみで2,136字もあります。
義務教育を経た日本人には簡単ですが、「主」と「柱」と「注」と「住」と「往」の判別はコンピュータには難しいです。部首が共通している漢字は画像として似ているので、OCRでエラーが発生しやすい。
しかし、漢字のOCRでエラーが発生すると、いちいちユーザーがチェックして訂正しなければならないので、せっかくのRPAの流れが淀んでしまいます。
提案
ここで話題が冒頭に戻ります。
漢字のOCRエラーは、部首を考慮した類似度を使えば高精度に訂正できるんじゃないでしょうか?
例えば、「注文書」という文書タイトルが、誤って「往文書」とOCRされたとします。
これを訂正しようとして従来の類似度を使うと、辞書に載っている「注文書」と「公文書」は、どちらも同じだけ「往文書」と似ているという結果になってしまいます。最初の1字を交換するだけですからね。
阪本氏は、この類似度で部首も考慮に入れることで、正確に「注文書」へ訂正する方法を提案しました。この漢字OCRエラー訂正のための類似度を「漢字ダメラウ・レーベンシュタイン距離」(漢字DL距離)としてNL研で発表しました。
この漢字DL距離がOCRの後処理として実用化できれば、漢字のOCRエラーを従来の手法より正確に修正できるので、業務の自動化が進みやすくなるんじゃないでしょうか。
現在までのフィードバック
NL研では、主に以下のような反応が得られました。
見た目の類似度を測るのなら、OCR前に辞書データを使って生成した画像と画像同士で比べた方が性能がいいかもしれないよ?
辞書データのみを使って学習したAI OCRエンジンを使ったときより正確に訂正できるの?
Genial Technologyではこれらの検証を手伝っていただける有志を募集しています。
Genial Technology, Inc.
クラウドコンピューティングと人工知能によって、会計データクレンジングおよび監査人・被監査会社間の監査証憑の授受を含む、監査手続を自動化するソフトウェアの提供を目的とした米国法人です。
阪本 浩太郎
'19年7月~ 米国Genial Technology, Inc. 業務委託社員
'16年10月~ 東京都立産業技術高等専門学校 非常勤講師
'14年5月 ~ '19年4月 国立情報学研究所 リサーチアシスタント
'15年8月 ~ '16年8月 米国カーネギーメロン大学 言語技術研究所 外来研究員
'11年4月~15年10月、'16年10月~ 横浜国立大学大学院 環境情報学府