先日、ドイツから来日したキャプチャーとOCRのエキスパートとディスカッションする機会がありました。いくつか印象に残った点について、この機会にご紹介しようと思います。
ユーザーとの事前の意識合わせが重要
彼が携わるプロジェクトでは、まずOCRの現在の実力をお客様に正しく理解していただくところからスタートするのが基本とのこと。後々になってお互いの誤解を生じない上でも重要とのことです。これは日本でも全く同じ基本だと思います。
スキャン以前の紙の状態がカギ
請求書であれ、注文書であれ、OCRにかける前の原紙の状態が一つのカギになります。
- 文字の上に印鑑が押してあって、下の文字が読めないもの
- 紙質が悪い、文字がにじんでいるもの
- 複数回コピーしたものや解像度の低いFAXで受信したもの
こうしたものの読取精度をいくら上げようと頑張っても限界があることを、前提として理解しておく必要があるということです。日本語より圧倒的に文字種類の少ない欧文(英語)文化圏であってもそうなのだ、と再認識しました。
またスキャン解像度も300dpi以上の解像度を推奨するとのこと。これは日本でも全く同じですね。
ビジネス視点からプロセスを設計
また、ビジネスインパクトの視点から、そしてEnd to End のプロセス全体の効率性の観点から、導入後の新業務プロセスを評価・検討することの重要性も指摘されました。
例えば、対象書類の全体の中で、最も受領頻度や枚数が多い相手方の様式に対応できるかどうか。またOCRで認識した結果を、いかに効率よく修正することができるか、といった点をきっちり押さえることが重要、とのこと。前者は、生産性向上による効果とROIを見極めるポイントですし、後者は新プロセス全体の中での人的作業と負担を(効果を相殺しないように)設計するための要素となります。
ありがちですが、高い認識率を達成することに固執しすぎると、うまくいかないと業務が回らないようなプロセスを設計してしまうリスクがあります。現実的な見通しを持ってオペレーションのフィージビリティを評価しながら、業務プロセスの設計を行うことが重要ということです。
欧州では歴史的な標準化が存在する?
国や地域の特色という点では、相対的にみて欧州圏の請求書レイアウトでは、歴史文化的に比較的標準的な形式(制度としての標準ではない)が一般的だとのこと。様々な取引先から受領する多様なレイアウトの書類をOCR処理する業務では、こうした点も導入のハードルに影響してくるのかもしれません。実際、欧米向けインボイス用のサンプルテンプレートを見ると、OCRしたタイトルやヘッダー文字列を基準として、その右横や下に存在する一定パターンの文字列(数値)を対応するフィールド値として汎用的に取り出すテクニックを目にします。日本の請求書でこの手をストレートに応用するのは、ちょっと難しそうです。
OpenTextでは、OCRテクノロジーを使って各種の伝票やドキュメントといった紙を入力とする業務をデジタル化して効率化するソリューションを各種用意しております。ぜひ一度お問い合わせください。