ドキュメント画像認識
ロゴのぼけと重なりの対応
例えば、下の例でドキュメントから“Future”というロゴマークを見つけ出そうとした場合、以下のようにぼやけたロゴマークや他のオブジェクトが重なっているロゴマークがありました。そのままでは機械学習AIツールはこれらをロゴマークとして認識しませんでした。
我々は現象を解析し、PDFドキュメントのこれらのロゴマークを調査しました。
ロゴのぼけ
ぼやけたロゴのドキュメントは分析した結果、すべてもともとはテキストファイルを
PDF化したものであることが判明しました。
それによりPDFをシステム内で自動的に元のテキストファイルに戻してやるロジックを追加し、もともとのロゴマークのコードが何だったのか判定するロジックを追加することで、探しているロゴマークであることを判断しました。
オブジェクトとの重なり
他のオブジェクトが重なる事象については、システム内に画像分離させるロジックを入れ
ることで、他のオブジェクトが重なっていない部分だけを取り出し、画像認識させ判断しました。
システムと人の判断の違いについての対応
お客様の要望であるチェック規定の中で、例えばロゴの縦横比や最小サイズといったもの、または、色のチェックといったものが規定集にあります。
今までチェックしていた人は単純に規定値と比べているのではなく、過去の経験から目検で判断しています。
また実際は微妙に規定の数字とも違ってきていますので、システムがそのまま規定通りにチェックしてしまうと今までOKだったものがNGとなったり、その逆も発生してしまいました。
サイズについて、システムは正確なロゴを規定どおりの縦横比や最小サイズの一辺を測りチェックします。
また色については正式ロゴの光三原色RGBや色三原色CMYKを測ってその値と規定値をチェックします。
当然、数値だけを比較してチェックをしてしまうと多くのものは全てNGとなってしまいますので、少し幅(誤差値)を持たせる設計が重要です。
そのためにシステムに持つそれぞれのチェック数値に閾値をパラメータとして、簡単に調整出来る設計をしました。
その上で、検査する人の目検と多くの同時テスト結果から最適な閾値の数値調整を施しました。
現場特有の要求アルゴリズム追加図
AI画像認識製品に加え、新たなアルゴリズムを作成してシステムに追加しました。
・AI画像認識製品に対象ドキュメントを取り込む前に加工(データプレパレーション)する部分
・またAI画像認識製品に平行して特殊判断を入れ、両方を突合することで最終結果を出力する部分