従来のOCR(文字起こし)の課題
OCR(文字起こし)は、画像から文字情報を抽出する技術です。
帳票・免許証・会員カードなどの読み取りに幅広く使われています。
近年の技術進化により、スキャン画像など文字が綺麗に写っている画像は、十分な精度で読み取りが可能になりました。
しかし、以下のような場合はいまだに読み取り精度が低くなります。
- 手ブレ等で文字部分がぶれている
- ピントが合っていない
- 文字が小さくしか映っていない
- 画像が低画質
たとえば、1枚の書類をスマホカメラで撮影する場合を考えてみてください。
全体を綺麗に撮るのは案外難しいものです。
一部の文字はピントが合っていなかったり、ぶれていることも多いでしょう。
そのため、全体を精度良く読み取れない可能性があります。
弊社は超解像技術を用いて、これらの課題に対応いたします。
超解像を用いたOCRの開発
超解像は、低画質の画像を鮮明で高画質な画像に変換する技術です。
ここ数年世界では、文字に特化した超解像技術を用いて、不鮮明な文字をクリアにしてからOCRをかける研究が行われています。
クリアにすることで、読み取り精度があがったという結果が報告されています。
しかし、日本語に対応した超解像AIはほぼありません。
そこで、弊社は独自に超解像を組み込んだOCR(以下、超解像OCR)の開発に着手しました。
現在開発中の超解像OCRで文字読み取りをした結果は、以下のようになります。
オープンソース(以下、OSS)のOCRを用いた結果も併せて提示いたします。
超解像OCRとOSSのOCRで性能の比較も行いました。
このように、超解像OCRはOSSのOCRと比べて、ぼやけた画像に対する読み取り精度が約2倍高いことがわかります。
超解像OCRのメリット
超解像OCRのメリットは前述のとおり手ブレやピンボケに強いことです。
この特性は、以下のようなユースケースがマッチすると考えています。
- 荷物に貼られている伝票など、スキャンできない文字を読み取るケース
- BtoCアプリにて、一般ユーザーが撮影した画像から文字を読み取りたいケース
- システム制約で低画質な画像しか扱えないが、文字を読み取りたいケース
その他の特徴
クラウドサービスやパッケージで提供されるOCRサービスは、カスタマイズに限界があります。
例えば、独自のフォント・記号は読み取れない場合があります。
弊社は、そのような特殊な文字も読み取れるよう、モデルのカスタマイズも対応いたします。
お気軽にご相談ください。
【補足】超解像OCRの技術
超解像OCRの要素技術は「文字検出」「超解像」「文字認識」に分かれます。
このうち、「超解像」と「文字認識」部分を弊社独自で開発しています。
「超解像」部分について、以下のような工夫を行いました。
- "オープンデータ・データセット"と"アルゴリズムで作成した画像データ"と"カメラで撮影した画像データ"を混ぜた独自データセットを作成
- モデルは、既存モデル(TPGSR)をカスタマイズして使用
文字認識については、以下のような工夫を行いました。
- "オープンデータ・データセット"と"アルゴリズムで作成した画像データ"と"カメラで撮影した画像データ"を混ぜた独自データセットを作成
- モデルは、既存モデル(CRNN)をカスタマイズして使用
詳細は以下のブログをご参照ください。 超解像OCRの実験記録① 超解像OCRの実験記録②