パーソルプロセス&テクノロジーとシグフォスは、ディープラーニング技術を活用したOCRの文字認識技術を共同で開発し、従来の技術では認識することが難しかった非定型帳票からの情報を認識、デジタルデータ化するソリューションの提供を開始するという。
このソリューションは、ディープラーニング技術を活用したOCRエンジンが、非定型の帳票から企業名、名前、住所などの文字を認識し、アナログデータからデジタルデータに変換するもの。具体的には、あらかじめ読み込ませた帳票から特徴を抽出し、OCRで読み取った情報と文脈や出現場所から文字を認識。処理後、結果を継続的に蓄積・学習することで、文字認識の正確性を向上し続けるという。
処理の流れ
- 画像の陰影や歪み補正する画像処理
- 罫線や枠線など書類構造の解析
- 書類の中から文字列を検知
- 文字を認識
- 自然言語処理により誤って認識した単語を正しい単語に修正
- データ化された文字を表示