パーソルプロセス&テクノロジー、ディープラーニング技術の活用によるOCRエンジンを開発

非定型の帳票からデータ抽出を可能にしRPAとの接続で生産性向上を実現

 パーソルグループのパーソルプロセス&テクノロジーは、シグフォスと共同で、ディープラーニング技術を活用したOCRの文字認識技術を開発し、非定型の帳票から必要な情報を抽出・デジタルデータ化するソリューションの提供を8月7日より開始すると発表した。

[公開日]

[著] BizZine編集部

[タグ] AI・機械学習 OCR

  • このエントリーをはてなブックマークに追加

 パーソルプロセス&テクノロジーとシグフォスは、ディープラーニング技術を活用したOCRの文字認識技術を共同で開発し、従来の技術では認識することが難しかった非定型帳票からの情報を認識、デジタルデータ化するソリューションの提供を開始するという。

 このソリューションは、ディープラーニング技術を活用したOCRエンジンが、非定型の帳票から企業名、名前、住所などの文字を認識し、アナログデータからデジタルデータに変換するもの。具体的には、あらかじめ読み込ませた帳票から特徴を抽出し、OCRで読み取った情報と文脈や出現場所から文字を認識。処理後、結果を継続的に蓄積・学習することで、文字認識の正確性を向上し続けるという。

処理の流れ

  1. 画像の陰影や歪み補正する画像処理
  2. 罫線や枠線など書類構造の解析
  3. 書類の中から文字列を検知
  4. 文字を認識
  5. 自然言語処理により誤って認識した単語を正しい単語に修正
  6. データ化された文字を表示