このソリューションは、同社が参画するスタンフォード大学の企業参画プログラムで開発されたAIを中核とした、ダークデータ分析エンジンを活用。請求書や診療明細書といった、発行元によって様式や表記が異なる非定型ドキュメントにおいて、取得したいデータの抽出作業を自動化・高度化する。一般的なOCRやAI-OCRでは解析が難しいドキュメントにも対応し、日々蓄積するダークデータの中から、価値あるデータを導き出し、経営判断の迅速化やビジネスの変革に貢献していくという。
ソリューションの特長
非定型ドキュメントからのデータ抽出を効率化
ドキュメント内の視覚情報を特徴として捉え、文書を解析する「情報表現構造解析技術」により、対応が難しかった非定型ドキュメントのデータ抽出を可能にする。
例えば、日付の表記が「発行日」と「診察日」など、発行元によって異なる用語が使われている場合にも、同じ意味を指す単語として認識でき、抽出対象が複数ページにまたがるドキュメントでも、対象となる項目を抽出することが可能となる。また、一つの区分に対し複数の項目が紐づく1:Nの関係も正しく認識する。
これにより、データ処理時間を削減し、得られたデータを迅速に業務改革に活用するなど、高度な業務にリソースを充てることが可能となる。
導入時・改定時の作業負荷や期間を削減
少ない学習データでAIモデルを生成する「弱教師学習技術」により、データのラベリング作業を自動化する。そのため、モデル構築の期間短縮やコスト削減が可能となるほか、追加学習や再学習といった、モデルの継続的な改善にも柔軟に対応できる。用意する学習用データを削減できることで作業負荷を軽減するため、、導入時だけでなく、法改正や商品改定にも迅速に対応でき、運用の効率化が可能となる。
なお、このソリューションでは、同社の専門エンジニアが、顧客の業務で扱うドキュメントに適したモデルの構築を行うなど、業務内容に応じた導入・運用のコンサルティングも行う。また、他システムとのデータ連携を可能にするAPIにより、既存のシステムとの連携も効率化するとしている。