TISは、仕様書・研究論文・設備点検報告書などの紙文書をデジタル化し、企業資産の有効活用につなげる「文書アーカイブDXサービス」を提供開始する。
同サービスでは、過去の仕様書・研究論文・設備点検報告書などを紙で活用している顧客向けに、紙のデジタル化からAI OCRで記載されている画像・文字をテキスト化する。アーカイブ文書として紙で保存・保管している資産をデジタル化することで、今まで文書捜索に要していた時間の短縮と、過去に実施した研究結果の活用や重複研究の防止、情報共有による技術伝承などに役立てられるという。
同社グループが提供する紙文書のスキャニングプロセスをアウトソーシングできる文書スキャンBPOと、フォーマットから文字箇所を定義せずにOCRすることが可能なPaperoidの「ドキュメントAI-OCRサービス」を組み合わせて提供するとしている。
サービスの特徴は以下のとおり。
- 紙文書の電子化(PDF化)から対応が可能:文書の画像化に向けたホチキス外しやファイル取り出し、裁断などのスキャン作業をアウトソーシング可能
- 文書画像の文字箇所をAIが自動認識:読取箇所の定義をAIが自動で認識。OCR化する文字の範囲を手動で指定する必要がなく、対象の原本PDFに含まれる文字をすべてテキストデータ化することが可能
- キーワード検索が可能:Paperoid上だけでなく、読み取った文書画像データを出力するとPDFに透明テキストとして埋め込まれる。そのため、ファイル自体から直接キーワード検索することが可能
同社は今後、紙文書のデジタル化だけでなく、NLP(自然言語思慮)と組み合わせて項目や文章が異なる類義語を同様の趣旨として理解させて抽出したり、文章構造を理解して原因分析に使用したりするなど、顧客の用途に合わせた文書活用を提供していくという。