このコンテストは、一般的な名刺に記載されている各項目の分類を推定して、自動でラベリングできるアルゴリズムを作成し、最も正解率の高いアルゴリズムが優勝するもの。
Sansanでは2013年4月から文書画像解析のスペシャリストによる専門の研究部門を創設し、現在名刺読み取り技術の主流となっているOCR(光学文字認識)に加えて、事業のグローバル展開のため、言語に依存しない独自の名刺画像解析エンジンや、機械学習を用いて読み取りを効率化する研究開発を行っている。
また、オペレーションシステムでは、セキュアかつ効率的な入力を実現するために、できる限り名刺を細かく切片化して作業を行っているという。名刺に記載されている項目をOCRを利用して100%正確にレイアウトを解析し、文字を読み取り、項目を推定するにはまだまだ課題があるのが現状だという。
今回のコンテストでは、よりセキュアな環境を構築するべく、自動で項目を推定しラベリングできる、そんなアルゴリズムの作成に挑んでもらうとしている。
■コンテスト概要
- 名称:データサイエンティスト向け分析コンテスト「人工知能は名刺をどこまで解読できるのか?」
- 主催:Sansan
- 後援:日本アイ・ビー・エム
- 運営:オプトホールディング データサイエンスラボ
- 開催予定日時 : 8月1日~9月30日
- 懸賞金:1位30万/2位20万/3位10万
- コンテストの詳細と参加登録:Webサイト