自然言語処理とは、日常的に使っている言語(自然言語)をコンピューターに解析させる一連の処理を指し、検索エンジンや機械翻訳、対話システム、顧客の声分析など、生活・ビジネスにおけるさまざまなシーンで利用されている。
日本語の自然言語処理の場合、主要な他言語と比べて、公開されているデータセットの数が圧倒的に少ないという課題があるのだという。日本語の自然言語処理を発展させるために、学術研究用に利用可能なデータセットを充実させることが特に望まれていた。
今回、Megagon Labsが公開するデータセットは、 リクルートライフスタイルが提供する旅行サイト『じゃらんnet』上で公開されている宿泊施設へのクチコミと、それを基に加工・作成した文章にラベル付け(アノテーション)を行ったもの。実際に『じゃらんnet』を利用する多くの顧客による事実の説明や感想、評価などを含む様々な文章が基となっており、幅広い日本語自然言語処理に活用が可能。具体的には、以下2つのデータセットをそれぞれのリポジトリにて公開する。
1:含意関係データセット
「部屋はオーシャンビューで景色がよかったです。」という文が成り立つとき「部屋から海が見える」という文も成り立つかどうか(含意関係の有無)というラベルを付与したデータセット。(約55,000件)
ポジティブ/ネガティブ/ニュートラルといった感情極性ラベルや、宿の特徴が含まれているかどうかというラベルも付与した文も含まれている。(約5,600件)
2:根拠説明データセット
宿をお薦めする際に、ユーザーの要求に対する推薦根拠を説明するためのデータセット。(約37,300件)
例えば、「お子様連れに優しい宿」を求めるユーザーに対して、「この宿には大きなキッズスペースがあるので、あなたにオススメです」と根拠付きで返答することを目指している。文単位で要求に対応する根拠かどうかをラベル付けし、その後、根拠と判断された文を推薦文へと言い換えている。
日本語の自然言語処理研究に取り組む研究者にこれらのデータセットを提供することで、さらなる研究の加速が期待できる。なお、本データセットは学術研究用途での利用を意図したもので、非営利目的でのみ利用可能なライセンス付与を行っている。