この実証実験では、難易度が高い文書自動生成に挑戦し、自動生成された原稿の品質が実用に耐えうるかの検証を行った。実験では、気象庁が過去に公開した気象電文と、過去にアナウンサーが読んだ気象ニュース原稿をセットにして学習する仕組みを構築し、過去4年分の気象電文から気象ニュース原稿を生成する規則を学習した。
この方法で生成された気象ニュース原稿を評価した結果、日本語の文法は人が読んでも違和感のないレベルで、意味の正しさにおいては多少の修正が必要なものの、概ね気象電文と同じ内容の文書を作成できることを確認した。
これまでニュース原稿を自動生成するには、あらかじめ用意されたテンプレート文に、単語や数値を埋め込む方法が主流だった、この方法では大量のテンプレート文や単語の埋め込み方を人間が1つ1つ設計する必要があるため、さまざまなパターンに対して網羅的に対応するには限界があった。一方で、ディープラーニングによる文書の自動生成は多くの人手を必要としないため、設計・開発コストを低減できる可能性がある。
今後、NTTデータでは、AI記者の気象分野における商用化を目指すとともに、企業の決算発表やスポーツ記事等の大量のデータを伴う分野においても新たな実証実験を行い、AI記者の他分野展開を目指していくとしている。
実証実験に用いたシステムの特徴とメリットは次のとおり。
・システム開発コストの低減
ディープラーニング技術を用いることで、開発者が個別の処理方法を設計・開発することなく、大量の教師データ注から規則性を学習し、原稿を自動生成できるようになる。また、教師データの種類を変更すれば、そのデータに対応して文書を自動生成することが可能。これらのことから、基となる教師データがあれば、気象以外にも、企業の決算発表やスポーツ記事を書くAI記者を新たに誕生させることも可能となり、開発者が個別の処理方法を設計・開発するコストを低減することが可能。
・原稿作成業務の効率化
AI記者が気象電文からニュース原稿を自動生成するため、人間の記者は、1から原稿を作成する必要がなくなり、原稿作成業務の効率化が可能になる。このことから、人手で行うべき業務により集中することができるようになる。
・ニュース配信の速報性向上
AI記者は入力データを基に、記事を高速かつ大量に自動生成することが可能。これにより、速報性が求められるスポーツニュースや災害情報のリアルタイム配信、地方のニュースの積極的な配信が可能になる。今後、NTTデータでは、気象分野におけるニュース原稿自動生成AIの商用化を目指すとともに、企業の決算発表やスポーツ等、大量のデータを伴う分野においても新たな実証実験を行い、AI記者の他分野展開を目指していくとしている。