コールセンターへのAIの導入やボット型ツールで、AI型のスマートスピーカーなど、AI・機械学習の成果はすっかり身近になり、機械翻訳サービスもある程度実用化にレベルに達してきた。最近では、一般向けにはWebによる翻訳サービスや、携帯型の翻訳端末なども普及してきている。
またBtoB型の大手AIプラットフォーム企業では、専門分野や業界に特化したサービスや各社ごとの用語にあわせた自動翻訳サービスを提供している。
こうしたサービスを提供するためには、各国の言語に対応する翻訳をおこなうための辞書となる大量の教師データが必要となる。
しかも単語レベルの逐語的な辞書データではなく、特有の言い回しや表現、文脈を理解したものでなければならない。
特に日本語の場合、こうした教師データが不足している。多くのAI導入企業が、「データ」の収集と作成につまづき、停滞してしまうのだ。
この課題に取り組むのが「Gengo」だ。GengoではGengoAIという、言語に関連したAI開発に必要な学習データを収集、編集するサービスを今年4月から提供している。自然言語やスピーチ、コミュニケーション、多言語プロジェクトを手掛け、これまでA大手ECサイトやSNS運営企業、国内大手通信会社など幅広くAIの学習データを提供している。コーファウンダー兼CEOのマシュー ロメインさんは、ソニーのエンジニアを経て2008年に設立した。プロダクト部長のワルター・チャーリーさんは、2年前までUberで自動走運転のためのAIエンジンの性能評価のプロダクトマネージャーをしていた。
性能評価は新しい自動運転のアルゴリズムを古いアルゴリズムより、どのぐらい改善されているかを判定する。良くなっていればそのアルゴリズムで運転をテストする。
自動運転を実現するには膨大な走行データが必要になる。そのすべてを道路でおこなうには時間や危険やコストが伴うことや、極限状況や危険状況の検証の必要もあるため、シミュレーションが重要となる。そのシミュレーションのためのアルゴリズムの性能評価がチャーリーさんの仕事だった。
自動運転のアルゴリズムは大きく3つに分類される。物体認識などのパーセプション、認知した物体や人の行動を予測するプレディクション、それにもとづいてどのように走行するかのプランニング。これらの自動運転にとって必要なのはセンサーによって捉えられた画像や動画などのデータだ。
「Uber、Tesla、Googleなどの自動運転の性能評価の方法論はどれも大きな違いはありません。ビデオゲームにようなシミュレータ環境を作ってアルゴリズムを走らせることです。事故が起きた場合、その動画データを用いて新しいアルゴリズムでシミュレーションを何度も重ねていくのです」(チャーリーさん)
チャーリーさんは、このキャリアを通じて「データを育てる」技術を研究しその成果を、今、画像や動画とは異なる「言語のデータ」の世界に活かしている。
AIといえば囲碁やチェスのような分野がめざましく発展した。収集された膨大なデータにもとづいて自動的に検証と学習をおこなうディープラーニングが貢献した。
しかし言語に関連したAI開発の場合、単にデータを収集したビッグデータではAIは機能せず、データ一つ一つに意味づけをした学習データを、人の手で作成しなければならない。もちろん音声応答にも学習用のデータが必要だ。
音声応答のAI導入や機械翻訳のビジネスにチャレンジする企業には、中小企業やベンチャーも多い。こうした企業が自力でデータを集めるのは至難の業だ。またAmazonやIBM、GoogleなどのAIプラットフォームの大手も、日本語のデータは不足している。
GengoAIではそうした、音声応答や機械翻訳を開発するための学習データを、翻訳事業を通じて築いてきた翻訳者のクラウドワーカーを活用して、AI開発企業にオーダーメイドで提供している。
一般のクラウドソーシングとちがうのは、世界中に非常に難易度の高いテストを合格した、約22000人の翻訳者を抱え、37ヵ国語に対応できることだ。
たとえば、チャットボットを作る場合は、さまざまな生きた表現が必要になる。
「あえてネイティブではないイントネーションの音声データ収集を目的に、外国人が話す日本語の音声データを作成してほしいという依頼もあります」(マシュー・ロメインさん)
さらに、こうして集めた表現データに、感情分析のために、ポジティブかネガティブかなどの、タグづけをおこなうケースもある。
GengoAIではクライアント企業が依頼する、ビッグデータ収集から学習データの作成、再編集まで提供している。クライアント企業から依頼があった際、クラウドワーカーのプラットフォームに即座にタスクが割り振られる。強みはこのクラウドワーカーを管理しているプラットフォームだ。
「この管理プラットフォームがあるおかげで、膨大な量のデータ収集、編集作業をスピーディにクラウドワーカーに割り振ることができます。どのクラウドワーカーがどういったジャンルの業界に強いかも管理しているため、様々な企業の依頼に、クオリティの高いデータを提供することができます。英語、中国語、アラビア語など複数の言語のデータを並行して割り振ることもできます」(チャーリーさん)
テキストだけではなく、音声ファイルもリンクさせている。ただ、日本語の場合、最大の問題は「単語と単語の切れ目」がないことだ。今のところ、それぞれの表現に対応する言葉を、かたまりとして扱う。日本語の処理のアルゴリズムは難しいと言われるが今のところ日本語のデータそのものが少ないことの方が問題だという。
「たとえば英語からスペイン語へのコーパスは大量にありますが、英語から日本語、日本語からタイ語などへの翻訳のデータはまだまだ少ない。この課題が突破できれば、日本の機械翻訳やAIは、どんどん発展していくでしょう」(マシュー・ロメインさん)
【関連サイト】