マイクロソフト、AIを活用し日本語の音声リアルタイム翻訳機能を利用可能に

Microsoft TranslatorとSkype翻訳により10言語が双方方向で音声翻訳が可能

 マイクロソフトは、4月7日、Microsoft TranslatorアプリやSkype翻訳(Skype Translator)など、Microsoft Translatorを活用したすべてのアプリとサービスにおいて、日本語をテキスト翻訳および音声翻訳の双方が可能な10番目のサポート言語として追加すると発表した。(画像は音声翻訳の仕組みを説明したビデオより)

[公開日]

[著] BizZine編集部

[タグ] AI・機械学習

  • このエントリーをはてなブックマークに追加

 この機能により、日本語を話す人々は、既にサポートされている9言語(アラビア語、中国語(マンダリン)、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、ロシア語)を話す人々と、リアルタイムに対話ができるようになるという。

 ■ユーザー、開発者、企業に対し提供される機能

 Microsoft Translatorアプリ(Windows、Android、iOS版)のMicrosoft Translatorライブ機能を活用して、自分のデバイスやブラウザ上で、対面型のリアルタイムの翻訳が可能になる。

 Skype for WindowsとSkype Preview for Windows 10で提供されるSkype翻訳(Skype Translator)の機能により、他のSkypeユーザーや電話(SkypeOutの購入が必要)を通して、自分の言語と他言語をリアルタイムに翻訳した通話を行うことができる。

 開発者は、Azureで提供されるCognitive Services APIファミリーであるMicrosoft Translator APIを自身のアプリやサービスに統合できる。

 新たにリリースされたMicrosoft Translator PowerPointアドイン (プレビュー版) により、PowerPointからTranslatorのライブ機能を直接使用することで、リアルタイムでプレゼンテーションに字幕を付けることができるという。

 ■音声翻訳の仕組み

 音声はまずマイクロソフトの音声認識ニューラルネットワークシステムへと送られる。このシステムは、人間の自然な対話を扱えるよう設計されており、人間がコンピューターに音声で命令を与えるような単純なシステムではないという。

 この最初のステップでは、自然言語の専門家が「ディスフルエンシ(disfluencies)」と呼ぶものを含んだテキストが生成される。ディスフルエンシとは、私たちが話すときに(多くは無意識のうちに)繰り返し発生しているつなぎ言葉であり、日本語では「えーと」、英語では「um」などの言い淀みに相当する。TrueTextは、このようなディスフルエンシを削除し、完全な文章に必要な文頭や特定名詞の大文字化や、句読点の追加を行い、翻訳ステージでの適切な処理を可能にする。

 次に、TrueTextの出力が機械学習による2番目のAI機能に送られ、完全な文章の文脈を利用し、より流暢で人間らしく聞こえる翻訳が行われる。最後のステップで、テキスト読み上げ機能がこのテキストを音声に変換する。