「マルチモーダルAI」とは、現在のビジネス領域で広く活用されている「特化型AI」に分類される画像認識や音声認識などを複合的に処理・判断することが可能なAI。これにより、多様な情報を統合して判断する熟練者の問題処理能力に近づくことが期待されている。
今回はマルチモーダルAIのうち、画像とテキストデータを学習し、画像キャプションの自動生成を可能にするライブラリを開発、提供を開始した。ライブラリとして提供することで、顧客は、明確な期間とコストを把握したうえで最短で技術検証を実施し、運用を開始することが可能となるという。