SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

おすすめのイベント

おすすめの講座

Biz/Zineニュース

エクサウィザーズ、生成AIモデル「exaBase Visual QA」を開発 画像を対話型で説明可能

  • Facebook
  • X
  • Pocket

 エクサウィザーズは、画像の内容を基にその状況を対話型で説明する生成AIモデル「exaBase Visual QA」を開発した。

 一般的な生成AIモデルに比べて、画像内の危険性などの状況を高精度に解釈して説明文を生成できるのが特徴だという。消費者向けのサービスなどの商用にも利用可能としている。

「exaBase Visual QA」の特徴

 画像を認識する一般的な生成AIモデルでは、特に複雑な画像についてその危険性などの内容を的確に文字情報として出力するのが難しいとされている。今回エクサウィザーズが開発したモデルでは、人が直感的に認識可能な、画像内の危険性や違和感といった状況を高精度で解釈することが可能になったという。

 exaBase Visual QAを実装したシステムとチャットボットのように対話することで、状況を説明する文章を生成するとしている。

 具体的には、以下のような画像に対して「潜在的な危険性はありますか」と入力することで、「作業員がバランスを崩したり足場が崩れたりすると落下につながる。作業員は金属棒を接続するために電動工具を使用しており、工具が滑ると負傷する可能性がある。適切な安全予防措置を講じるべきである」といった文章を生成するという。

 システムの実装時には長文を出力するが、それらをChatGPTを用いて必要な部分にフォーカスした要約が可能。

exaBase Visual QAのプロトタイプ画面(現時点で文章の入出力は英語だが、翻訳機能を利用することで各国語に対応可能)
exaBase Visual QAのプロトタイプ画面(現時点で文章の入出力は英語だが、翻訳機能を利用することで各国語に対応可能)
[画像クリックで拡大表示]

 なお、同社での評価実験において、他の商用利用可能なモデルより最大で1割弱高い解釈の精度を持っていることを確認していると述べている。同様の精度のモデルと比べてモデルのサイズも小さく、推論の実行や生成の速度も高速だとしている。

 exaBase Visual QAは、オープンソースの生成AIモデルをベースに開発されており、同社が追加学習を実施しているためすぐに利用が可能。また、個別の分野のデータを学習し、設定を調節する「ファインチューニング」を同社側で行うことで、特定の分野での精度を向上させることも可能だという。

適用分野

 幅広い分野の画像に対応可能だが、特に自然画像(人工的に生成した画像など以外)は高い精度で解釈できるという。解釈した意味内容に基づいてデータを振り分ける「分類モデル」としての利用も可能だとしている。

  • 建設現場などでの作業における危険性の判定
  • 保育園や学校など、多様な人の動きがある場所での状況把握
  • 様々な対象における、故障場所の把握や内容分析
  • カメラやセンサーなどの画像に対する、事件や事故の把握
  • 大量動画の文章化、特定の場面を抜き出すことでのデータ圧縮
  • 製品ラインなどで、合否を判定する分類モデルの構築
提供形態

 exaBase Visual QAは生成AIモデルであり、様々なソフトウェアやシステムに組み込んで活用することを想定されている。現時点でPoC(概念実証)用途での提供が可能だという。当初は静止画を対象とするが、動画での活用も可能だとしている。

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
関連リンク
この記事の著者

BizZine編集部(ビズジンヘンシュウブ)

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • Facebook
  • X
  • Pocket

Special Contents

PR

Job Board

PR

おすすめ

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング