CausalAI(因果推論AI)ソリューションを手がけるヴェルトは、企業・公的機関などの研究開発部門、企画部門、経営層を対象に、データ活用によって解像度の高い課題解決策発見やアイデア出しを加速するアジャイルな因果推論プラットフォーム「Data Ethnography(データ・エスノグラフィー)」の高機能オプションを開発した。
具体的には、データ上から推定した因果関係の構造を確認し、仮想的に介入効果を検証する機能を強化したほか、発見した因果関係の信頼度を確認する頑健性評価機能や、関連する論文を即座に検索出来る機能を搭載した「アドバンス・オプション」を開発。5月18日よりリリースした。
昨今、企業や公的機関のDX推進とAI活用によって、業務効率の改善や生産性の向上が進められている。一方、同社の調査によれば、洞察や創造性が求められるプロジェクトの構想段階で、調査対象の過半数が「データはあっても活用できていない」ことを課題として認識しているという。この課題を解決するため、データ活用によって「創造性をアシストする」Causal AIプラットフォームData Ethnographyを開発したとしている。
相関ではなく因果関係を仮想検証することでやり直しを削減
多くの場合、企業や公的機関では課題に対して、人の経験とデータ間の相関関係に基づいて、仮説と検証を繰り返しながら解決策を探っているという。最終的には、解決策の効果・効用にエビデンスと言われる証拠が求められるが、相関関係が偶然によるものであったり、交絡因子と呼ばれるその他の共通の原因によるものであったり、実際に因果関係が証明できない場合にやり直しが発生するという。
また、データを用いて検証するには、AIや統計解析ツールが使えるように「データをクリーンにする」前処理に大きな時間がかかる。時間をかけて解析した後、有意な結果を得られず、やり直しが繰り返される時間的損失と企業価値に与える影響は大きいと同社は述べている。
Data Ethnographyは、データを活用してプロジェクトの初期段階で因果効果を推定し、仮想的に仮説検証サイクルを回してトライ&エラーを繰り返すことで、成功につながりそうな仮説に当たりをつけ、解決策の発見を加速するプラットフォームだとしている。
「Data Ethnography」の仕組み
Data Ethnographyは、様々なデータの組み合わせの中から、因果関係の前提条件を考慮して、データ同士の関係の強さを計算する独自技術「Smallytics」アルゴリズムを活用。データの欠損に強く、統計解析やAIに必要なクリーンなデータにするための前処理に、時間を掛けずに利用できる利点があるという。
Data Ethnographyでは、Smallyticsによる推奨を参考にして関係の強いデータ項目を絞り込み、ノード(データ項目を表現する円)とエッジ(因果関係の方向を示す矢線)で表される因果グラフを生成して利用する。この因果グラフ上で、ユーザーはデータを仮想的に介入操作でき、アウトカムノードと呼ばれる解析目的となるデータが、どのように影響を受けるかをその場で予測できるとしている。
たとえば、「日々のスタンド時間を2倍にしたら睡眠効率はどのように変化するだろうか?」といった問いに素早く答えを得ることが可能だとしている。
Data Ethnographyでは、関係の強いデータを絞り込んで使う(最大10ノード)ため、ネットワーク構造を持つ因果グラフを数十秒の単位で生成可能。これにより、ユーザーはデータを使って仮想的に効果検証を繰り返すことができ、解像度の高い仮説を立てられると、同社は述べている。
「アドバンス・オプション」裏付けとなる論文検索や因果効果の信頼度の確認と解析
アドバンス・オプションでは、ベーシック・オプションで実現しているアジャイルな因果推論と介入効果の算出に加え、生成されたモデルがどの程度信頼できるかをテストする頑健性評価機能や、見つかった関係に関連する科学論文をその場で検索できる機能を追加し、データから得られた仮説を検証することが可能。また、得られた因果関係の解析を高度化する機能を搭載しているという。
離散値と連続値が混在したデータセットで因果推論が可能
ベーシック・オプションでは、離散化したデータセットを用いる必要があったが、アドバンス・オプションでは連続値と離散値が混在したデータセットに因果推論を適用できる。従来機能と比べて、実際の分布に近いデータセットを用いることができ、平均処置効果を実際の単位で表示するため、わかりやすくなっているという。また、自然直接効果および自然間接効果の推定など、新機能を追加している。
因果効果の信頼度を測る頑健性評価機能を追加
推定した因果効果の信頼性は、分析の品質に影響を及ぼす。分析プロセスのすべてが正しいと仮定することは難しく、不完全な分布を表すデータセットや分析対象の記述が、不十分な分析モデルを採用することは避けられないことが課題とされているという。
アドバンス・オプションでは、データセットやモデルに擾乱を加え、推定結果の変動を評価する頑健性評価機能を追加。これにより、データや交絡因子の不足を知ることができ、次のアクションにつなげられるとしている。
「Semantic Scholar」を活用した論文検索機能
見つけたデータ項目間の関係について、学術的な裏付けが存在するかを確認するため、ヴェルトでは論文データベースを提供するSemantic Scholarと連携し、因果推論の結果と関係する論文を自動で検出、要約して表示。これにより、因果推論の結果の信頼性を高めるとともに、過去の学術研究でも実証された結果であるかを効率的に調べられる。また、新たな仮説へのインスピレーションを得ることも可能になるという。