発表によると、10月に行った実験において、ネットワークカメラなどで撮影した人間がいる映像に対して、「しゃがんでいる」「きょろきょろしている」「ものを置いている」などの動作を検知させたところ、8割強の高い精度で正答したという。
物体や顔の認識に比べ、高い精度での解析が困難な時系列の映像認識に成功したことで、“人間の動き”を分析することが重要と考えられる防犯分野における活用をはじめ、工場での異常検知、店舗での購買行動分析、スポーツにおけるプレーの分析など、さまざまな領域への応用可能性が広がるとしている。
従来のDeep Learning技術は主に静止画を対象としており、各画像の縦横2次元のデータを元に学習を行うことで、画像に含まれる物体を認識していた。
今回の技術では、これに加え学習時および検知時に時間軸方向の情報も盛り込み3次元とすることで、より精度を高めた動作の特定を可能にしているという。また、画像だけでなく、時系列で変化するさまざまなIoTデータ(温度、電圧などのセンサー情報)の高精度な解析が可能であり、汎用性に優れているという。
発表された技術の仕組みと特徴は次のとおり。
・映像をフレーム(コマ)ごとの静止画に分解、1フレームにおける分析対象範囲(フィルタ)内ピクセルのみではなく、近い時間軸フレームの範囲内ピクセルに対しても局所結合(畳み込み結合)を行う。
*各与えられたデータの各位置/各箇所を学習して特徴を抽出する方法を「畳み込み(Convolution)学習」という。この技術は、畳み込み学習の際に、画面内のx軸、y軸だけでなくt軸(時間)についても考慮した3次元でのDeep Learning技術。
・今回数種類の動作を対象とした検証を実施した結果、時系列を考慮しないCNN(Convolutional Neural Network)による認識精度が60%弱程度であったのに対し、今回の手法を用いた場合には約85%の認識精度に達することを確認。
NTT Comは、「時系列Deep Learning」の技術を活用し、防犯やマーケティングなどさまざまな用途に応じた映像データの解析を可能とする「映像解析プラットフォームサービス」(仮称)の提供を検討している。
店舗や製造工場における不審行動の検出、2020年東京オリンピックに向けて観光客の増加が見込まれる多くの施設における防犯対策などに応用することが可能だという。