【植木研究室】NISTが開催した映像内の行動解析コンテスト 「OpenFAD 2023」のTAD部門で世界第1位を獲得
明星大学(学長:落合一泰)とソフトバンク株式会社(代表取締役 社長執行役員 兼 CEO:宮川潤一、以下「ソフトバンク」)は、両者が共同研究した行動検出技術が、米国国立標準技術研究所(以下「NIST」)が開催した、映像内の行動を解析するコンテストである「OpenFAD(Open Fine-grained Activity Detection) 2023」のTAD(Temporal Activity Detection、行動検出)部門で、世界第1位を獲得しましたのでお知らせします。
「OpenFAD」は、世界各国の企業や大学などが参加し、映像内のさまざまな人物の行動に関する検出精度を競い合うコンテストです。「OpenFAD 2023」のTAD部門は、人物の日常的な行動の映像から、映像内の動作の分類と継続時間の検出性能を競うもので、「OpenFAD 2023」でも難易度の高い課題に位置付けられています。
ディープラーニングなどの機械学習技術の発展によって、物体などを高精度に検出・分類することは可能になりつつありますが、映像に映る人物の詳細な行動の分類と、その行動時刻を高精度に検出することができないという課題がありました。明星大学とソフトバンクは、時間的な変動を考慮した行動解析と階層化した判定アルゴリズムにより、映像を詳細に解析する技術の研究開発を進めています。また、映像が持つ意味の概念を抽象化するアルゴリズムに関する研究※も進めてきました。
これらの研究は、将来的にさまざまな映像の自動解析に活用することができ、多くのサービスやソリューションへの応用が期待できる技術です。例えば、人間の目視による映像の確認作業を軽減し、作業の省力化や迅速化につながることが期待されます。
この研究成果は、2023年10月に開催された、画像処理に関する国際会議である「ICCV(International Conference on Computer Vision) 2023」のワークショップで発表しました。
※ 明星大学情報学部 准教授の植木一也研究室とソフトバンクが共同で、検出アルゴリズムの方式を開発しました。
■TAD部門のコンテストの概要
各45秒程度の映像をAI(人工知能)で解析し、映像内の人物の日常的な行動の分類と、その継続時間(開始時刻と終了時刻)を検出結果として出力します。各検出結果をNISTが独自の評価基準でスコアリングし、参加チームの検出精度を評価します。
<行動検出の一例>
汎用的な行動分類モデルを利用し、階層的に行動を分類しながら時間方向に検出処理を逐次実行することで、詳細な動作の分類と動作が発生する区間を抽出することに成功しました。例えば、“A person puts a bowl into the oven.”というテーマに対して、映像中で連続的に行われる動作の詳細識別と動作区間の検出に成功しています。
● SoftBankおよびソフトバンクの名称、ロゴは、日本国およびその他の国におけるソフトバンクグループ株式会社の登録商標または商標です。
● その他、記載されている会社名および製品・サービス名は、各社の登録商標または商標です。