受賞・表彰

【植木研究室】NISTが開催した映像解析コンテスト「TRECVID 2023」の映像検索部門と映像説明文生成部門で 世界最高水準の精度を達成

明星大学(学長:落合一泰)とソフトバンク株式会社(代表取締役 社長執行役員 兼 CEO:宮川潤一、以下「ソフトバンク」)は、両者が共同研究した映像解析技術が、米国国立標準技術研究所(以下「NIST」)が開催した世界的な映像解析コンテスト「TRECVID 2023」の映像検索部門(AVS:Ad-hoc Video Search)と映像説明文生成部門(VTT:Video To Text)において、世界最高水準の精度を達成しましたのでお知らせします。映像検索部門では、メインタスクで世界第2位、プログレスタスクで世界第1位、映像説明文生成部門では、五つの評価指標のうち三つで世界第1位を、二つで第3位を獲得し、明星大学とソフトバンクの技術が世界最高水準の精度であることが示されました。

「TRECVID」は、世界各国の企業や大学などが参加して、映像解析に関するさまざまな課題について技術の性能を競い合う、世界的にも権威のあるコンテストです。「TRECVID 2023」では、映像解析に関する複数のタスクが設定され、指定されたクエリー文に該当する映像コンテンツを検索する映像検索部門や、映像の内容の説明文を自動で生成する映像説明文生成部門などが開催されました。

近年、ディープラーニングなどの機械学習技術の発展により、物体などを高精度に検出・分類することは可能になりつつありますが、文章と映像が持つ意味の概念を正確に関連付けることができないという問題点がありました。明星大学とソフトバンクは、多種多様な映像について、画像と言語を関連付けて処理することができるマルチモーダル学習に関する研究をはじめとした、映像解析技術の研究開発を進めています。これらの映像解析技術は、将来的にさまざまな映像コンテンツを自動解析することができ、多くのサービスやソリューションへの応用が期待できる技術です。例えば、人間の目視による映像の確認作業を軽減し、作業の省力化や迅速化につながることが期待されます。

この研究成果は、2023 年11月13~15日に開催された「TRECVID 2023 Workshop」で発表しており、その内容は2024年3月に論文として一般公開される予定です。

■映像検索部門のコンテストの概要

約140万本の短い映像を対象に、テーマごとに指定された、メインタスクとプログレスタスク各20種類のクエリー文に該当する映像を検索してランキング形式で出力し、その精度を競います。参加者は、1本当たり数分程度の映像について、目視を介さずに自動的に内容を解析し、検索結果を出力します。各検索結果をNISTが独自の評価基準でスコアリングし、参加チームの検索精度を評価します。

<映像検索の一例>

映像のシーンを構成する場面や状況、人物や物体といったコンセプトの関係性について、クエリー文に合致する映像をAI(人工知能)で解析・検索します。例えば、”A child climbs an object outdoors”というテーマに対し、クエリー文の中から人物の動作や状況に関するコンセプトを抽出して、複数のコンセプトを含んだ映像を検索することに成功しています。

■映像説明文生成部門のコンテストの概要

約5~15秒の映像の内容について自動的に説明文を生成し、その文章の精度を競います。参加者は対象とする映像について、人物やオブジェクト、場所、状況などを自動的に解析し、検索結果を文章で出力します。生成した文章の品質について、NISTが独自の評価基準でスコアリングし、参加チームを五つの指標でそれぞれ評価します。

<映像の説明文の生成例>

例えば、雪山のスキー場にパラシュートで着地する映像を解析し、AIで説明文を自動生成した結果、映像の状況を的確に説明することに成功しています。ここではAIモデルのチューニングと強化学習、生成文章のリランキング、文章を要約し判読性を上げる処理を行うリファイニングの工程を組み合わせることで、映像に映る人物や状況に関する情報を抽出し、状況を端的に説明するために必要な文章を生成することができました。

文章生成結果:A person wearing a red parachute glides down a snowy mountain on a sunny day and lands next to a skier.

● SoftBankおよびソフトバンクの名称、ロゴは、日本国およびその他の国におけるソフトバンクグループ株式会社の登録商標または商標です。
● その他、記載されている会社名および製品・サービス名は、各社の登録商標または商標です。