「AIによる動画要約研究」に激震。今までの自動動画要約技術はランダム抽出と大差なかった?
画像認識におけるトップカンファレンス「CVPR 2019」で、AIでの自動動画要約の常識を根本的に覆す論文が発表された。最先端の動画要約手法が、ランダムで作成された動画要約と同等レベルでの要約しか作成できていないことを示したものだ。
本稿では、7月13日に開催された「CCSE 2019」でのサイバーエージェントAI Labの大谷まゆ氏による講演「ディープラーニング時代の性能評価」の講演内容、および同氏のCVPR 2019に採択された論文「Rethinking The Evaluation of Video Summaries」の内容をまとめた。
合わせて、動画要約技術で用いられてきた手法の簡単な説明と、「ランダム抽出での要約結果がAIと同等の結果を示した」とはどういうことか、解説する。
近年の動画要約手法とそのデータセット
そもそも動画要約とは、もとの映像のなかで根幹をなす内容を捉えつつ、映像の長さを短くすることを示す。
以前Ledge.aiの記事でも取り上げた、任意の動画から漫画のコマ割りを生成するAI「Comixify」の動画から重要なフレームを抽出する箇所で使用されている。
関連記事:動画から漫画を自動で生成する「Comixify」を使ってみた
この動画要約を自動で行うためさまざまな研究がなされてきたが、基本的には以下の3段階で構成されている。
- 重要度の推定
- シーンの分割
- 重要度を考慮したシーンの選択による要約の作成
まず1では、動画に対して2秒ほどの期間ごとに重要度を計算する。
ここでの重要度とは、3のシーンの選択の際に使用される値。重要度が高いほどそのフレームが動画のなかで要約に組み込まれやすくなることを示している。
2においては、KTS(Kernel Temporal Segmentation)と呼ばれる手法がよく用いられる。映像が大きく切り替わった場面を検出し、区切り目とする手法だ。映像に絵的な変化が少ない場合には、シーンは長くなる傾向にある。
そして3では、30秒など決められた時間で、重要度の総和が最大になるように複数のシーンを選び取り要約を作成する。