AI/コンピュータビジョン分野におけるトップカンファレンスECCV2024の調査と分析

2024年11月11日掲載

AI/コンピュータビジョン分野におけるトップカンファレンスECCV2024の調査と分析

こんにちは、ソフトバンク株式会社 AI戦略室 R&D推進室の岡澤です。

今回はAI/コンピュータビジョンの研究動向を把握するために、2024年10月開催の「ECCV2024」についてオンライン参加を行いました。

本記事ではAI/コンピュータビジョン分野におけるトップカンファレンスECCV2024の調査と分析をレポートしていきます。

目次

この記事では
  • 2024年10月開催の「ECCV2024」の論文の傾向などを分析してレポートします
  • AIやコンピュータービジョンの研究動向が気になる方向けの記事です
  • 気になる論文を見つけるきっかけになると嬉しいです

1. ECCVとは

ECCV(European Conference on Computer Vision)はAI/コンピュータビジョンにおける世界最大規模の国際会議であり、CVPR(Conference on Computer Vision and Pattern Recognition)、ICCV(International Conference on Computer Vision)と並ぶ世界3大トップ国際会議と言われています。

ECCV2024論文投稿数は8585本採択率は27.9%であり、2387本が採択されました。

論文投稿数、採択率からも世界のトップ国際会議に相応しい規模と難易度の学会と言えるかと思います。

2. ECCVの統計情報

参加したOpening ceremonyでは参加者/論文の過去数年間の推移や地域別の傾向について紹介がありました。

参加者/論文数の推移

下の図は左側が参加者数、右側が論文数の推移を表しています。参加者/論文数ともに勢い衰えず右肩上がりで増加しています。参加者/論文数ともに前回のECCV2022から35%以上の増加です。「AI」というワードが日常的にも聞こえてくる様になり、AIの社会浸透が当たり前になると共に、少しずつ上昇率が緩やかになっていくかと思われましたが、勢いは全く衰えていない様です。またオンラインでのバーチャル参加者の数は大きく減少しており、研究の現場は対面に戻ってきていることが伺えます。

 

参加者/論文数の推移1
参加者/論文数の推移2

地域別の傾向

下の図は左側が参加者数、右側が論文数の地域別の傾向を表しています。参加者/論文の著者数共にアジアが最多であり、その中でも参加者/論文数共に60%以上を中国が占めておりました。論文の著者数は、中国が1位、アメリカが2位、日本は11位でした。

地域別の傾向1
地域別の傾向2

3. 研究トレンド

論文の傾向

以下の図は、Opening ceremonyで公表された研究分野別の論文数です。

論文の傾向

「3D computer vision」と「Generative models」が他の研究分野の倍以上の論文数で、研究の関心に至っては、2強状態であることが伺えると思います。それではこの2つの分野について動向を考察します。

3D computer vision

3D computer visionの中でもECCV2020で発表されたNeRF、SIGGRAPH2023で発表された3D Gaussian Splatting(3DGS)といった新しい3次元表現手法に対して精度/速度/使い勝手を向上させるための研究が多く散見されました。具体的には、シーンの学習を必要としない汎化性の高いNeRFや、3DGSの品質、特に境界や細部の先鋭さを再現する手法等が提案されています。3D computer visionの研究はここ数年Computer visionにおける主要研究領域になっており、昨今、画像分類/物体検出/セマンティックセグメンテーションといった2D画像を対象としたAIの社会実装が進み、研究者の関心は次のステージである3Dに移行していると言えるのではないかと考察します。

Generative models

生成モデル分野ではNeurIPS2020で発表されたDDPM、CVPR2022で発表されたLatent Diffusion Models(LDM)などといった代表的な拡散モデルの精度/速度を向上させるための研究、または事前学習済みモデルをベースに様々な下流タスクに応用できるように改良する研究がほとんどでした。具体的には、事前学習済みのText-to-image拡散モデルと特徴抽出器を利用して高精度のOpen-vocabularyセグメンテーションを実現する手法や、拡散モデルの蒸留に敵対的学習を行って生成画像の品質を保ちながら推論時間を大幅に削減する手法等が提案されています。生成モデルの研究はGANが提案されてからComputer visionとComputer graphicsにおける注目度が段々高くなり、性能が優れた拡散モデルの誕生でさらに一般ユーザーまで広がり、画像/動画/3D生成だけでなく画像認識やセグメンテーションまで波及しています。画像生成モデルと言えば拡散モデルと言っても過言ではないという状況になってきたと言えるのではないでしょうか。

3. 注目論文

こちらでは、研究動向を踏まえて、個人的に注目した論文を紹介します。

Omni-Recon: Harnessing Image-based Rendering for General-Purpose Neural Radiance Fields

NeRFの汎用モデルについての研究です。(元論文)

コアアイデア

NeRFは3次元再構成したいシーンを学習させてからNovel view synthesis(新規ビュー合成:見えていない領域も含めた完全なシーンの3次元再構成)するのが一般的です。そのため、シーン毎に学習が必要です。

こちらの研究では、外観と幾何学的な一致性を担保しながら、2Dセマンティックセグメンテーション等の異なるタスクの予測結果を統合することにより、物体の意味を理解しながら学習することで汎化性能の高いモデルを獲得することを狙います。

提案モデル

モデルの全体図を以下に示します。

Omni-Recon: Harnessing Image-based Rendering for General-Purpose Neural Radiance Fields 提案モデル

このモデルは主要な2つのサブTransfomerモジュールを持っています。1つ目は幾何学的な特徴の一致性を取るためのGeometry transformerモジュールで、3次元特徴空間上で同じ光線上の特徴ベクトルを入力に、クロスアテンションを取ることで、幾何学的な一貫性を維持した特徴ベクトルを獲得します。

2つ目は、外観の一致性を担保するためのAppearance transformerです。これはマルチビュー画像間で位置合わせのための再投影を行い、位置合わせした同一位置の色と特徴ベクトルを使ってクロスアテンションを取ります。これによりビュー(視点)が変わったことによって発生したオクルージョンに対しても堅牢に外観の一致性を担保します。またその後には、Appearance transformerが出力する外観特徴と2Dセグメンテーション等異なるタスクの予測結果を統合するMLPをもち、これによって外観と物体の一致性を取ります。そして、これらの特徴を統合する軽量なTransformerであるOcc.transfomerが3次元再構成を行います。

結果

既存研究との比較を以下に示します。

Omni-Recon: Harnessing Image-based Rendering for General-Purpose Neural Radiance Fields 結果

実験ではまずDTUデータセットを学習データとテストデータに分割します。1番上の行は、DTUデータセットの学習データで学習して、DTUデータセットのテストデータで評価した結果です。2行目以降は、DTUデータセットの学習データで学習して、異なるデータセットで評価した結果です。提案手法のOmni-Reconは、全ての条件で良好な結果ではありますが、特に学習データセットとは異なるデータセットをテストに用いた場合により良好な結果を示しており、その汎化性能の高さが伺えます。

 

Making Large Language Models Better Planners with Reasoning-Decision Alignment

この研究は自動運転車が経路を決定するための意思決定手法に関する研究です。(元論文)

コアアイデア

Chain-of-Thought (CoT) プロンプティングのコンセプトに則り、意思決定に昨今大注目のLLM(大規模基盤言語モデル)を導入しています。LLMの持つ堅牢な論理的推論能力を活かして、多視点のカメラ画像とテキスト化した自動車周辺の環境情報を入力にLLMに問い合わせします。問合せ結果とその理由に応じた論理的な一貫性のある経路決定をする事で、経路計画タスクにおいて特に衝突率を抑制し、最高精度を達成しています。

提案モデル

モデルの全体図を以下に示します。

Making Large Language Models Better Planners with Reasoning-Decision Alignment 提案モデル

マルチビュー画像からBEV Endcoderを介して、BEV(Bird’s-Eye-View)表現の3次元特徴を出力し、Adapterを介してトークン化します。一方で、テキストプロンプトとして、車両に関する情報(現在位置、過去の動作、周辺に存在する物体の情報等)を与え、Tokenizerを介して、トークン化します。

そして、画像とテキストからの指示トークンを入力に、LLMに次に取るべき行動とその理由を出力させます。その際にポイントとなるのが、行動と理由の一貫性を保つために、学習の際にネガティブな理由(例:突然障害物が現れた)とポジティブな行動(例:現状の進行を維持)の掛け合わせ等が発生しない様に学習をさせます。それにより論理的に一貫していない行動が発生することを抑制します。

結果

既存研究との比較を以下に示します。

Making Large Language Models Better Planners with Reasoning-Decision Alignment 結果

多くの評価条件で提案手法のRDA-Driverが従来最も性能の良いGPT-Driverよりも良いスコアとなっています。特により実際の自動運転の条件に則した評価条件であるUniAD metricsにおいて、Collision(衝突率)が大幅に抑制できています。このことからも合理的で一貫した判断が事故の抑制に貢献できる、と言えるのではないでしょうか。

 

AlignDiff: Aligning Diffusion Models for General Few-Shot Segmentation

拡散モデルによるセグメンテーションタスクの学習データ生成についての研究です。 (元論文)

コアアイデア

Text-to-image拡散モデルは写実的な画像生成に優れていますが、既存の事前学習済みモデル(Stable Diffusion)などは、目標と生成結果の間にミスアライメントがあり、精確に生成することが難しいです。この研究は、物体レベルと細かいアノテーションレベルでのミスアライメントの両方を評価し、実サンプルを使用して生成プロセスを調整してミスアライメントを抑制します。

提案モデル

モデルの全体図を以下に示します。

AlignDiff: Aligning Diffusion Models for General Few-Shot Segmentation 提案モデル

提案モデルは2つのモジュールから構成されています。Normalized Masked Textual Inversionモジュールは、一枚の画像からTextual embeddingに変換し、生成されたデータ分布を実際の分布に合わせて生成プロセスを調整し、ミスアライメントを抑制します。
マスクを生成するための調整可能なFew-shot conditioningモジュールは、実画像と生成画像を同時に利用してセグメンテーションモデルを学習させ、生成画像と対応するピクセルレベルのアノテーションマスクを同時に生成します。

結果

既存研究との比較を以下に示します。

AlignDiff: Aligning Diffusion Models for General Few-Shot Segmentation 結果1

分布外画像の生成において提案モデルが既存手法を遥かに上回って、最も良いスコアとなっています。

AlignDiff: Aligning Diffusion Models for General Few-Shot Segmentation 結果2

PASCAL/COCOデータセットでのFew-shot segmentationタスクにおいても、既存手法に提案手法を加えると性能が向上し、最も良い性能になります。これらの結果は、提案モデルが学習データの生成およびセグメンテーションタスクの性能向上の両方に優れていることを示しています。
さらに、モデル調整次第で異常検出や医療画像など様々なアプリケーション用の画像マスクペアの生成に活用可能です。

Tackling Structural Hallucination in Image Translation with Local Diffusion

この研究は拡散モデルにおける「分布外のハルシネーション」に取り組む最初の研究です。 (元論文)

コアアイデア

昨今の性能が優れた拡散モデルでも分布外の画像への対応は難しく、ハルシネーションが起こりやすいです。こちらの研究では、分布内と分布外領域に対応する2つの画像同士をマージして、ハルシネーション的な特徴の作成を最小限に抑制します。

提案モデル

モデルの全体図を以下に示します。

Tackling Structural Hallucination in Image Translation with Local Diffusion 提案モデル

提案されたモデルは主にBranchingモジュールとFusionモジュールで構成されています。

入力されたコンディション画像に対して、まず分布外検知器で分布外と分布内のどっちに該当するかの確率分布マップを推定します。そしてBranchingモジュールで分布内該当画像と分布外画像の2つの画像をローカルで生成します。ここで生成された画像はハルシネーションが減少されますが、Clear boundaryアーティファクトも同時に生成されるため、Fusionモジュールで二つの画像をマージしてアーティファクトを除去し、生成画像をより自然に見えるようにし、ハルシネーションをさらに抑制します。

結果

既存研究との比較を以下に示します。

Tackling Structural Hallucination in Image Translation with Local Diffusion 結果1

手書き数字画像認識データセットMNIST、脳腫瘍画像セグメンテーションデータセットBraTS、および異常検知画像データセットMVTec ADでは、提案モデルが生成した画像の品質が既存手法を上回っていることが報告されています。

Tackling Structural Hallucination in Image Translation with Local Diffusion 結果2

提案手法によるハルシネーションの減少で、各画像認識タスクでの精度向上が報告されており、特に脳腫瘍のセグメンテーションではほぼ3倍の精度向上が報告されています。

4. 世界的な専門家による講演

Keynoteと呼ばれるセッションではAI/コンピュータビジョンの著名な専門家が講演を行います。ECCV2024では3つの講演が行われましたのでご紹介します。

Synthesia: From computer vision research to real-world AI avatars

講演者1: Lourdes Agapito (Professor of 3D vision at UCL and Co-Founder of Synthesia)
講演者2: Vittorio Ferrari (CEO and Co-Founder of Synthesia)

Synthesiaは、ヨーロッパで最も新しい10億ユーロ規模のスタートアップ企業の1つで、コアテクノロジーはScript-to-videoで行うリアルなAIアバター生成です。カメラ\マイク\スタジオなしで誰もがビデオコンテンツを制作できるようにすることを目標に、ビジネス価値を推進しながら研究活動を進めています。

2020年には、世界初のテキストからビデオを生成するWeb platformを立ち上げ、基礎研究から実際のソリューション提供までを高い技術レベルで実現しています。Synthesiaが提供する最新バージョンのアバター生成技術では、実に自然なリップシンクで喋るアバターの生成を提供しています。将来的には、CM制作や映画制作なども映像ディレクターの指示のみで生成できる技術を開発したいと述べられておりました。
 

Fair, transparent, and accountable AI: What is legally required, what is ethically desired, and what is technically feasible?

講演者: Sandra Wachter (Professor of governance of emerging technologies at Oxford University)

AI をより公平/透明/説明可能なものにするために、世界中で研究と政策の両方の取り組みが必要であると講演されておりました。アルゴリズム研究の観点からは、過去にバイアスのかかったアルゴリズムが問題視された事例の紹介や、バイアスは直感的でなく抽象的で無形で微妙な問題なため検知が難しいという問題、アルゴリズムに公平性を強要するとパフォーマンスが低下する「公平な機械学習の不公平性」等について言及されておりました。政策の観点からは、EUのAI規制法について紹介すると共に最も一般的なバイアステストの 65% は EU の基準を満たしていない、という問題指摘をされておりました。
 

Is distribution shift still an AI problem?

講演者: Sanmi Koyejo (Assistant Professor in the Department of Computer Science at Stanford University)

AIのパフォーマンスが学習時と異なる分布シフトについて議論する内容です。分布シフトには、学習データが分布の隙間や広がりをカバーできていない内挿的分布シフトと分布外のデータに対応できていない外挿的分布シフトがあります。近年の大規模基盤モデルとFine-tuningは、内挿的分布シフトには効果的だが、外挿的分布シフトには対応が難しいという指摘と同時に、外挿的分布シフトの対策にはDomain generationが考えられるが、真のレアケースの対応は難しく、今後も分布シフトはAIの向き合うべき重要な問題であるとお話しされておりました。

まとめ

今回はECCV2024にオンライン参加して、聴講内容を整理しました。

3D computer visionの研究は、特にNeRF、3D Gaussian Splattingといった3次元表現の研究が盛んで、多くの発展がありました

Generative modelsについては、拡散モデルを中心に、精度/速度を向上させる研究のみならず、画像認識への応用等その応用の拡大が感じられました。

また、既存の手法にLLMを組み合わせた研究も散見され、今後もこれらのトレンドは続いていきそうであると同時に、新しい技術の誕生も引き続き注目していけたらと思います。

おすすめの記事

条件に該当するページがございません