AI分野のトップカンファレンスICCV 2025の調査と分析

2025年11月17日掲載

ソフトバンク株式会社 BeyondAI推進室 R&D推進部の袁です。

今回は2025年10月19日〜10月23日に開催されたICCV 2025にオンラインで参加しました。本記事では、ICCV 2025で得られた最新のAI研究動向や注目の論文について紹介します。

ICCV 2025の論文の傾向などを分析してレポートしています
AIの最新研究動向が気になる方向けの記事です
最新技術キャッチアップのきっかけになると嬉しいです

1. ICCVとは

The International Conference on Computer Vision（ICCV）は、The Institute of Electrical and Electronics Engineers（IEEE）とComputer Vision Foundation（CVF）が後援する研究者向けの国際学会です。1987年から隔年開催されており、今回で20回目になります。CVPRやECCVと並ぶコンピュータビジョン分野のトップカンファレンスの一つです。

ICCV 2025に投稿された論文数は11,239本、採択数は2,701本で、採択率は24.0%です。投稿数は2023年に比べて39.0%増加し、2013年以来で最も低い採択率になりました（参考）。

2. 研究トレンド

この章では、Opening remarksで公表された情報に基づき、ICCV 2025の研究トレンドを分析していきます。

論文の傾向

以下の表は、トレンドを反映しない単語（例：learning）を一部除外した上で、採択論文リストから単語数をカウントした結果です。隔年開催のため、前回開催の2023年との比較を示しています。

順位は入れ替わりましたが、頻出単語の上位2位は”video”（動画）と”3D”で、これらは継続してコンピュータビジョンの注目領域であることが分かります。また、”diffusion”（拡散モデル）が8位から3位へと順位を大きく上げているのに加え、”generation”（生成）や3D再構成技術に関連する“gaussian”など、生成に関連する単語の出現頻度が上昇しています。一方で、”text”（テキスト）が10位に上がり、マルチモーダルへの関心も高まっています。

下の図は、各トピックの論文数を示したグラフです。

トピックのトップ3は以下の通りです：
1. Image and video synthesis and generation（画像・動画の合成と生成）
2. 3D from multi-view and sensors（複数視点とセンサーからの3D化）
3. Multi-modal learning（マルチモーダル学習）

1位から3位までのトピックについて動向を整理します。

画像・動画の合成と生成

“画像・動画の合成と生成”では、出力の高品質化に関する研究や、入力条件に基づいた生成の制御に関する研究などの応用的な研究が多く確認されました。拡散モデルやフローモデルの発展により、それらをベースとする技術において生成品質や制御性が大きく進歩しています。例を以下に示します。

1.  単一の入力動画を元に別視点から動画を再生成する手法
2.  多様なベースモデルに適用可能かつ高性能な画像編集手法
3.  物体の前後関係を正確に指定して画像を生成する手法
4.  ウェーブレット変換を利用した高品質な超解像手法

3本目の論文は物体配置の前後関係を緻密に変更することにより制御性の高い画像生成が可能で、データ拡張などへの応用が期待されるため本記事の後半で詳しく紹介します。

複数視点とセンサーからの3D化

本トピックでは、複数のカメラやLiDAR、深度センサー、IMU、ToFなどの各種センサーから得られたデータを活用し、シーンやオブジェクトの3D構造を高精度に再構築、検出、認識、トラッキング、生成する技術を扱います。傾向として、3D空間の環境を認識してその意味を理解するScene Understanding（シーン理解）に関する論文が多く、3D再構成技術である3D Gaussian Splatting（3DGS）の論文も多数見られました。例を以下に示します。

1.  複数カメラで3D空間の特徴点をトラッキングする手法
2.  3Dデータセットのガウシアン・スプラッティング化
3.  3Dシーンにおけるインタラクティブなインスタンスセグメンテーション
4.  効率的に3D空間を表現する手法

4本目の論文は、データ量が肥大化する既存の研究と異なり3D空間を効率的に表現可能で、ロボティクスや画像編集など様々な下流タスクに応用可能であることから本記事の後半で詳しく紹介します。

マルチモーダル学習

“マルチモーダル学習”では、テキスト、画像、音声、動画、センサー情報などの異なるモダリティを同時に扱い、それらを相互に補完・統合して学習します。特に、大規模言語モデル（LLM）をコンピュータビジョンと組み合わせて複数のデータを取り扱うマルチモーダル大規模言語モデル（MLLM）の研究が多数確認されました。例を以下に示します。

1.  MLLMのトークンからのアクティベーションマップ作成
2.  各モダリティを一括学習する "Native MLLM"によるMLLMの性能向上
3.  複数の衛星センサーや画像以外のメタデータを統合的に扱う地球観測基盤モデル

2本目の論文は、効率的かつ高精度なMLLM学習のための洞察を提供しており、AI分野の発展への貢献が大きいと考えられる研究であるため本記事の後半で詳しく紹介します。

3. 注目論文

この章では、ICCV 2025に採択された論文の中から今後のAIの発展を考える上で重要だと考えられる論文を3本紹介します。掲載画像はそれぞれの論文から抜粋し、適宜補足説明を付け加えています。

LaRender: Training-Free Occlusion Control in Image Generation via Latent Rendering

物体同士のオクルージョン（物体の前後の遮蔽関係）を正確に指定して画像を生成・編集する手法です。

背景

オクルージョンを正しく制御することは画像生成において重要ですが、既存の手法で実現することは困難とされています。例えば、テキストで「AがBの後ろにいる」などと指示しても精密な制御はできず、物体の配置における前後関係を明示的に指定することができません。そのため、複数物体が互いに隠し合う複雑な場面においては、最新の生成モデルでも期待通りの画像を生成できないという課題があります。

コアアイデア

提案手法は、オクルージョンが光学的な現象である点に着目し、事前学習済みの拡散モデルにおいて、クロスアテンション層を置き換える形で「Latent Rendering（潜在レンダリング層）」という学習不要のモジュールを導入します。これによって、潜在空間でボリュームレンダリングの物理的原理を用いて物体の前後関係を再現します。

提案モデル

提案モデルの全体図を以下に示します。

提案モデルへの入力は、テキストプロンプト以外に、各物体の位置を表すバウンディングボックス、および前後関係を記述したオクルージョングラフが追加されます。オクルージョングラフによってユーザは物体の並び順を明示的に指定することができます。指定しない場合は、LLMによる入力プロンプトの解析によってオクルージョングラフを取得します。
モデル内部では、オクルージョングラフに従って物体を奥から手前へと順に並べます。各クロスアテンション層で物体ごとのテキスト記述に対して個別にアテンションを計算し、物体ごとの潜在特徴を抽出します。さらに、各物体でバウンディングボックスとクロスアテンションマップから透過率マップを算出し、それらを用いて物体ごとの潜在特徴を背景から前景への順に合成します。この操作により、前景物体が背景物体を正しく隠す物理解釈に沿ったシーン表現を構築します。

結果

既存研究との比較を以下に示します。

こちらの画像上段は、入力プロンプトを「牛が男性と柵を覆い隠し、男性は柵を覆い隠している。」とした場合の画像生成結果です。提案手法による画像生成では、オクルージョングラフで指定した通りの前後関係を保持できていることがわかります。また、画像下段にて入力プロンプトを「噴水の一部がライオンの彫像によって隠され、噴水と彫像の一部が前の茂みによって隠されている」とした場合も、提案手法により前後関係が正しい画像を生成できていることが確認できます。

3D空間における物体の位置関係を評価するベンチマークであるT2I-CompBench++や、MS COCOデータセットの実画像シーンから2～5物体を抽出したデータセットであるRealOccを用いてモデルを評価しました。
評価にはオクルージョンの関係を測定する指標であるUniDet、ユーザ調査における平均スコアを示すAUR、物体の位置関係を正しく推定できている画像の割合HPSRを利用します。提案手法のLaRenderは既存手法を上回り、画像内容とテキストの一致度を示すCLIPスコアも既存手法とほぼ同等であることが確認されています。

また、物体の透過度パラメータを調節することで物体を半透明化したり、霧の濃度や光の強さなどを変化させるといった視覚効果のコントロールも可能であることが示されており、高精度なオクルージョン制御に加えて多彩な効果を生み出せる柔軟性も備えています。

SUPERDEC: 3D Scene Decomposition with Superquadric Primitives

柔軟な形状表現の利用により、3D空間を高精度かつ軽量に表現できる技術です。

背景

3Dシーンの効率的な表現はシーン理解やロボット操作などの多くの応用技術で重要ですが、NeRFや3DGSといった近年の手法は、シーン全体に対して高品質な描画が可能な一方で、データ量が膨大になりがちでシーン理解や編集が困難です。これに対して、物体レベルではSuperquadrics（球・立方体・円柱などの形状を柔軟に変形させた「超二次曲面」）によるコンパクトな形状表現が研究されてきましたが、カテゴリに特化した手法が多く汎用性が欠如しており、かつ計算コストが高く多様な形状への適用が難しいという課題がありました。

コアアイデア

本研究は、物体ごとにSuperquadricsを予測するようにモデルを最適化し、物体のカテゴリに依存しない予測モデルを用いて、任意の物体を最低限の要素で構成する手法を提案します。これにより、軽量かつ汎用的な3D物体表現を実現します。

提案モデル

提案モデルの全体図を以下に示します。

物体点群に対してTransformerベースのモデルを適用し、複数のSuperquadricsのパラメータ、および各点がどのSuperquadricsに属するかを同時に予測します。また、再構成損失に加えて、要素数の冗長性を抑制するparsimony（倹約性）損失を合わせて最小化します。
モデルから出力された形状・大きさ・姿勢などを表す11個のパラメータおよびobjectnessスコア（特定の領域に物体が存在する確率）は、Levenberg-Marquardt法（LM法）最適化アルゴリズムを用いて調整します。
シーン全体への拡張では、既存の3Dインスタンスセグメンテーションを用いて3Dシーンから物体を切り出し、各物体を提案手法で処理して3D空間上に配置することで実現します。

結果

既存研究との比較を以下に示します。

ShapeNetベンチマークにおいて、提案手法は既存手法を大きく上回り、L2再構成損失は約1/6に低減し、要素数も約半分に抑えました。また、学習時に含まれないカテゴリの物体に対しても高い汎化性能を発揮し、実スキャンデータセットのScanNet++では最適化手法に比べ再構成損失を約1/30にまで低減しています。

定性評価においても、既存手法と比較して提案手法は少ない要素数で点群を正確に表現できていることが確認できます。

こちらの表は、物体に衝突せず地点Aから地点Bに行くルートを予測する下流タスクにおける予測時間、精度およびメモリ使用量を示しています。提案手法で3D空間を表現することにより、少ないメモリ利用で高い精度を達成しています。

こちらの図は、提案手法を画像生成における条件付けに利用した結果です。図で示すように、一番左の画像を元に、物体の位置変更・追加・削除などの編集を正確に実現しています。

Scaling Laws for Native Multimodal Models

MLLMにおける、各モダリティを一括学習するNative MLLMの性能とスケーリング則についての研究です。

背景

従来のMLLMでは、各モダリティを個別に学習した後に統合するlate-fusion手法が一般的でした。しかし、この手法はモダリティ間の相互作用を十分に考慮できておらず、大規模化において各モダリティごとにエンコーダのチューニングが必要といった課題があります。

コアアイデア

本研究では、全モダリティを1層目から統合するearly-fusion方式の有用性を検証しています。異なるアーキテクチャやデータの組み合わせで複数のモデルを訓練する大規模実験により、early-fusionとlate-fusion方式のそれぞれの性能およびスケーリング則の検証と比較が行われました。

提案モデル

提案モデルの全体図を以下に示します。

テキストのみのデータに加えて、画像とキャプションのペア、および画像とテキストの交互配置データを混合し、2種類のモダリティ統合方式でモデルをフルスクラッチ学習して比較・評価します。
提案手法のearly-fusion方式では、画像をパッチに区切って線形埋め込みベクトルに変換し、テキストのトークン列と結合します。その後、トークン列を単一のTransformerに入力し、アテンションによって各モダリティを統合します。モデルの一部の層ではMixture of Experts（MoE）を導入し、複数のエキスパートの中から各トークンに応じて動的にパラメータを割り当てられるように設計されています。

結果

実験結果を以下に示します。

学習時のバリデーション損失では、十分な計算コスト予算がある条件下ではearly-fusion方式とlate-fusion方式の性能がほぼ同等に収束することが示され、TransformerにMoEを組み込んだ手法は高精度を達成しました。

パラメータ数(N)と学習トークン数(D) の最適比率では、同じ計算量で性能を発揮するために必要なパラメータ数について、early-fusionは必要なパラメータが少なく高効率であると示されています。

上記の表は、QAおよびキャプショニングといった下流タスクの性能を比較しています。評価指標はQA、キャプショニングそれぞれでAccuracy（正答率）、CIDErスコアが用いられています。結果としてearly-fusionモデルはlate-fusionモデルの性能を上回り、一部のタスクではMoEの導入により大幅な精度向上を達成しました。

4. 招待講演

この章では、AIに関わる著名な専門家の講演について紹介します。ICCV 2025では3つの講演が行われました。

Taking pictures and making movies of black holes

講演者：Sheperd Doeleman（Center for Astrophysics | Harvard & Smithsonian）
ブラックホール観測の仕組みおよびAIを用いた可視化技術についての講演です。
はじめに、Doeleman氏はブラックホール周囲のガスが放つ電波から光の輪を観測する仕組みを2つ解説しました。
・Event Horizon Telescope (EHT): VLBI（超長基線電波干渉法）と原子時計で世界中の電波望遠鏡を
連携し、巨大な仮想望遠鏡を構築
・next generation EHT (ngEHT): 観測点の増設と配置の最適化により複数周波数での観測および時系
列解析に対応可能

次に、同氏はAIを用いたブラックホールの画像再構成の仕組みについて紹介しました。画像再構成は、スパースかつノイズを含むフーリエ空間上の観測データを活用し、データ整合性と物理的一貫性を同時に満たす最適化を行うことで実現されます。
続いて、AI技術の進展により、静止画像の再構成から時間変化の解析へと応用範囲が拡大していると説明しました。その一例として、Neural Radiance Fields（NeRF）による任意視点からのレンダリングにより動的構造を再現する例を取り上げ、ブラックホール観測においてコンピュータビジョンが必要不可欠であると強調しました。

On Perseverance: Virtually Unwrapping the Herculaneum Scrolls

講演者：Brent Seales（University of Kentucky）

炭化した古代書物を開かずに読む技術「仮想アンラッピング」の発展を紹介する講演です。
ヘルクラネウム書物は西暦79年のヴェスヴィオ噴火により炭化しており、物理的に開こうとすると崩壊してしまうため、未だ解読不能の状態に置かれています。

Seales氏は、従来の仮想アンラッピング手法は下記の手順で実行されると説明しました。
1. X線CTを用いた3Dスキャンで内部構造を取得
2. セグメンテーションで層構造を抽出
3. 曲面を展開して平面化、テクスチャ再構成により文字を再現

しかし、ヘルクラネウム書物はカーボンインクを使用しており、従来のX線CTを使う手法ではインクの検出が困難であるという課題に触れ、解析においては高解像度な構造情報の取得、およびインク層が表面に与えるゆがみの検出が必要になると説明しました。

その解決策として、AI技術を用いた最先端のアンラッピング技術について紹介しました。
1. マイクロX線CTにより高解像度な3Dスキャン
2. 断面（xy, yz, xz）ごとにデータ分割して特徴抽出
3. 各断面でインク有無のパターンを識別
この技術によりインク検出と解読が大きく進歩し、2023年から数千文字規模の解読に成功しました。

The efficiency of learner generated experiences

講演者：Linda B Smith（Indiana University Bloomington）

乳幼児の学習プロセスと効率性の分析、および機械学習への応用についての講演です。
Smith氏は、人は受動的に与えられたデータを取り込むだけでなく、能動的に知覚対象および学習対象を選択しており、特に乳幼児期にはその選択によって学習効率が高められていると説明しました。
この仮説を検証するため、同氏は下記の実験を実施しました。
1. 乳幼児にヘッドマウントカメラを装着して日常生活の映像を収集
2. 視覚経験と年齢・行動の関係を解析

上記の実験により、以下の結果が確認されました。
・乳幼児は形状やコントラストの違いによって視線が特定の対象に偏り、その対象への関心をもとに能動
的な情報収集を実施
・年齢による注視対象の変化
・乳児期：テーブルや窓など、身近なものを注視する傾向
・幼児期以降：ボールやピザなどの出現頻度が低く接触時期の遅い対象に関心が拡大
同氏は、こうした発達段階に応じた視覚経験の変化が、効率的な学習を支えていると指摘しました。

さらに、この知見を機械学習に転用し、年齢段階に沿ってデータを提示するカリキュラム学習を採用した研究を紹介しました。この研究では、生後6か月から12か月の乳幼児から収集したデータを2か月ごとの3期間に区切り、順に学習させる構成が採用されています。
結果として、物体認識やアクション認識などのタスクで、逆順やランダムなデータで学習したモデルと比較して性能が向上し、乳幼児研究の知見は機械学習においても有効であると結論づけられました。

5. まとめ

今回はICCV2025にオンラインで参加し、その聴講内容と動向を整理しました。

注目を集めていた主要なトピックは以下の3つです。
　・画像・動画の合成と生成、3D再構築、マルチモーダル学習
全体的に、実応用を意識した研究や複雑なタスクに取り組む研究が数多く見受けられました。

紹介した注目論文は以下の3本です。
　・3D空間と物体を効率的に表現する再構築技術
　・精密に物体関係を制御できる画像生成モデル
　・各モダリティを一括学習する高性能なマルチモーダルモデル

招待講演では、ブラックホール観測や古代書物の解読といったAIの活用事例に加え、乳幼児の学習プロセスにおける機械学習への応用が取り上げられ、AIが自然界や人間との関わりを一層深めつつあることが示されました。

今後も画像や動画の生成および3D再構築が引き続き注目される一方で、マルチモーダル化のトレンドがさらに加速していくと考えられます。

＼業務課題をデジタルで支援／

デジタルツールの選定から導入の手引きまで、中小規模のお客さまへわかりやすくお伝えします。

中小規模のお客さま向けサイトをみる

メールマガジン登録（無料）
ビジネスに役立つ記事やウェビナー情報をお届けします。

AI分野のトップカンファレンスICCV 2025の調査と分析

関連記事リンク

1. ICCVとは