フォーム読み込み中
ソフトバンク株式会社 BeyondAI推進室 R&D推進部の袁です。
今回は2025年4月24日〜4月28日に開催されたICLR 2025にオンラインで参加しました。本記事では、ICLR 2025で得られた最新のAI研究動向や注目の論文について紹介します。
ICLR(The International Conference on Learning Representations)は、2013年から開催されている学会で、今回で13回目になります。表現学習と呼ばれるAIの分野、一般に深層学習として知られる技術の発展を目的としたトップカンファレンスです。
AI、統計学、データサイエンスの各分野で用いられる深層学習技術だけでなく、マシンビジョン、計算生物学、音声認識、テキスト理解、ゲーム、ロボティクスといった重要な応用分野で使用される深層学習に関する最先端研究も投稿されています。(参考)
ICLR 2025に投稿された論文数は11,672本、採択数は3,704本で、採択率は31.73%です。投稿数は昨年に比べて60.73%増(昨年:7,262本)、採択率は横ばい(昨年:31.12%)です。
この章では、Opening remarksで公表された情報に基づき、ICLR 2025の研究トレンドを分析していきます。
下の図は、各トピックの採択論文数を示したグラフです。
トピックのトップ3はLLM(大規模言語モデル)、Diffusion Model(拡散モデル)とReinforcement Learning(強化学習)です。ICLR 2024と比較すると、1位は同じくLLMで、拡散モデルが強化学習を超えて3位から2位に上昇しています。また、ベンチマークに関する採択論文数も昨年と比べて数倍に増加し、評価手法への関心が高まっていると考えられます。1位と2位のLLMと拡散モデルについて動向を整理します。
LLM(大規模言語処理モデル)は安全性、効率化および応用など、多種多様な面で研究されていて、特に安全性とアライメント(AIの判断や行動を人間の意図や価値観に沿わせる)や、言語モデルが生じる幻覚(hallucination)についての研究が多く見受けられました。例を以下に示します。
LLMに関する採択論文数が昨年と比べて2倍以上に増加し、全体の約40%を占めています。また、Outstanding Papers Awardを受賞した3本の論文も全てLLMに関する論文で、LLMがICLR 2025で最も注目されている分野であると考えられます。
拡散モデルについては、拡散モデルの性能と効率を向上させるフレームワークや学習方法の研究、または事前学習済みのモデルをベースにした下流タスクへの応用の研究が多く確認されました。例を以下に示します(3本目の論文については本記事の後半で詳しく紹介します)。
下流タスクとしては、画像生成のほか、動画や3D生成に関する論文も多く見受けられました。また、全体的な傾向として、単なる画像や動画の生成に関する研究よりも、制御可能な生成や画像および動画の編集に関する研究の方が多い印象を受けました。
この章では、ICLR 2025に採択された論文の中から、今後のAIの発展を考える上で重要だと考えられる論文を3本紹介します。掲載画像はそれぞれの論文から抜粋しています。
画像群と点群に対し、テキストを入力に、任意の物体を3D空間上で認識する技術です。
従来のオープンボキャブラリー(任意のテキスト)対応の3Dインスタンスセグメンテーション手法は、高精度を達成する一方で、計算コストが大きく、推論速度が遅いという課題がありました。これは、Segment Anything(SAM)やCLIPなどの計算コストが高い2D大規模基盤モデルを用いて、マルチビュー画像から特徴を抽出することや、特徴量を3D空間に拡張する必要があることに起因しています。
提案手法では、3Dの物体候補検出モデルと2D OVOD(オープンボキャブラリー物体検出)モデルを統合し、大規模基盤モデルを使わず、またそれらの特徴量を3D空間に拡張せず推論を高速化することで、任意のカテゴリに対応可能かつ高効率な3Dインスタンスセグメンテーションを実現しました。
モデルの全体図を以下に示します。3D Networkと2D OVODはそれぞれ既存モデルを使用していて、3D Networkはクラスに依存しない3D物体候補を検出し、2D OVODはすべての入力フレームに対して、クラスラベル付きのバウンディングボックス(ラベルマップ)を作成します。
次に、各3D物体候補に対して可視性が高い上位k個の視点からクラス情報を取得し、ラベルマップを割り当てます。最後に、k個の視点から集約されたクラス情報を分布化し、分布の中で最も尤もらしいクラス情報がその3D物体候補に割り当てられます。
既存研究との比較を以下に示します。
ScanNet200およびReplicaの2つのデータセットを用いて評価されました。オープンボキャブラリ3Dインスタンスセグメンテーションおよびその一般化能力の実験では、提案手法が精度面で既存手法を大幅に上回りつつ、高速な推論を実現しました。
医療用大規模視覚言語モデルの事実性向上を目的としたマルチモーダルRAG(検索拡張生成)システムに関する研究です。
Med-LVLMs(医療用大規模視覚言語モデル)は医療診断やレポート生成などで注目されていますが、事実と異なる情報を生成する「ファクトハルシネーション」問題が深刻です。視覚言語モデルの推論はテキスト情報を優先的に利用するため、テキストが不正確な場合に精度に大きく影響します。また、既存のRAGベースの手法は異なる医療ドメインへの汎用性が乏しく、モダリティ間のミスアライメントや、モデル出力と正解データの間のミスアライメントを引き起こすことがあります。
提案手法では、RAGを用いて関連度の高い情報のみを抽出して、不正確なテキスト情報を削減しました。また、テキスト情報を優先的に利用するモデルではなく、画像とテキストの両方を効果的に利用するモデルを強化学習で作成します。これによって、RAGの導入によるミスアライメントの影響を抑え、異なる医療ドメインにおいても高い正確性と汎用性を実現しました。
提案モデルの全体図を以下に示します。
提案手法は主に以下の3つのアプローチを導入し、正確性と汎用性を向上させます。
1.Domain-Aware Retrieval
医療画像のドメイン(放射線画像、病理画像など)を自動的に識別し、適切な外部知識を検索することで、異なる医療分野に対応可能な汎用性を実現します。
2.Adaptive Retrieved Context Selection
検索された外部知識の中から、類似スコアの減少率を元にモデルの出力と関連度の高い情報を選択することで、RAGの導入によるミスアライメントの影響を改善します。
3.RAG-Based Preference Fine-Tuning
学習データとして用いる画像とテキストのペアにおいて、画像の方が不正確なペアを一部用意し、モデルがそのペアで正しい予測を行った場合にペナルティを課すような強化学習を行うことで、画像とテキストの両方を効果的に利用するモデルを作成します。これによって、各種ミスアライメントの影響を最小限に抑え、モデルの正確性を高めます。
既存研究との比較を以下に示します。
実験では、放射線学、眼科学、病理学など5つの医療データセットを用いたVQA(医療質疑応答)と、画像とクエリを元にレポートを生成するタスクで評価を行いました。ほとんどの項目で既存手法を上回り、さらに質疑応答タスクでは18.5%、レポート生成タスクでは69.1%の精度向上が確認され、提案手法の有効性を示しました。
画像・動画生成における制御性の向上と効率的な適応を目的とした新たなフレームワークについての研究です。
ControlNetは、深度マップやスケッチ、姿勢情報などの条件を用いて、画像生成モデルに空間的な制御を加える手法として広く利用されてきました。しかし動画生成においては、特徴空間の次元数の問題でControlNetを既存モデルに直接統合することが困難です。また時間的一貫性の問題を考慮すると、フレームごとに独立してControlNetを適用することも最適とは言えません。
この研究は、ControlNetとバックボーンモデルの間にモジュールを追加することにより、事前学習済みのControlNetを再学習することなく、任意の画像・動画の拡散モデルに条件付き生成を可能にし、多様な制御機能を効率的かつ汎用的に実現するフレームワークCTRL-Adapterを提案しています。
提案モデルの全体図を以下に示します。
事前学習済みのControlNetの中間/出力ブロックを、ターゲットとなる事前学習済み動画拡散モデルの対応する中間/出力ブロックへマッピングするアダプターモジュールを訓練し、事前学習済みのControlNetとバックボーン拡散モデルのパラメータは固定されたまま、効率的な適応を可能にします。バックボーンが同じ数の出力ブロックを持たない場合、ControlNetの特徴を、潜在表現の高さと幅が最も近い出力ブロックにマッピングします。
また、アダプターモジュールは、空間的な畳み込み・アテンションと、時間的な畳み込み・アテンションを組み合わせることにより、動画生成における時間的一貫性を維持します。
その他、潜在スキップや逆タイムステップサンプリングなど新たな手法を提案しています。潜在スキップは、ControlNetの入力から潜在表現をスキップすることにより、異なるノイズスケールおよびスパースフレーム条件への高い適応性を実現します。逆タイムステップサンプリングは、ControlNetの離散的なタイムステップと、新しいモデルの連続的な時間分布に効率よく適応させます。
これらの設計により、CTRL-AdapterはU-NetベースおよびTransformerベース(DiT)の拡散モデルの両方に対応し、多様な制御信号を効率的に適応させることが可能となります。
実験結果を以下に示します。
画像生成タスクでは、COCOデータセットにおいて事前学習済みのControlNetと同等またはそれ以上の性能を達成しました。動画生成タスクでは、DAVIS 2017データセットにおいて、全ての既存手法を上回り最先端の精度を達成し、さらに計算コストも大幅に削減しました(A100 80GB GPUでの学習時間が10 GPU hours未満) 。
提案手法は、スパースフレーム制御や多条件制御など多数の制御機能を持ち、多様なバックボーンに適応することを実現しました。さらに、動画編集やスタイル変換、モーション制御など、様々な下流タスクにも応用可能です。
この章では、AIに関わる著名な専門家の講演について紹介します。ICLR 2025では6つの講演が行われました。ここでは特に重要だと考えられる講演を2つを抜粋してまとめます。
講演者:Dawn Song (UC Berkeley)
AIとLLMエージェントの構築と導入に伴うリスクとその対策について講演されました。AIが多くのシステムを制御するにつれて、攻撃者のインセンティブが増大し、結果もより深刻になります。敵対的環境下において、安全かつ責任あるAIを考慮することが重要であると説明されました。AIの信頼性とアライメントについて、プライバシーとロバスト性の観点から、学習データ内のプライバシー情報をAIが記憶してしまう問題や、情報漏洩の問題の重要性を説明し、モデル設計や学習、推論など様々なステージで対策する必要性が強調されました。そしてAI悪用について、AIがサイバー攻撃に効果的である現状を紹介し、設計レベルでシステムの安全性を向上させる対策方針を提唱しました。最後は、AI設計開発の透明性を高めることや早期検出方法を開発するなど、科学と証拠に基づくAI政策を推進するための優先事項を提案しました。
講演者:Danqi Chen (Princeton University)
限られた予算の下で言語モデルの事前学習と事後学習について講演されました。予算やデータセット、インフラの制限がある中での言語モデルの開発は、新規的かつ計算効率に優れたソリューションにつながるという利点を主張し、制約下で研究を行う重要性を示しました。具体的には、まず大規模言語モデルのプルーニングと蒸留、継続的事前学習などの手法で小規模言語モデルの訓練を紹介し、ゼロから学習する場合と比べて計算予算をわずか3%に削減した高性能なSheared LLaMAの例をあげました。そして、データキュレーションについて紹介し、品質フィルタリングなどの例を用いて、事前学習データの品質を担保することの重要性を強調しました。最後はオープンウェイトモデルと事後学習について、遥かに低いコストと計算資源で実現可能であることを説明し、インストラクションチューニングや人間のフィードバックによる強化学習など、事後学習がもたらすデータやアルゴリズムに関する研究機会を紹介しました。
今回はICLR 2025にオンライン参加して、聴講内容と動向を整理しました。
LLMと拡散モデルに関する研究が注目され、LLMは特に安全性とアライメントや、事実性に関係する幻覚問題(hallucination)についての研究が多く、拡散モデルは制御可能生成や編集についての研究が多く見受けられました。注目論文では、3Dセグメンテーション、医療用視覚言語モデル向けのマルチモーダルRAGシステム、および画像・動画生成拡散モデルを紹介しました。さらに、専門家の講演ではAIの安全性や言語モデルの事前・事後学習の重要性が強調されました。全体的に見て、AIの安全性および信頼性に関する内容が増加していると感じられ、今後もこの傾向が続くものと考えられます。
条件に該当するページがございません