フォーム読み込み中
ソフトバンク株式会社 BeyondAI推進室 R&D推進部の髙橋です。
この度、2025年7月13日〜7月19日に開催されたICML 2025に参加しました。
本記事では、ICML 2025で得られた最新のAI研究動向や注目の論文について紹介します。
ICML(International Conference on Machine Learning)はAI分野で最も影響力の大きい会議の一つで、機械学習に関連する人工知能、統計学、データサイエンスなどの基礎研究から、マシンビジョン、計算生物学、音声認識、ロボット工学といった応用分野まで幅広い研究を対象としています。
今回ICMLに投稿された論文数は12,468本、採択数は3,333本で、採択率は26.7%です。投稿数は昨年に比べて32%増(昨年:9,473本)、採択率は0.9%低下(昨年:27.6%)です。
この章では採択された論文を調査し、ICML 2025の研究トレンドを分析します。
下の図は、各研究エリアの採択論文数を降順で示したグラフです。
研究エリアのトップ3は以下の通りです。
1. LLM(大規模言語モデル)
2. Computer Vision(コンピュータビジョン)
3. Generative models and autoencoders(生成モデルとオートエンコーダー)
1位のLLMの論文数は、2位のComputer Visionの論文数の2.46倍に達しており、他の国際会議と同様LLMが非常にホットな分野であることが明らかになりました。
次に研究エリアトップ3それぞれについて動向を整理するため、分野ごとの採択論文タイトルをWordCloud化します。WordCloudでは、出現頻度が多い単語ほど大きくなって画像に表示されます。今回はトレンドの把握が目的のため、”learning”のようなトレンドの把握が難しい単語は除外しています。
LLMそのものを連想させる単語を除くと、"reasoning"が頻出単語であることが分かります。そのほか、安全性と関連が強い"alignment"や、強化学習関連の単語である"reward"、学習・訓練効率向上系論文で用いられる"efficient"などが他の単語よりやや出現頻度が高い傾向が見られます。他にも様々な単語が出現しており、研究対象が多岐にわたっていることがうかがえます。
以下は採択されたLLM関連論文の一部です。
データの種類を表す単語として、出現頻度が高い順から”image”・”3d”・”video”となっています。データの種類を表す単語を除くと、”diffusion”・”generation”が目立っており、タスクとしては画像/3D/動画の生成が主な研究トピックであると考えられます。画像に対する物体検出・セグメンテーションに関連する単語は少なめです。
以下は採択されたComputer Vision関連論文の一部です。
データの種類を表す単語としては”image”が大きく目立っており、この分野は”diffusion”または”flow matching”を用いた画像生成モデルに関する論文が主であることが推察されます。また、生成結果をコントロール可能なモデルで多く用いられる単語である”guidance”や、言語への応用が期待されるMasked Diffusion Model(MDM)のベースとなる離散Diffusionに含まれている”discrete”などの単語の出現頻度が高いことが確認できます。
以下は採択された生成モデル関連論文の一部です。
この章では、ICML 2025に採択された論文の中から、今後のAIならびにAIプロダクトの発展において重要だと考えられる論文を3本紹介します。使用する画像はそれぞれの論文から抜粋したものです。
Multi-modal DiTを用いた画像生成モデルの解釈性についての論文です。追加学習を必要とせず、任意の単語(概念)に対応する画像内の領域を可視化する手法が提案されています。
拡散モデルを用いた画像生成は非常に高性能・高品質ですが、一方でその解釈性に課題が残っています。Multi-modal DiTを用いたText-to-Imageモデルでは、従来Attention層における重みの値を可視化し、テキストプロンプトに含まれる各単語の画像内での対応領域を確認することでモデルを解釈していましたが、鮮明な可視化はできていませんでした。
筆者らはAttention層の重みを用いる代わりに、Attention層の出力として得られる画像特徴・テキスト特徴の内積を取ることで、鮮明な可視化が可能であることを確認しました。これに基づき、任意の単語が画像のどの部分と対応しているか可視化するConceptAttentionモジュールを提案しています。
従来のMulti-modal DiTと、ConceptAttentionを導入したMulti-modal DiTの構造を以下に示します。
生成過程において、従来のMulti-modal DiTが入力として受け取るテキストプロンプトトークンおよび画像トークンに加えて、可視化対象の単語に対応するコンセプトトークンが入力されます。ConceptAttentionは生成画像に影響を与えない形で計算され、Attention層の出力(画像特徴とコンセプト特徴)の内積で可視化マップが生成されます。
ConceptAttentionを導入することによる画像生成結果への影響はないため、学習済みの任意のMulti-modal DiTに適用することが可能です。
定性的な結果から確認します。
ConceptAttentionは、他の可視化手法と比較して、単語と画像内の位置との対応付けをより高精度に実現しています。
次に定量的な結果を確認します。可視化したマップを2値化してセグメンテーションマスクを作成し、セグメンテーション性能を確認します。本手法は生成画像ではない画像にも適用可能なため、ImageNetとPascalVOCでセグメンテーション性能を評価しています。
Attention層の重みを用いた手法や他の可視化手法と比較して、本手法はより高いセグメンテーション性能を示しています。
またConceptAttentionをMulti-modal DiTベースのモデルに適用した結果が以下です。
画像生成モデル向けに設計されたConceptAttentionですが、動画生成モデルにも適用可能であるということが確認されています。
LLMの対話能力向上と応答効率化を目指した論文です。新たに設計したデータセットを用いてLLMを学習させ、ユーザの意図を理解できるモデルを構築しています。またマルチターンの対話を考慮した報酬による強化学習で、対話全体を最適化しています。
従来のLLMは、次のターンの返答のみに着目した報酬設計となっていたため、長期的な対話の最適化や、ユーザーの最終的な目的達成に向けた最適化が困難であるという課題がありました。
この論文では、新たなデータセットの作成と新たな報酬設計により上記の改善を目指しています。ユーザとのマルチターン対話をLLMで生成してデータセット化し、学習時には将来の対話を利用して、対話の「効率性」と「質」を考慮した報酬で強化学習を行い、対話全体を最適化しています。
筆者らが作成したデータセットの例を以下に示します。
本手法では、ユーザの意図を理解して、タスク完遂まで導くマルチターン対話を生成するために、まずユーザの挙動を模倣するエージェント(ユーザシミュレータ)を準備します。このシミュレータとLLMとの間で、ユーザとのやりとりが多く発生する3つのタスク(書類修正、コーディング補助、数学問題の回答)に関するマルチターン対話を行います。このときユーザシミュレータには「最低限の反応に留める」、「たまにスペルミスや明確でない質問をする」、「雑談は控え、達成したいことに集中してチャットを行う」などの制約を与え、人間らしい振る舞いをするように指示しています。
提案モデルの流れを以下に示します。
学習時はあらかじめ作成しておいたデータセットを用いて、以下の3要素を組み合わせた報酬設計で強化学習を実施します。
推論時は上記方法で訓練されたLLMが、ユーザからの入力に対して、対話全体を考慮した応答を生成します。
定量評価の結果を以下に示します。緑はベースライン、オレンジはCOLLABLLMの適用結果、赤はProactive Base(Baseモデル+プロンプトエンジニアリング)とOnline DPO(学習時に動的に対話を生成して強化学習を実施)を比較した際の、相対的な性能向上率を表します。Tokensが応答の効率性、ITRが応答の質、その他の指標が各タスクの精度を表しています。
3つのタスクすべてにおいて、精度の向上が確認されました。それに加え、応答の効率性と質についても、ベースラインからの向上が確認できます。
1ターンの対話について最適化するのではなく、対話全体について最適化することで、応答の効率性と質両方の向上に効果的であることが複数のタスクで確認されました。
Full Duplex型のリアルタイム音声対話モデルにおいて、QA精度と安全性を高めるためにPreference Learningを適用した論文です。音声対話モデルによる応答と、LLMによって生成されたより好ましい応答を組み合わせてペアデータ化し、Preference Learningの枠組みでモデルを訓練します。これにより、音声対話モデルのQA精度および安全性スコアの向上が確認されました。
※Full Duplex: 主に通信分野で用いられる用語で、送信と受信を同時にできる通信方式。
※Preference Learning: 好ましい応答か否かをフィードバックすることでモデルを最適化する学習手法、モデルの安全性向上などに有用。
AIモデルを調整する手法の一つとして、Preference Learningがあります。Preference Learningでは複数(例えば2つ)の出力に対して、どちらがより好ましい応答かをフィードバックすることで、より人間の好みに合った出力をするような最適化がなされます。しかし人手でのフィードバックは非常に高コストです。LLMを用いたフィードバック手法も存在しますが、従来手法はテキスト入力のみを想定しており、音声入力への適用がなされていませんでした。
筆者らは音声対話モデルに対してPreference Learningを行うため、応答内容を評価するLLMへの入力に、各発話の発話開始時間などのタイムスタンプを付与しました。その後、LLMによる評価結果をもとに、タイムスタンプ付きの好ましい応答を生成し、データセットとして構築しました。これを用いて音声対話モデルの訓練を行っています。
提案モデルの流れを以下に示します。
ユーザと音声対話モデルによる音声対話データを収録し、音声認識によってテキスト化します。テキスト化した対話をLLMに入力することで、安全性やタイミングなどの観点から、音声対話モデルの応答を評価します。評価結果をもとに、LLMがより好ましい応答を生成し、それを元の応答と組み合わせてペアデータを構築します。テキストとして保持されているペアデータは、音声合成によって音声化され、このデータを用いて、音声対話モデルをPreference Learningにより訓練します。
ユーザの音声特徴は、音声認識によるテキスト化のタイミングで完全に削除されるため、ユーザのプライバシーを保護したデータセットを作成することが可能となっています。
定量評価結果を以下に示します。xx-Instructは提案手法適用前の結果、xx-Alignedは提案手法適用後の結果を表しています。
MoshiおよびM-Alt-Voxの2つのモデルに対して提案手法を適用した結果、QA精度および安全性の向上が確認されました(太字部分)。
また以下は、提案手法適用前後での応答内容の違いを表した例(音声データを文字起こししたもの)です。文の最初に記載されている数字は、発話と終話のタイミングを秒数で表しています。
ユーザの違法な要求に対して、提案手法適用前はそれを手助けするような応答をしているのに対し、提案手法適用後は犯罪行為を拒否するような応答になっていることが確認されました。
この章では、AIに関わる著名な専門家の講演について紹介します。ICML 2025では5つの講演が行われました。ここでは特に重要だと考えられる講演を2つ抜粋してご紹介します。
講演者:Pamela Samuelson (UC Berkeley)
Pamela Samuelson氏は、生成AIと著作権法について、AIの学習における著作物利用の法的課題と、各国の制度の違い、今後の制度設計の方向性などを語りました。
同氏は、著作権とは創作的表現の複製や配布を制限する権利である一方、教育や報道などにおける「フェアユース」はその例外とされる点に触れ、検索目的でのデータ利用がフェアユースと認められた事例を紹介しました。アメリカでは生成AIの学習へのデータ利用について著作権訴訟が増加しており、AnthropicやMetaを巡る訴訟では、海賊版書籍を含めた書籍の使用がフェアユースか否か、などが争点となっています。生成AIの学習へのデータ利用は、現状ではフェアユースと見なされる場合が多いものの、今後解釈が変わる可能性があり、動向を注視する必要があると述べました。
最後に、同氏は著作権者がAI学習への使用を拒否できる制度や、集団管理団体を通じたライセンス制度の導入などが議論されていることに触れ、今後の制度設計にはAI関連の技術者・研究者も含めて広範な関係者が関与すべきだと呼びかけました。
講演者:Anca Dragan (UC Berkeley, Google)
Anca Dragan氏は、AIが人間の意図に沿った行動を取るための最適化手法について、人間のフィードバックを用いた強化学習(RLHF)とその課題、そしてLLMによるフィードバックを用いたAI Alignmentについて語りました。
同氏は、人間の内示的なニーズにAIを適合させる「AI Alignment」の手段としてRLHFが用いられている一方で、人間の評価は必ずしも正確・十分ではないと指摘しました。LLMへRLHFを適用することで、LLMがユーザにとって都合のよい回答を生み出すように最適化される傾向があり、それが将来的に望ましくないAI行動につながる可能性があると述べました。例えばレストラン予約AIがユーザの指示に従って他人の予約を勝手に書き換える、といった事例が想定されています。
このような課題に対し、Dragan氏は人間の代わりにLLMを用いたフィードバックについて言及しました。実際にGoogleのGeminiではLLMによるフィードバックがAlignmentに利用されており、一定の成果を上げています。ただし、LLMが語尾に「信じてください」と繰り返すような意図しない最適化や、プロンプトの与え方によってYes/Noの判断が変わってしまう不安定性が課題であり、今後の方向性として、複数のLLMが互いに議論を行うことによる多角的なフィードバックの実施、などが有効である可能性を示唆しました。
ICML 2025の採択論文を調査し、論文数が多いLLM、Computer Vision、生成モデルの分野について、各分野の動向を分析しました。注目論文では、画像生成モデルの解釈性の向上と他タスクへの応用、対話全体を最適化するためのLLM訓練スキーム、Preference Learningを用いたリアルタイム音声対話システムの性能と安全性向上について紹介しました。著名な研究者による講演では、AIの学習における著作物利用の法的な課題や、AlignmentにおけるRLHFの影響とLLMによるフィードバックの課題が言及されました。
本記事を通じて、各論文や技術にご関心をお持ちいただければ幸いです。これからもトップカンファレンスの調査と分析を続けてまいりますので、今後ともよろしくお願いいたします。
条件に該当するページがございません