フォーム読み込み中
ソフトバンク BeyondAI推進室 R&D推進部の竹内です。
2025年12月2日〜12月7日にアメリカ カリフォルニア州 サンディエゴで開催されたNeurIPS 2025に現地参加しました。NeurIPS (Neural Information Processing Systems) 2025はAI研究に関する世界最大規模の国際会議です。
本記事では、NeurIPS 2025で得られた最新のAI研究動向や注目の論文を紹介します。
NeurIPS (Neural Information Processing Systems) はAI研究に関する世界最大規模の国際会議で、今回で39回目の開催となります。
NeurIPS 2025に投稿された論文は21,575本、採択数は5,290本、採択率は24.5%です。以下のグラフは2年前からの論文数、採択数、採択率の推移を示しています。投稿論文数は年々増加しており、特に今年は昨年と比較して37%以上増加しています。一方で、採択率は概ね25%前後で推移していることがわかります。
この章では採択された論文を調査し、NeurIPS 2025の研究トレンドを分析します。
採択論文のタイトルに含まれる単語の出現頻度を集計し、ワードクラウドとして可視化しました。下図はNeurIPS 2024とNeurIPS 2025のワードクラウドです。文字が大きいほど、出現頻度が高いことを示しています。
昨年と比較して、「LLM」と「Reasoning」の二つの単語の出現頻度が大きく増加しました。ここでは、それぞれの増加の背景を分析します。
「LLM」はLarge Language Modelの略称です。「Large」と「Language Model」自体は昨年も頻出でしたが、今年は特に「LLM」という略語をタイトルに含める論文が増えています。背景として、LLMという略語が分野横断で一般化し、タイトル上で略語のみを用いても読者に通じやすくなったことが挙げられます。これに加えて、「LLM Agents」のようにLLMを含む複合語が研究トピック名として定着したことで、タイトルにそのまま用いられるケースが増えました。こうした変化が、出現頻度の増加につながっていると考えられます。
具体的な研究内容としては、低リソース環境でも動作するための効率的なモデルの研究[1]、言語以外の入力にも対応するためのマルチモーダルモデルの研究[2]、複雑なタスクに対応するために複数のLLMを組み合わせる研究[3]、既存のLLMを比較評価することで課題を発見する研究[4]などが採択論文として見受けられます。このように、LLMの研究は特定のテーマに限定されず、多様な観点から行われていることがわかります。
・[1] Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment
・[2] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
・[3] ShapeCraft: LLM Agents for Structured, Textured and Interactive 3D Modeling
・[4] SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines
「Reasoning」は、近年のLLM研究における重要キーワードの一つです。Reasoningは、単に論理的な回答を行う能力を指すだけでなく、多段階の思考プロセスを明示的に扱う設計や、その過程を客観的に測定する評価手法までを内包する概念として用いられることが多いです。
Reasoningに関する研究自体は以前から存在していたものの、2024年秋にOpenAIが公開したモデル群(OpenAI o1など)を一つの契機として、「Reasoning Model(推論型モデル)」という呼称・枠組みが一般化しました。その結果、論文タイトルにReasoningを明示するケースが増え、出現頻度の増加につながっていると考えられます。これにより、Reasoningは単なる生成能力の一部ではなく、思考することそのものを設計・最適化する対象として扱われるようになり、論文側でも貢献点を明確化するためにタイトルにReasoningを明示する論文が増加したと推察されます。
具体的な研究内容としては、Reasoning能力向上のために強化学習で推論戦略を設計する研究[1]、思考プロセスを制御して効率化する研究[2]、Reasoningを単なる回答生成ではなく、計画・実行・修正を含む複雑タスクの遂行として扱う研究[3]などが採択論文として見受けられます。このように、Reasoningの研究は実運用における有用性を追求する段階に移行していることがわかります。
この章では、NeurIPS 2025に採択された論文の中から、今後のAIの発展を考えるうえで重要だと考えられる論文を3本紹介します。掲載画像はそれぞれの論文から抜粋し、適宜補足説明を付け加えています。
拡散(Diffusion)モデルの「ノイズ除去(復元)」の枠組みを言語生成に応用した手法を提案する論文です。拡散過程に似た復元型の生成を導入することで、前のトークンを予測する逆方向推論タスクで性能向上を示しています。
画像生成で広く用いられる拡散モデルは、出力長が固定であることを前提に、全ピクセルへ同時にノイズを付加し、段階的に復元する枠組みとして定式化されています。一方、言語は出力長が変動するため、そのままでは拡散モデルを適用しにくいという課題があります。
また、従来のLLMは、前のトークンや文章のみを情報として次のトークンを予測する自己回帰モデルを生成に用います。そのため、次のトークンを予測する順方向推論(Next token prediction)が得意である一方、前のトークンを予測する逆方向推論の弱さが課題とされています。
本論文では、出力トークン数に上限を設けて固定することでLLMに拡散モデルを適用可能にしています。そのうえで、文末を示す記号を明示的に生成させ、以降を切り捨てることで出力長を可変にしています。
さらに、トークンの位置に依存せず、確度が高いトークンから断片的に復元することで、生成方向の制約を弱め、逆方向推論への対応を実現します。例えば、句読点や頻出語など確度の高い部分から先に復元し、確度の低い箇所を後から埋める生成が可能になります。
提案手法のモデル図を以下に示します。
(a)事前学習、(b)ファインチューニング、(c)推論の3フェーズに分かれています。
(a)事前学習:一部がマスクされた文章を復元するタスクを繰り返すことで、マスクを確率的に復元する
能力を学習します。
(b)ファインチューニング:質問に対する返答部分のみをマスクして復元することで、モデルを最適化し
ます。
(c)推論:解答部分のトークンをすべてマスクした状態から開始し、確度の高い箇所から段階的に復元す
ることで、生成方向に依存しない文章生成を可能にします。
まず、広範な既存タスクでモデルの性能を確認します。比較対象は同規模パラメータの自己回帰型LLMで、提案モデルの結果を青枠で囲っています。
複数のベンチマークで同等以上のスコアを示し、自己回帰型LLMと比較しても総合的に競争力のある性能を示しています。
次に、漢詩のデータを用いて「順方向推論(Forward)」と「逆方向推論(Reversal)」のタスクでモデルを評価しています。
比較対象はパラメータ数や学習トークン数が多い自己回帰型LLMであり、提案モデルに不利な条件で比較しています。提案モデルの結果を青枠で囲っています。
「逆方向推論」で既存モデルを上回る精度を達成しています。これは拡散モデルを応用した生成手法が、生成方向に依存しない推論において有効であることを示唆します。
加えて、順方向と逆方向の精度差が小さい点も特徴的で、双方向の推論性能が一貫していることも注目すべきポイントです。
画像と動画の両方を同一モデルで生成可能な自己回帰モデルを提案した論文です。空間的な構造(静的構造)と時間的な動き(動的変化)を分離して考慮し、それぞれを階層的に予測することで画像・動画の整合性を保ちます。これにより、画像生成・動画生成の双方で既存手法を上回る性能を示しています。
一般的な動画生成モデルでは、静的構造と動的変化の整合性を保つことが難しいという課題があります。その結果、物理的整合性の破綻や、フレーム間で外観が揺らぐ時間的一貫性の低下などが生じます。例えば、物体が宙に浮いてしまったり、人物の髪型が少しずつ変化したりすることがあります。
本手法は、静的構造と動的変化の情報をそれぞれ考慮するために、画像ピラミッドと動画クリップピラミッドを導入します。
・画像ピラミッド:物体配置などの大域的な静的構造を低解像度で決定し、段階的に解像度を上げながら
細部を補完します。
・動画クリップピラミッド:時間軸を固定された長さのクリップに分割し、画像ピラミッドと同じく段階
的に解像度を上げることで、動的変化を階層的に予測します。
さらに、静的・動的情報を独立に扱うことで、時間方向の一貫性を保ちやすくし、整合性の高い動画生成につなげます。
提案手法のモデル図を以下に示します。
自己回帰型のTransformerに基づくモデルで、同一モデル内で画像生成・動画生成・動画外挿(動画の続きを生成するタスク)を統一しています。画像ピラミッドで得た静的構造を動画生成に利用したり、動画生成で得たクリップピラミッドを動画外挿に利用したりすることで、整合性の高い生成を実現します。
画像生成の実験結果です。提案モデルの結果を青枠で囲っています。
上段が拡散モデルで、下段が本手法を含む自己回帰モデルです。
物体の位置関係や色などの属性、プロンプトとの整合性を指標ごとに比較した結果、既存の画像生成手法を上回る性能であることが示されています。
動画生成の実験結果です。提案モデルの結果を青枠で囲っています。
物体の位置関係、動画品質、動きの自然さなどを指標ごとに測定しており、既存の有力な自己回帰モデルを上回る結果が示されています。本手法が、空間的・時間的に一貫性の高い動画を生成可能であることがわかります。
マルチモーダルLLM(MLLM)に効果的なLoRAアダプターを提案した論文です。モーダル内の特徴抽出とモーダル間の相互作用計算を明示的に分離することで、Visual-TextとAudio-Visual-TextのQAタスクで性能が向上することを示しています。
LoRAは、学習済みLLMの重みを固定したまま、少数の追加パラメータのみを学習してタスクやドメインに適応させる、パラメータ効率の高いファインチューニング手法です。
従来のMLLMにおけるLoRA学習では、複数モーダルの情報を一つにまとめたうえで特徴表現を学習する設計が主流でした。しかしこの設計には、パラメータの更新が特定のモーダルに偏る可能性や、モーダル間の相互作用を十分に学習しにくいといった課題があります。
特定モーダルへの依存を避けるために、各モーダル専用の学習パラメータを用意します。加えて、モーダル間の情報をより活かすため、相互作用を明示的に計算する仕組みをLoRAアダプターに組み込みます。
提案手法のモデル図を以下に示します。
左がモデル全体、右がLoRAアダプターの中に組み込まれたクロスアテンションの詳細です。
まず各モーダルごとに専用パラメータで特徴量を計算します。その後、あるモーダルの特徴量をクエリとし、それに対して別モーダルの特徴量をキー・バリューとして用いるクロスアテンションにより新たな特徴表現を得ます。これにより、モーダル間の相互作用を考慮した出力が得られます。
まず、Visual QAタスクの結果です。提案モデルの結果を青枠で囲っています。
LLaMA2とQwen2の2つの学習済みモデルにLoRAアダプターを追加し、従来手法と比較しています。画像内の物体認識や位置関係の理解などを指標として評価した結果、比較した手法の中で最も高い精度を示しています。
次に、Audio-Visual QAタスクの結果です。提案モデルの結果を青枠で囲っています。
4つの学習済みモデルにLoRAアダプターを追加して評価しています。音声モーダルを含むタスクでも、比較した手法の中で最も高い精度を示しており、提案手法の優位性が示唆されています。
この章では、AI分野の著名な専門家による招待講演を紹介します。NeurIPS 2025では招待講演が6件行われました。本章では、そのうち特に重要だと考えられる3件を取り上げます。
講演者:Rich Sutton(University of Alberta)
Sutton氏は、エージェントの性能向上に向けた新たな強化学習アプローチを紹介しました。同氏はまず、従来の強化学習手法において、中間目標(サブタスク)を自動的に生成・再利用する仕組みが不十分である点を課題として取り上げ、結果として以下の2点が困難になると説明しました。
この課題に対し、複数ステップの行動をひとまとまりとして扱う「行動テンプレート」を学習単位として導入するアプローチを提案しました。例えば、「ドアに向かう」「ドアを開ける」「外に出る」という一連の行動をまとめて「部屋を出る」というテンプレートとして扱う、といったイメージです。テンプレートを自動生成できるように学習し、実行時には複数のテンプレートをサブタスクとして組み合わせることで、より複雑なタスクの遂行の実現を狙いとして述べました。
講演の最後に、エージェントの自律的学習を実現するうえで重要な要素として次の3点を挙げました。
これらによって環境変化への柔軟な対応が可能となり、エージェントのさらなる高度化が期待されると主張しました。
講演者:Yejin Choi (Stanford University)
Choi氏は、Small Language Model(SLM)の高精度化に向けた2つの手法を紹介しました。ここでのSLMは、パラメータ数が数十B(数百億)の言語モデルを指します。
1つ目は、学習を完全自動化する手法で、以下の手順で実現されます。
これにより、LLMの知識をSLMへ移植できると述べました。
2つ目は、Reasoning(リーズニング)を明示的に学習させる手法で、以下の手順で実現されます。
これにより、SLMでもリーズニングに基づく思考プロセスを活用でき、性能が向上します。
講演の最後に、SLMの発展とコミュニティの拡大について次の2点を紹介しました。
このようなことから、AIの開発・活用を促進する環境が整いつつあると強調しました。
講演者:Melanie Mitchell (Santa Fe Institute)
Mitchel氏は、現在のAI評価手法が抱える課題と、自身が提案する新たな評価手法について紹介しました。
同氏はまず、評価手法の課題として「擬人化の問題」を挙げました。これは、人間とは異なる特徴や能力を持つAIを、人間と同じ基準で評価してしまうことで評価が歪む可能性があるという指摘です。例えばAIは、以下のような非人間的な特徴や能力を持ち得ます。
このような特徴や能力を利用した意図しない解法によってテストが破綻する可能性があること、また高得点であっても人間と同様の認知を示しているとは限らないことに注意が必要だと説明しました。
この問題を踏まえて、同氏はLLMの認知能力を測るための新たな評価手法を作成しました。本手法は、問題文(タスクの説明)を明示せず、例題と解答のペアからタスク内容を理解できるように設計されています。例えば下図では、「画像の中からパターンの異なる領域を切り出す」というタスクを三つの例題から推測できます。
テスト時、LLMは解答に加えて「推測したタスク説明」も出力します。同氏は、この説明と本来のタスクの説明との一致度をスコア化することで、LLMの認知能力を測定できるだけでなく、意図しない解法の検知にもつながると主張しました。
今回はNeurIPS 2025に参加し、その聴講内容と動向を整理しました。
昨年と比較して出現頻度が増加した単語は以下の2つです。
採択論文を分析した結果、LLMについては多様な観点からの研究、Reasoningについては実運用における有用性を追求する研究が進められていることがわかりました。
紹介した注目論文は以下の3本です。
いずれの研究も、表現力の拡張やマルチモーダル化の推進、増大する計算コストの効率化など、次世代の基盤モデル構築に向けたアプローチを示しています。
紹介した招待講演は以下の3つです。
いずれの講演も、特定のタスクにおける性能追求だけでなく、性能の汎用化や信頼性の向上に向けた取り組みを提示しています。
本記事をご覧になり、各論文や技術にご興味を持っていただけたら幸いです。引き続きトップカンファレンスの調査と分析を続けてまいりますので、今後ともよろしくお願いいたします。
条件に該当するページがございません