AI分野の主要カンファレンスAAAI 2025の調査と分析

2025年4月11日掲載

キービジュアル

ソフトバンク株式会社 BeyondAI推進室 R&D推進部の髙橋です。

この度、2025年2月25日〜3月4日に開催されたAAAI 2025に参加しました。
本記事では、AAAI 2025で得られた最新のAI研究動向や注目の論文について紹介します。

目次

  • AAAI 2025の論文の傾向などを分析してレポートしています
  • AIの最新研究動向が気になる方向けの記事です
  • 最新技術キャッチアップのきっかけになると嬉しいです

1. AAAIとは

AAAIはAssociation for the Advancement of Artifical Intelligenceという団体の略称で、会議の正式名称は”Annual AAAI Conference on Artificial Intelligence”です。1980年から開催されている学会で、今回で39回目になります。AI分野の主要カンファレンスの一つとして知られています。

AAAIのスコープ非常に幅広く、公式サイトによると、機械学習、自然言語処理、コンピュータビジョン、データマイニング、マルチエージェントシステム、知識表現、ロボット工学、知覚、倫理など様々な分野がスコープとして記載されています。

さらに、上記に加えて以下のような分野を特に奨励しています。

  • AIの技術分野を横断するもの(コンピュータビジョンと自然言語など)
  • AIと関連研究分野の橋渡しをするもの(脳神経科学・認知科学など)
  • 重要な応用領域でAIを開発するもの(ヘルスケア・持続可能性など)

AAAIという会議が、基礎から応用まで、AIに関するあらゆる研究分野を受け入れていることがわかります。

今回、AAAI2025に投稿された論文数は12,957本、採択数は3,029本で、採択率は23.4%です。投稿数は昨年に比べて23%増(昨年:10,504本)、採択率は横ばい(昨年:24.1%)です。

採択数・採択率の推移(メイントラック)

2. 研究トレンド

この章では、採択された論文を調査し、AAAI 2025の研究トレンドを分析していきます。

Primary Keywordランキング

AAAI 2025では、著者が論文を投稿する際に、論文と最も関連が強いキーワードをキーワードリストの中からPrimary Keywordとして選択します。

採択された全論文について、Primary Keywordごとに論文数を集計することで研究トレンドを分析します。

Primary Keywords

トップ3は上から

  1. ”cv_3d_computer_vision”
  2. “cv_computational_photography_image_video_synthesis”
  3. “cv_language_and_vision”

となっており、Computer Vision(CV)関係の論文採択数が多いことがわかります。これはAI系のトップカンファレンスであるNeurIPS 2024と同様の傾向です。またCV分野の中で3D系の論文が多いことは、CV系のトップカンファレンスであるCVPR 2024ECCV 2024と同様の傾向です。

Primary Keywordの観点では、AAAI 2025も2024年に開催された他のAI系トップカンファレンスと同様の傾向を持っており、CV分野、特に3D分野がトレンドであることがわかりました。

採択論文に含まれる単語の出現頻度

次に採択論文のタイトルに含まれる単語から研究トレンドを分析します。

トレンドを可視化するため、今回はWordCloudを生成しました。WordCloudでは、出現頻度が多い単語ほど大きくなって画像に表示されます。トレンドの把握が目的のため、”learning”のようなトレンドの把握が難しい単語は除外しています。

昨年からの変化を見るため、AAAI 2024に採択された論文タイトルから生成されたWordCloudと比較します。

WordCloud (AAAI2024)

WordCloud (AAAI2024)

WordCloud (AAAI2025)

WordCloud (AAAI2025)

“Large language”, “Diffusion”のような生成AI関連のキーワードが急激に増え、AAAI 2024で目立っていた”image”, “graph”のようなキーワードの出現回数を上回っていることがわかります。

急上昇キーワード

出現頻度の増加が顕著な単語として”multi”, “efficient”などがあります。

multi

“multi-modal”, “multi-view”, “multi-agent”のキーワードを含む論文を多く確認しました。

“multi-modal”はテキストと画像の組み合わせだけでなく、音声とテキスト画像と点群とテキストRGBカメラと赤外線カメラなど、様々なモーダル間の組み合わせを入力とした論文が採択されていました。“multi-view”は3Dの分野()と機械学習の分野()で用いられており、“multi-agent”もAI agentの分野()、強化学習()など複数の分野で使用されているキーワードでした。

efficient

AIの学習・推論をより高効率に行う技術に関する論文を多く確認しました(例1, 例2, 例3)。

2020年にTransformerのスケーリング則が確認されたことで、学習データを大きくし、学習パラメータを増やし、計算コストをかけることによる高精度なAIの実現が可能になりました。その一方で、この流れに抗う形で、多くの研究者がより高効率で既存手法と同程度の性能を目指す研究に興味を持っているようです。

初出キーワード

AAAI 2024には出現しておらず、AAAI 2025で初めて出現したキーワードを、そのキーワードがタイトルに含まれている論文数順で2つ紹介します。

mamba

mambaはCOLM2024で発表された技術で、計算コストを抑えつつ、長期の情報を保持できる点が特徴です。AAAI 2025ではmambaアーキテクチャを用いた技術に関する論文が複数確認できました。3Dデータへの応用モーショントラッキングへの応用イベントカメラデータへの応用など、幅広い分野での応用が始まっているようです。

mambaアーキテクチャを用いた論文のタイトルには、先に述べた”efficient”というキーワードが一緒に含まれていることも多く、AI学習の高効率化がトレンドとなっている今、非常に注目されている技術です。

splatting

このキーワードはSIGGRAPH2023で発表されたGaussian Splatting(GS)関連の論文で用いられています。Gaussian Splattingは3D空間を3Dガウス分布の集合で表す技術で、3D空間情報を画像平面にレンダリングする際の早さと精度の高さが特徴です。このキーワードが含まれている論文は主にCVの3D分野で、事前にカメラ姿勢を必要としないGSや、トポロジー的な制約をかけたGSなどが提案されています。一方で、2D画像の超解像にGSを適用した研究も提案されています。

GSを用いているが、“splatting”という単語がタイトルに含まれていない論文も多く、GSは3D分野において非常に大きな存在感のある技術です。

4. 注目論文

この章では、AAAI 2025に採択された論文の中から、今後のAIならびにAIプロダクトの発展を考える上で重要だと考えられる論文を3本紹介します。使用する画像はそれぞれの論文から抜粋・引用しています。

LLMを用いたChatbotなどが回答時に付与する「引用」の有無が、回答への信頼度に与える影響についての論文です。

コアアイデア

人間がAIからの出力を信じるにあたって、AIの説明可能性は重要な要素の一つです。LLMを用いたAIシステムにおいて、「引用」の出力は、そのAIの説明可能性を伝える一つの手段になります。

この論文では2つの仮説を立て、検証を行っています。1つ目の仮説は「LLMを用いたAIシステムにおける、回答に対するユーザーの信頼度は、引用の有無と相関を持つ」というもので、2つ目の仮説は「AIシステムの出力に懐疑的なユーザーほど引用を確認する傾向がある」というものです。

引用がある場合、ない場合で複数パターンの出力を行い、ユーザーにその出力への信頼度を評価させることで、仮説の検証を行っています。

提案モデル

実験の全体図は以下です。

paper1_model

検証にはChatGPTを使用しています。被験者303名(実験の内容や意図を伏せられた状態で参加)を5つのグループに分け、引用について以下の条件でChatGPTからの回答を与えます。

  • グループ1: 引用なし
  • グループ2: 引用1件、正しい引用
  • グループ3: 引用1件、誤った引用
  • グループ4: 引用5件、正しい引用
  • グループ5: 引用5件、誤った引用

被験者はChatGPTからの回答に対し、信頼度を1から10で数値化して評価します。

結果

実験の結果、引用の存在と信頼度に正の相関が存在することが確認されました。下の図の”Has Citation”が、引用が存在しないグループと比較した、引用が存在するグループの、AIシステムの回答に対する信頼度の違いを表しており、引用が存在するグループの信頼度が有意に高いことがわかります。

また正しい引用が与えられたグループと誤った引用が与えられたグループを比較したところ、誤った引用が与えられたグループの信頼度が有意に低いことも下図の”Random Citation”からわかります。

paper1_graph1

次に、引用を確認した人としなかった人の信頼度を比較したところ、下図の”Check Citation”に示すように、引用を確認した人の信頼度が有意に低いことが確認されました。これは2つ目の仮説「AIシステムの出力に懐疑的なユーザーほど引用を確認する傾向がある」を支持する結果となっています。ただし実際に引用が確認された回答の数は、全体の回答の中の9.77%のみだったとのことです。

また、回答が一つに定まる質問(Factual)、政治的な質問(Political)は、引用の有無によらず信頼度が高い傾向にあることが確認されました。

paper1_graph2

画像生成モデルにおける公平性の向上についての論文です。学習済みの画像生成モデルの出力のバイアス修正を、低コストに実施する手法が提案されています。

コアアイデア

Text-to-Imageタスクに用いられるDiffusionモデル・大規模言語モデルは、それぞれ学習時のデータに社会的・文化的なバイアス(〇〇という職種は男性が多い、XXという職種はアジア人が多いなど)が含まれており、text-to-imageタスクの出力に影響を与えます。

公平性の高いtext-to-image生成を実現するため、本論文では簡素な構造のFair Mappingモジュールを提案し、学習済みのtext-to-imageモデルに追加することで、低コストでの公平性の向上を実現しています。

提案モデル

Fair Mappingモジュールの学習方法を以下に示します。

paper2_model1

Text Encoderからの出力を、線形ネットワークのFair Mappingモジュールに通すことで、属性(性別や人種など)ごとのバランスが均等になることを目指します。
図では例として性別を考えています。maleとfemaleをプロンプトに含めた場合の特徴ベクトルvm, vfについて、属性を与えなかった場合の特徴ベクトルvとの距離をそれぞれ計算し、その距離が同等になるような損失(L_fair)を計算しています。
また公平性マッピングモジュール前後において、特徴ベクトルが持つ意味情報が一貫性を持つよう、fとv, fmとvm, ffとvfの値がそれぞれ近くなるような損失(L_text)を計算しています。

text-to-imageタスクを実施する際には以下のようなフローで行われます。

paper2_model2

Detectorは訓練時に使用したデータセットに基づいて、特徴ベクトルにバイアスが含まれているか否かを判断し、バイアスが含まれていると判断された特徴ベクトルのみがFair Mappingモジュールに渡され、特徴ベクトルが修正されます。

結果

FairMが提案手法です。バイアスの評価において、3つの属性(Gender, Race, Age)を用いています。

paper2_table

他の手法と比べて、提案手法の生成結果に含まれるバイアスが小さいことが定量的に確認されました。

FairMを適用した生成モデルで実際に生成された画像の比較は以下です。

paper2_images

線形ネットワーク層を学習済みモデルに追加するだけなので、訓練時間も短く、150の職種について、NVIDIA V100を1枚使って50分で訓練が可能です。生成時間も元の学習済みモデルから大きく変化せず(100枚の画像生成に際し、424秒→434秒)、訓練時間・推論時間の点で他手法より優れていることが確認できました。

会話中の割り込みが可能な音声対話モデルについての論文です。AIとの会話中に自然な割り込みが可能で、リアルタイム処理での応答速度が速く、かつノイズ耐性が高いモデルが提案されています。

コアアイデア

従来の対話型AIは、話すことと聞くことが順番に処理されていたため、AIが話し終わるまで、人間は発言できない(会話に割り込めない)という課題がありました。

本論文では上記課題に対処するため、対話型音声言語モデルにおけるFull Duplex Modeling (FDM)を定式化し、独自モデルのListening-while-Speaking Language Model (LSLM)を提案しています。

※Full Duplex: 主に通信分野で用いられる用語で、送信と受信を同時にできる通信方式のこと。

LSLMでは、AIの出力となるスピーキングトークン(下図青色)と、AIへの入力となるリスニングトークン(下図緑色)を統合することで、FDMの実現を目指しています。

paper3_model1

提案モデル

下図のように、スピーキングトークンとリスニングトークンを統合するタイミングを変えた3種類のアーキテクチャについて、効果を検証します。

paper3_model2

結果

特定のキーワードによる対話割り込み(Command-based FDM)と、自由発話による対話割り込み(Voice-based FDM)の2種類のタスクについて、3種類のアーキテクチャを評価しています。

まずCommand-based FDMの評価結果を下表に示します。EF, MF, LFはそれぞれEarly Fusion, Middle Fusion, Late Fusionを表しています。

paper3_table1

評価の結果、Middle Fusionが最も高性能という結果になりました。音声合成(TTS, Text-To-Speech)の精度もVanilla TTSと同程度であり、高精度に割り込みが可能であることを示しています。

Early Fusionは音声合成(TTS, Text-To-Speech)の精度が他のアーキテクチャより低く、Late FusionはMiddle Fusionと比べてノイズへの耐性が低いことがわかります。

次にVoice-based FDMの評価結果を下表に示します。アーキテクチャはMiddle Fusionを採用しています。

paper3_table2

Voice-based FDMの方が難易度が高いため、Command-basedと比較して精度が低いことが確認されました。今後発展の余地がある分野であると考えられます。

5. 招待講演

この章では、AIに関わる著名な専門家の講演について紹介します。AAAI 2025では5つの講演が行われました。ここでは特に重要だと考えられる講演を2つを抜粋してまとめます。

AI, Agents and Applications

講演者:Andrew Ng (DeepLearning.AI)

Andrew Ng氏は、AIエージェントについて、そして近年のAIエージェント・生成AIの発展が今後のAIプロダクト開発にもたらす影響について語りました。
AIエージェントが複雑なタスクを効率的かつ高精度で実行するためのアプローチとして、AI自身による評価と改善の繰り返し外部呼び出しを利用した能力の拡張複雑な指示のシンプルなタスクの組み合わせへの変換複数のAIエージェントでの協力が有用であると述べました。
また同氏は、今後のAIプロダクト開発のトレンドとして、高速なプロトタイピング、分散型システムなどを紹介しました。高速なプロトタイピング:AIプロダクト開発の工程を「プロトタイピング」、「商用ソフトウェアの作成」、「運用」の3ステージに分けた時、「プロトタイピング」は他の2フェーズと比べて簡素で、かつセキュリティ等の懸念事項が少ないため、最もAIエージェントの恩恵を受けやすい(10倍早くなる)と主張しました。分散型システム:生成AIの時代においては、データの処理コストがデータの伝送コストより明らかに大きいため、安い計算リソースを求めてデータを伝送することが合理的な手段として考えられるようになってきているとし、AIプロダクトが分散型の構成で実装されるトレンドにつながる、と述べました。

Algorithmic Agnotology

講演者:Alondra Nelson (Institute of Advanced Study)

Alondra Nelson氏はアグノトロジー(無知学・無知論)の観点から、近年のAIを取り巻く環境を考察しました。
アグノトロジーは意図的・文化的に引き起こされる「無知」についての分野です。同氏はTech業界において、無知が意図的に生成・利用されていると主張しました。例えば、プライバシーポリシーをあえて複雑にすることによる不透明なユーザーデータ収集や、AIを”neural”や”learning”のようなhuman-likeな言葉で表すことによるAI性能の過大アピールなどがこれにあたります。
これらの中で、特にAIと関係が深いものとしてアルゴリズム的な無知(Algorithmic Agnotology)があります。同氏は、AIがブラックボックスであるために責任の所在が曖昧になっており、企業側がそれを一種の保険としている風潮があることを指摘しました。また世界中で起きているAIの開発競争が、説明可能性の低いシステムをリリースする手助けになっていることについても合わせて言及しました。
同氏は「アルゴリズム的な無知」を是正するために、誰が意図的な無知を作り出しているかを識別することや、「知る権利」をアピールしてシステム構築側とユーザーの知識の不平等を解体することなどが重要である、と述べました。

6. まとめ

AAAI 2025の採択論文を調査し、CVの3D分野の論文が引き続き多いことを確認しました。

また、生成AI系の論文の増加が顕著であること、複数の分野をまたがる研究・効率を重視している研究が増加傾向にあることがわかりました。

注目論文では、AIシステムにおける引用の存在と信頼度の関係分析公平性を重視した画像生成自然な割り込みが可能な音声対話モデルについて紹介しました。

招待講演では、AIエージェントや生成AIの存在が今後のAIプロダクト開発を変える可能性や、AIの説明可能性の低さが世界に及ぼす影響が言及されました。

本記事をご覧になり、各論文や技術にご興味を持っていただければ幸いです。引き続きトップカンファレンスの調査と分析を続けてまいりますので、今後ともよろしくお願いいたします。

おすすめの記事

条件に該当するページがございません