フォーム読み込み中
皆様、はじめまして。ソフトバンク株式会社 AI戦略室 R&D推進室の荒です。
この度、2024年12月に開催されたNeurIPS 2024にオンラインで参加しました。
本記事では、NeurIPS 2024で得られた最新のAI研究動向や注目の論文について紹介します。
NeurIPS (Neural Information Processing Systems) は、世界最大規模のAI研究に関する国際会議であり、研究者だけでなくAI分野の多くの関係者から注目されています。
NeurIPS 2024の論文投稿数は15,671本で、そのうち4,038本が採択されました(採択率: 25.8%)。この数値からも、本会議の規模と重要性がわかります。
以下の図は、昨年度からの投稿数と採択論文数等の推移を示すグラフで、どちらも増加していることから、AI研究の勢いが続いていることがわかります。
この章では、Opening remarksで公表された情報に基づき、NeurIPS 2024の研究トレンドを分析していきます。
下の図は、各トピックの採択論文数を降順で示したグラフです。
昨年のNeurIPS 2023では、Machine VisionやNatural Language Processingの順位はそれほど高くありませんでしたが、NeurIPS 2024では1位と2位に上昇しています。これは今年の研究トレンドを色濃く反映している結果と考えられるため、今回はこの2つのトピックに着目してNeurIPS 2024ではどのような論文が採択されているのかを中心にそれぞれ深掘りしていきます。
Machine Visionは、従来のコンピュータビジョンから3Dやマルチモーダルまで視覚情報を含む幅広い研究を対象としています。特に3Dに関する研究が多く見受けられました。例えば、スパースビューから高品質な3Dメッシュを生成する手法の提案、点群を入力として多様な3D下流タスクを単一のモデルで実行できるフレームワークの提案、などです。後者の論文については本記事の後半で詳しく紹介します。
他の分野の論文では、視覚ドメインを中心にしたマルチモーダルLLMや、AIでよく用いられる畳み込み処理の計算効率向上を目指した新しいオペレータも注目されました。
Machine Visionというトピックは多様な分野を含むため全体の採択論文数に対する割合が大きいという面もありますが、視覚情報を含んだ研究全体として捉えるとNatural Language Processingに比べて2倍ほど多い割合を持つため、依然として研究トレンドとして考えられます。
Natural Language Processing(NLP)では、大規模言語処理モデル(LLM)に関する研究が大半を占めていました。LLMの精度や速度の基本性能向上を目指したものから、発展的なタスクに関する研究、データセットの作成など多岐にわたる研究が行われました。特に興味深かった研究としては、LLMを1-2ビットのベクトル量子化まで圧縮可能な学習手法や、LLMの評価にLLMを用いた時のバイアスを調査する研究があります。
NLPトピックはMachine Visionに比べて採択論文数の割合は小さいものの、他のトピックでもLLMを活用した論文が多く見受けられ、数値以上の盛り上がりを感じました。なかでも、マルチモーダルモデルに新モーダルを追加する新しい手法の提案はユニークかつ先見的な研究であると考えられます。こちらの論文は本記事の後半で詳しく紹介します。
この章では、今後のAIの発展を考える上で重要だと考えられる論文を4本紹介します。
マルチモーダルLLMに新モーダルを追加する研究です。単一のモダリティデータのみを利用した学習で高精度を達成しました。
一般的なマルチモーダルモデルの学習では、モーダル間のペアデータ収集とパラメータチューニングが必要とされます。しかし、ペアデータ収集は人的リソースがかかり、パラメータチューニングは計算リソースの観点で高コストです。
提案手法では、単一モーダルのデータのみを利用し、LoRAアダプターによる少数のパラメータチューニングのみを行うことで、新モーダル学習時における上述の課題を解決します。
モデルの全体図を以下に示します。
ベースモデルにVLMのBLIPを採用し、新しいモーダルを追加していきます。
はじめにエンコーダで各モダリティを特徴量に変換し、これらの特徴量をQ-Formerと呼ばれるアーキテクチャでクロスアテンションにより統合します。
新モーダルの学習はAdapter-in-Adapter(AnA)により実現します。AnAでは、単一モーダル情報を専門的に学習するLoRAアダプターと、学習済みモーダルとの関連性を学習する2つのアダプターを持ちます。提案手法は、学習のテクニックとして、学習済みアダプターの重みを固定します。これにより、新モーダルを追加で学習したことにより学習済みのタスクの精度が低下してしまう忘却現象を回避しつつ、新モーダルの学習が可能になります。
推論時は、推論対象のモダリティを学習した際のアダプターを利用します。例えばビデオデータを推論する場合、ビデオを学習した際のアダプターを活用します。
既存研究との比較を以下に示します。
実験では、画像と言語を扱うBLIPに対して、動画、オーディオ、深度、3Dの情報を順番に追加しています。表中のTはテストセットにおける精度で、高い値ほど良い指標です。また、Fは忘却を表し、低い値ほど良いことを示します。提案手法は、忘却を起こすことなく、各モーダルで既存手法を上回る精度を達成しました。
コアアイデアでも述べた通り、提案手法で必要なデータは、単一モーダルのデータのみです。現実的な課題設定かつ高精度を達成しており、非常に有用性の高い手法であることが伺えます。
以下に示す各モーダルの推論結果からも、各モーダル情報の適切な言語化に成功していることが確認できます。
本論文は、音声認識などを介さない音声から音声への変換する直接翻訳タスクに取り組んでいる研究です。元のスタイルを保持したまま音声翻訳を行うことが可能です。
TransVIPのコアアイデアは、入力音声から独立した特徴量を獲得することにより、それぞれの特徴を制御するというものです。直接翻訳タスクは従来のカスケード式パイプラインに比べて、データ不足かつタスク自体が複雑という2つの課題を持っています。この課題を解決するために従来方式のデータセットを利用可能にし、更には内部的にテキストを予測してから翻訳するという2つのタスクに分割することで複雑なタスクの簡略化を試みています。
TransVIPのモデルアーキテクチャ図を以下に記載します。
TransVIPは、入力音声を意味情報・音響情報・有音/無音情報の独立した特徴量に分離します。次に、それらの特徴量を統合するJoint Decoderを用いて、目的言語のテキストに変換します(図中央のText Output)。その後、Joint Decoderから得られた特徴量をNAR Acoustic Modelの入力として音声特徴量を抽出し、その音声特徴量をCodec Decoderで処理することで目的言語の音声生成を行います。
更に、TransVIPは推論時に翻訳された音声のリズムやタイミングを元の音声に合わせる機能を持ちます。その仕組みを図解化したものを以下に示します。
学習時に、Target SpeechからIsochrony Embeddingを抽出することで時間情報を捉え、翻訳された音声のリズムやタイミングを元の音声に合わせることが可能となっています。
既存研究との比較を以下に示します。
中段ブロックがフランス語から英語への翻訳タスクの評価結果で、下段ブロックが英語からフランス語への翻訳タスクの評価です。着目すべきはTransVIPの行のBLEU・SIM・Nat.の値が高い点です。BLEU・SIM・Nat.はそれぞれ翻訳性能指標・話者再現能力・音声品質指標を指します。これらの値が高いということから、TransVIPは話者情報を保持しながら、高い翻訳性能を持つことがわかります。
点群を入力としたさまざまな下流タスクに応用可能な汎用性の高い技術についての研究です。点群を入力に、6つのタスクを1つのモデルで実施可能で、精度検証を通してそれぞれのタスク特化モデルを上回る精度を示しました。
本論文のコアアイデアは、クエリ化で入力データの形を統一し、蒸留と対照学習でタスク間の知識を共有することです。タスク間の知識を共有することで異なるタスクを単一のモデルで処理可能になっています。
モデルの全体図を以下に示します。
キーとなる処理は以下の3点です。
既存研究との比較を以下に示します。
全タスクにおいて、タスク特化のSOTAモデルと同等または上回る精度を記録しています。
この研究は回帰を利用した新しい画像生成アルゴリズムの提案をしています。異なる解像度の特徴マップで回帰を行う構造により、既存モデルより早く高精度な画像生成が可能になりました。
本手法のコアアイデアは、画像生成に”次のスケール予測”および”次の解像度予測”という新しい回帰アプローチを採用したことです。従来のAutoregressive Generative Modelsでは同じ画像に含まれる画像トークンを予測するのみでしたが、本手法では異なる解像度を跨いだ予測を行っています。
モデルの学習プロセスの説明図を以下に記載します。
Stage1ではmulti-scale VQ autoencoderを用いて画像を階層的にエンコーディングします。Embedding済みの階層的にエンコードした画像を復元する学習を行います。Stage2では、スケールの異なる画像パッチ間を跨ぐように回帰をするVAR Transformerを学習します。
既存の画像生成モデルとの性能比較表を以下に示します。
本実験は、画像データセットのImageNet 256×256と512×512の条件生成ベンチマークでテストされています。表の下部のVARが提案手法の性能を示しており、VAR-dのあとの数字はモデルを深さを表しています。Rejection samplingを用いたVAR-d30-reが最良のFID/ISを達成していることがわかります。更に、#StepとTImeの値から画像生成に要する時間を大幅に削減していることも読み取れます。
次に、既存モデルと提案モデルの定性的に比較した図を載せます。
ImageNet 256×256の条件生成ベンチマークで生成された画像で、一番右列の画像が提案モデルの生成結果です。他のモデルに比べると被写体の写り方が多様かつ、被写体と背景がより綺麗に生成されていることがわかります。
この章では、AIに関わる著名な専門家の講演について紹介します。NeurIPS 2024では7つの講演が行われましたので、特に重要だと考えられる講演を2つを抜粋してまとめました。
講演者: Fei-Fei Li (Stanford University)
Fei-Fei Li氏はImageNetという有名なデータセットの作者で、本講演で機械がVisual Intelligenceを獲得するために必要なことを説明しました。Visual Intelligenceとは視覚情報を処理する能力のことで、人類が成長し文明を発展させる上で不可欠な能力、とのことです。彼女はVisual IntelligenceをUnderstanding・Reasoning・Generationの3つの要素に分け、それぞれの要素に整備されたデータセットと最適なモデルの設計が必要だと主張しております。現状は、2次元のデータに対してはそれぞれAIで十分な成果が出ているものの、人間は3次元で世界を理解し行動に繋げています。そのため、今後は3次元で上記の3要素を見たし、更にはそれをAgentに組み込むことで、機械が真のVisual Intelligenceを得ることになり、人間を手助けすることになるだろう、と結論付けていました。
講演者: Lidong Zhou(Microsoft Research)
本講演のテーマは、AIの発展を支えるために必要となる計算基盤、およびその基盤を効果的に設計・活用するためのシステム技術についてです。近年のAIの目覚ましい発展によりシステムの負担が増大している今、AIとシステムが共に進化していくことができる技術が必要です。これを実現する要素を、Efficiency、Trust、Infusionに分解して紹介しました。Efficiencyの要素としてはAIモデルを高速に動かすための量子化技術を挙げていました。また、TrustやInfusionでは、生成モデルによるシステム設計やコード検証の自動化によりシステム発展の加速が期待できるという考えを示しました。
NeurIPS 2024のオンライン参加で得た主な知見として、Machine VisionとNatural Language Processingが注目され、特に3D視覚情報や大規模言語モデル(LLM)の研究が進展しています。注目論文では、効率的なマルチモーダル学習や高精度な音声翻訳、汎用的な3Dシーン理解、そして高速な画像生成手法を紹介しました。さらに、専門家による講演では、3D Visual IntelligenceやAIとシステムの共進化の重要性が強調されました。
本記事をご覧になり、各論文や技術にご興味を持っていただけたら幸いです。引き続きトップカンファレンスの調査と分析を続けてまいりますので、今後ともよろしくお願いいたします。
条件に該当するページがございません