フォーム読み込み中
こんにちは、ソフトバンク株式会社 BeyondAI推進室 R&D推進部の松永です。
この度、2025年8月17日〜8月21日に開催されたInterspeech 2025に参加しました。本記事では、Interspeech 2025で得られた最新のAI研究動向や注目の論文について紹介します。
Interspeechは音声言語処理における世界最大規模の国際会議です。今回で26回目の開催となります。Interspeech 2025の投稿数は2,333本、採択率は49.89%であり、1,164本が採択されました。Interspeech 2024と比べて投稿数と採択数が10%ほど増加しています。また、InterspeechやICASSPの採択率は毎年50%前後となっており、CVPRやAAAIなどの他のAI系の国際会議に比べて採択率が高い傾向にあります。
※ICASSP: 信号処理の分野で世界最大規模の国際会議
この章では採択された論文を調査し、Interspeech 2025の研究トレンドを分析します。
採択論文のタイトルから研究トレンドを分析します。以下はInterspeech2024とInterspeech2025のワードクラウドの図です。文字が大きいほど出現頻度が高いことを示しています。
出現頻度が増加傾向にあるconversionと減少傾向にあるself-supervisedについて、動向を整理します。
昨年と比べて「conversion」の出現数が30→39と増加しました。Voice Conversionは、長年言語情報を保ったまま声質を変換する研究として扱われていましたが、近年声質以外の情報を変換する研究が増加しています。具体的には聞き取るのが困難な音声を聞き取りやすい音声に変換する研究[1]や脳波を音声に変換する研究[2]があり、音声変換の応用範囲が拡大していることがわかります。
昨年と比べて「self-supervised」の出現数が51→30と減少しました。Self-Supervised Learning (SSL) を用いた事前学習モデルは様々な音声処理タスクの特徴量として用いられてきましたが、ニューラルコーデックなどの新たな特徴量抽出手法の増加によって、特徴量表現の選択肢が多様化していることから減少傾向にあると考えられます。また、HuBERTなどの事前学習モデルの利用が一般化されたため、論文のタイトルに含まれにくくなった可能性があります。
続いて、昨年からの増加数が多いワードTop10を下のグラフに示します。
上の結果から、トレンドが読み取れるキーワードについて研究動向を整理します。
昨年と比べて「LLM」の出現数が18→42と増加しました。昨年は音声認識に応用する研究が中心でしたが、今年は感情認識[1]や音声発話から心理状態を推定する研究[2]など、応用範囲が拡大していることが要因として考えられます。また、推論速度の向上[3]や音声対話の評価[4]、安全性[5]など様々な方向で研究が進められています。
昨年と比べて「low resource」の出現数が7→29と増加しました。近年AIの劇的な進歩により様々なタスクの精度が格段に向上していますが、方言音声や障害音声などデータの収集が困難な音声に対する精度には課題があります。そのようなデータが少ない状況で精度を向上させる研究が進められています。具体的には、音声変換を用いてデータ拡張する研究[1]やWhisperなどの学習済みモデルを効率的にファインチューニングする研究[2]などが採択されています。
昨年と比べて「dysarthria」「dysarthric」の出現数が12→23と増加しました。dysarthriaは構音障害と呼ばれる、言葉を正常に発音する能力が失われる障害です。構音障害音声に特化した音声認識の研究[1]や構音障害音声から自然な発話への変換を行う研究[2]が進められています。近年音声AIの精度が急激に向上しているため、このような難易度の高い音声の研究が進められていると考えられます。
昨年と比べて「deepfake」の出現数が15→29と増加しました。DiffusionやLLMなどにより偽音声の品質・多様性が向上し、かつ誰でも使えるようになったことで、実社会での悪用リスクが顕在化していることが要因として考えられます。これによりこれまでの単なる2値分類ではなく、生成元の特定[1]、マルチモーダル[2]、部分編集対応[3]、説明可能性[4]など実運用に向けた研究が進められています。
昨年と比べて「codec」の出現数が14→26と増加しました。ニューラルネットによって低いビットレートで音声情報を圧縮する、ニューラルコーデックに関する研究が増加しています。ニューラルコーデックは、単純な情報圧縮にとどまらず、音声合成[1]やLLMのトークン[2]としても活用されるなど、その応用範囲は多岐にわたります。Interspeech2024以降研究数が増加しており、今年もその傾向が続いています。上で述べたSSL特徴量同様に、今後はニューラルコーデックの特徴量の利用も一般化されていくことが考えられます。
この章では、Interspeech 2025に採択された論文の中から、今後のAIならびにAIプロダクトの発展において重要だと考えられる論文を3本紹介します。使用する画像にはそれぞれの論文から抜粋・引用したものが含まれます。
PromptEVC は、テキストによる自然言語プロンプトから感情の表現を柔軟に制御できる音声感情変換(EVC)の研究です。例えば「怒りを少し混ぜた悲しみ」「速めで明るい声」といった直感的な指示をそのまま入力し、生成音声に反映させることができます。これにより、従来必要だった参照音声の選択や数値パラメータの微調整といった煩雑さを解消しました。
自然言語処理分野の事前学習モデルRoBERTa[1]を用いて粗い感情埋め込みを抽出し、DiffusionベースのPrompt Mapperによって微細な感情埋め込み表現へ変換します。学習時は、テキストから抽出した感情埋め込みと音声から抽出した感情埋め込みが一致するように学習をします。これにより自然言語の記述から、感情・強度・混合感情・話速・音量・ピッチを含む微細な感情表現を抽出することができます。
提案手法のモデル図を以下に示します。
音声合成モデルのVITS [1]をベースとしており、ターゲットのスペクトログラムからVAEとFlowを用いて抽出した特徴量を入力情報から予測します。VITSでは読み上げるテキストを入力していますが、本研究では発話・感情の埋め込みを入力します。
[1] Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
まずは変換音声の品質について確認します。主観評価ではNaturalness (自然さ) と Similarity (話者性の保持能力) について評価しています。
全ての指標において既存手法に比べて高い品質であることが分かります。
続いて感情表現能力について確認します。表のProposedは提案手法により生成された感情音声、Ground Truthは生の感情音声を表しています。E_inは感情の強さ (3段階)、E_mxは感情の種類 (8段階)、Pは声の高さ、Sは話す速さ 、Vは声の大きさを表しており、それぞれについて音声を聞いた人による分類結果と事前に付与されたラベルを比較することで分類精度を計算しています。
それぞれの指標の分類精度の差が10%以内に収まっており、生の感情音声に近い精度で感情を制御できていることがわかります。
生成音声に対して、人間が聴いたときに違和感が生じないようなウォーターマークを埋め込む研究です。ウォーターマークとは、所有権や著作権を示すための透かしを入れる技術です。音声生成AIモデルの悪用を防ぐ手段として有用な研究となります。
自己回帰型の生成モデルは「次に生成するトークン」を確率分布に従って出力します。本研究では、生成される離散トークンの確率分布を変動させることによって、分布の偏りを検出し、生成音声を特定します。
提案モデルの検出方法を以下に示します。
本研究では、HuBERTの離散トークンを音声トークンとして確率分布を操作しています。
上記の方法でウォーターマークを埋め込むことで、出力は自然だが、統計的に見たときに緑のトークンが選ばれやすい偏った分布の音声を得ることができ、統計検定によって生成音声を検出することができます。
ウォーターマークを埋め込んだ音声の検出精度を以下に示します。KGWは上で説明した手法です。DiPはKGWよりも分布を保ちながら偏りを作る手法で、音質や自然さの劣化が少ない代わりに検出能力が低い手法です。TPRは真陽性率、FPRは偽陽性率、TPR@FPRはFPRがX%になるように閾値を設定した場合のTPRを表しています。re-encodingはHuBERT等で特徴量を抽出し、その特徴量を再度音声に戻すことを指します。
re-encoding前の音声は高い精度で検出できていることが分かります。しかし、re-encoding後の音声は検出精度が大きく低下していることがわかります。音声をre-encodingした場合、出力されるトークンが変化することがあります。これにより、分布の偏りの検出が困難になり、検出精度が低下していると考察できます。
re-encoding音声に対する検出精度が今後の課題となります。
音声データを扱うLLM(Audio LLM)において、音声についての様々なタスクに対する汎用性を向上させるための論文です。学習可能なプロンプトを動的に選択することで、LLMが持つ常識理解力を保ちつつ、タスク間の共通知識を活用することができます。これにより、音声についての様々なタスクにおいて高水準な性能であること、すなわちタスク汎化性能の向上が確認されました。
LLMで音声データを扱う既存手法は、まず第一段階で音声認識タスクや音声キャプショニングなどの大規模なデータセットを用いて音声とテキストの対応付けを行い、第二段階で解きたいタスクでのファインチューニングを行います。この方法は、モデルが第一段階で使用するデータセットに過剰に適合し、第一段階で用いられていないタスクへの汎化が困難になる可能性があります。またファインチューニングに際しLoRAを利用する場合、LLMが持つテキストベースの常識理解力が低下する可能性があります。タスクごとにプロンプトを訓練する手法も存在しますが、タスク間でプロンプトを共有しないため、タスク間の共通知識を活用することができません。
提案手法では、入力音声とタスク指示テキストから動的にプロンプトを選択することで、LLMの常識理解力を損なわず、またタスク間の共通知識を活用しながら、タスクの汎用性を確保しています。
提案モデルの流れを以下に示します。
入力音声から2つのエンコーダ(WhisperとBEATs)によって特徴量を抽出し、Aligner(Q-Former)に通すことでLLMへ入力可能な特徴に変換します。次に変換された音声情報と、どのようなタスクを行うかを記載したタスク指示テキスト情報を結合し、その平均を求めることでクエリベクトルを作成します。作成したクエリベクトルとプロンプトプール内の全プロンプトトークンで類似度等の計算を行い、トークンを選択します。選択されたプロンプトトークンは音声情報とタスク指示テキスト情報に結合され、LLMへの最終的な入力となります。
提案手法において学習可能なパラメータは、プロンプトトークンとAlignerのみであるため、LoRAを用いることによるLLMの常識理解力の低下の懸念がありません。また、音声情報とタスクについての情報を元にプロンプトトークンを選択するため、タスク間の共通知識の活用も可能になります。
定量評価結果を以下に示します。DPSと記載された列が提案手法で、様々なプロンプト選択方法を試した結果を示しています。評価したタスクはER(感情認識)、QA(スピーチQ&A)、ASR(自動音声認識)、SV(話者判別)、En2Zh(音声翻訳[英語→中国語])、AAC(音声キャプショニング)です。
提案手法(特に「DPS, similarity, stochastic」)は4つの指標でbestの結果となっており、タスク汎用性能が高いことがわかります。またSALMONNは大規模データセットかつ大規模ネットワークを用いて訓練された汎用音声LLMモデルですが、より少ないタスク種類・データ量で訓練されたDPSが、一部タスクにおいて、性能で上回っていることがわかります。
以下は、推論時のタスクごとの各トークンの選択頻度を表したグラフです。図左側の軸はトークンIDを表しており、ASRタスクでの選択頻度順に並んでいます。図下側の軸は各タスクを、図右側の軸は選択頻度を表しています。
このグラフより、似たタスクはトークンの一部を共通利用しており、また似ていないタスクはトークンの選び方も異なっていることがわかります。例えば発話内容をそのまま文字に起こすことが目的である「ASR」と、音声で入力された質問に対して回答を予測する「QA」は、いずれも入力された音声は人間による発話であり、また発話内容を正確に把握する必要があるタスクです。グラフを見ると「ASR」と「QA」が選択するトークンは非常に類似していることがわかります。
一方、人間による発話音声に限定されない音声が入力され、それがどのような音声なのかを説明する「ACAP」は、ASRとのタスク類似度が低く、実際に異なるトークンが選択されていることがわかります。
また400個用意されたトークンのうち、約半数のトークンは推論時にほとんど選択されておらず、準備すべきプロンプトトークンの数をさらに小さくできる可能性を示唆しています。
この章では、音声言語処理に関わる著名な専門家の講演について紹介します。Interspeech 2025では4つの講演が行われました。ここでは特に重要だと考えられる講演を2つ抜粋してご紹介します。
講演者:Prof. Dr. Roger K. Moore (University of Sheffield)
Roger K. Moore氏は、知的な対話システムの根本的なメカニズムの解明に向けての見解を語りました。
同氏は、現代の音声技術の進歩について、その要因が「計算機能力の向上」・「学習データの増加」などであり、人間の理解に基づいた進歩ではないことを指摘しました。
また、音声は「読めるテキスト」ではないと言及し、テキストは「記録」の技術である一方で音声は「リアルタイムのやり取り」の道具であるなど、音声とテキストの違いについて説明しました。
さらに、知的対話システムを人間に受け入れてもらうための設計として、「明らかに人間と違う」場合は好意的に受け入れてくれるが、「ほとんど人間だが、わずかに違う」場合に強い違和感を感じる不気味の谷について説明し、人間に近づけすぎるよりも見た目や声、性格などが一貫した非人間的なデザインにするアプローチを提案しました。
最後に知的な対話システムの更なる発展のために、音声の理解を深めることが重要であることを述べ、講演を締めました。
講演者:Judith Holler (Radboud University & Max Planck Institute for Psycholinguistics)
Judith Holler氏は、対面での対話における、見た目情報の重要性について語りました。
同氏は、対面での対話において、二者の対話における”間”の平均が、人間が言葉を考えてから発するまでの時間の平均より短いことに着目し、人間は相手が話している最中に相手の言いたいことを予測し、それに対する回答をあらかじめ用意していると考えました。また相手の言いたいことを予測するにあたり、相手の見た目の情報が影響を与えているという仮説を立て、様々な実験を行った結果を紹介しました。ジェスチャーについての実験や、表情についての実験を通して、ジェスチャーや表情のような見た目情報が、聞き手が早期に相手の言いたいことを予測するために利用されていることを確認しました。
最後に同氏は、人間の対話が非常に状況依存であり、言葉を話している人間の様子・態度によって意味が大きく変化する点に触れ、より状況に応じた言語生成・言語理解のためにマルチモーダル技術の利用が不可欠であると述べました。
Interspeech 2025の採択論文を調査し、動向を整理しました。
トレンド分析ではlow resourceやdysarthriaなどの出現数が増加しており、通常の音声よりも分析が難しい音声に対しての研究が進められていることがわかりました。また、音声生成AIの精度向上を背景に、deepfakeなどの生成音声を検出する研究も増加していることがわかりました。
重要論文では、テキストによって感情情報を制御可能な感情音声変換、生成音声を検出するための音声ウォーターマーク埋め込み、LLMを活用して多様な音声タスクを汎用的に解く枠組みの3件を紹介しました。
招待講演では、音声対話に関する講演を紹介しました。LLMの発展により、音声対話システムの性能が大きく向上している一方、更なる品質向上のためには音声そのものの理解や、視覚情報の活用など、人間同士の対話メカニズムの理解を深めることが重要であると示されました。
条件に該当するページがございません