音声言語処理分野におけるトップカンファレンスInterspeech2024の調査と分析

2024年10月31日掲載

キービジュアル

こんにちは、ソフトバンク株式会社 AI戦略室 R&D推進室の松永です。

今回は音声処理AIの研究動向を把握するために、2024年9月開催の「Interspeech2024」について調査をおこなった結果をまとめます。

目次

1. Interspeechとは

Interspeechは音声処理における世界最大規模の国際会議です。今回で25回目の開催となります。Interspeech2024の投稿数は2520本、採択率は48.22%であり、1031本が採択されました。InterspeechやICASSPの採択率は毎年50%前後となっており、CVPRやAAAIなどの他AI系の国際会議に比べて採択率が高い傾向にあります。

※ICASSP: 信号処理の分野で世界最大規模の国際会議

2. 研究トレンド

採択論文に含まれる単語の出現頻度

採択論文のタイトルから研究トレンドを分析します。トレンドを絞り込むためにワードクラウドを使ってみます。文字が大きいほど出現頻度が多いことを示しています。

※ “speech”など、傾向が読み取りづらく上位の出現数の単語は一部除外しています。

キービジュアル

次に、タイトルでの出現件数Top10を示します。括弧内は昨年からの上昇率を表しています。

キービジュアル

昨年からの上昇率が大きいsynthesisとmultilingualについて動向を整理します。

synthesis

昨年と比べて「synthesis」の出現数が46.9%増加しました。生成AIの発展により、音声対話システムの需要が拡大しています。これにより、高速な音声合成モデル [*1] や表現力豊かな音声合成モデル [*2] が注目されています。また、​​音声合成技術の発展に伴い高度ななりすまし手法も進化してきました。これに対抗するためAnti-Spoofingと呼ばれるなりすまし防止のための研究 [*3] も行われています。

multilingual

昨年と比べて「multilingual」の出現数が80%増加しました。音声認識・音声合成・音声翻訳・感情認識・病理分析など様々な分野で多言語対応が求められています。また、音声認識タスクではリソースが少ない言語に着目した研究 [*1] など、より多くの言語で動作することが期待されています。

急上昇ワード

続いてInterspeech2024から新たに出現した単語から作成したワードクラウドを示します。

キービジュアル

次にタイトル出現件数の対昨年増加率Top10のワードをグラフで示します。括弧内は、Interspeech2023とInterspeech2024の出現数の変化を表しています。

キービジュアル

これらの結果から研究動向を整理します。

foundation models

「foundation」をタイトルに含む研究が1件から15件と最も増加率が高いという結果になりました。foundationが含まれる論文を見ると音声認識 [*1]・話者識別 [*2]・感情分析 [*3]・病理分析 [*4] など、幅広い領域で基盤モデルが活用されていることが分かります。

LLM

近年急激に発展しているLLMと音声処理AIを組み合わせた研究が増加しています。具体的には、文脈を考慮した音声認識モデル [*1]や長い文章を扱うことができる音声合成モデル[*2]等でLLMが用いられています。

Codec

採択論文のタイトルに「code」を含む研究が増加し、「codec-based」が新たに出現しました。近年ニューラルコーデックという音声のデータ量をAIによって圧縮する研究が注目を集めています。また、本来の目的であるデータ量の圧縮だけでなく、逆変換が可能な特徴量抽出器として音声合成等に用いられるなど、その汎用性の高さが注目を集めている要因であると考えられます。

Mild Cognitive Impairment (MCI) Detection

Interspeech2024では音声から軽度認知症を検出するTAUKADIAL Challengeが開催されました。これに伴って採択論文のタイトルに”mild”を含む研究が出現し「Cognitive」を含む研究が増加したと考えられます。従来の研究では、アルツハイマーなどの重度の記憶障害を扱う研究が中心でしたが、今後は自身でも気づきにくい軽度の記憶障害を早期発見するための研究が増加していくことが期待されます。

3. 注目論文

こちらでは、上で分析した研究動向を踏まえて個人的に注目した論文を紹介します。

SimpleSpeech: Towards Simple and Efficient Text-to-Speech with Scalar Latent Transformer Diffusion Models

SimpleSpeechは、テキストから高品質な音声を効率的に生成する研究です。こちらの論文は、Interspeech2024のBest Student Paperに選出されました。

コアアイデア

音声の情報量を圧縮するニューラルコーデックと画像生成AI等で用いられるDiffusionモデルを組み合わせることで、高品質な音声を効率的に生成することができます。また、音声を読み上げるのにかかる時間をLLMによって推測することで、音声データのみでモデルを学習することができます。

提案モデル

モデルの全体図を以下に示します。

キービジュアル

(a)はニューラルコーデックのSQ-Codecです。音声の情報を圧縮する役割があります。(b)はSimpleSpeechの学習フローです。Diffusionモデルを用いて、SQ-Codecにより圧縮した特徴量を予測するように学習します。Diffusionモデルは通常では計算量が多いモデルですが、SQ-Codecにより特徴量を圧縮しているため、計算量を削減することができます。(c)は推論フローです。LLMを用いることで、読み上げにかかる時間を推測します。

結果

既存研究との比較を以下に示します。

キービジュアル

多くの指標でSimpleSpeechが最も良いスコアとなっています。MOSは人間が音声を聞いて品質に関して5段階で評価するテストですが、収録した音声と同等以上の品質で合成できていることが分かります。また、推論速度 (Speed) についてもSimpleSpeechが最も速い結果となり、精度・速度で既存手法を凌駕していることが分かります。

Multilingual Speech and Language Analysis for the Assessment of Mild Cognitive Impairment: Outcomes from the Taukadial Challenge

この研究は英語と中国語を扱う多言語環境で、軽度記憶障害を音声から検出するための研究です。こちらの研究は発話区間を検出するVAD、どの時間に誰が話しているかを検出するDiarization、音声・言語事前学習モデルなど様々なモデルを組み合わせています。その結果、先ほど紹介したTAUKADIAL Challengeで最も優れたスコアを達成しました

コアアイデア

この研究では、古典的な手法と最先端の手法を組み合わせたアプローチを提案しています。具体的には、音声事前学習モデルのWhisperや言語モデルのBERTなどの最先端の手法と音声の発話区間を検出する古典的な手法 (VAD) を組み合わせることで、精度向上を試みています。

提案モデル

モデルの全体図を以下に示します。

キービジュアル

言語モデルにテキストを入力するため、音声認識モデルによる書き起こしが行われます。また、Diarizationモデルによって一つの録音に何人の話者がいたかを予測します。その後、音声・言語モデルに入力され、得られた特徴量と発話区間情報のTiming Featuresを結合し、MCIの分類を行います。

結果

既存手法及び音声・言語処理モデルの組み合わせによる分類精度の比較を以下に示します。

キービジュアル

最も高い精度のモデルは、Timing FeaturesとWhisperによって得られた音響特徴量を入力とした場合 (緑枠部分) でした。MCIの検出がより多くの場面で利用できるように多言語で動作することが求められているため、言語情報を入力に用いていないモデルが最も精度が高くなったことは、重要な結果になります。

次にMMSEスコアの予測精度の比較を以下に示します。MMSEは、認知機能を測定するための神経心理検査です。この検査により、認知機能の低下を点数で客観的に評価することができます。

キービジュアル

MMSEスコアの予測においても同様にTiming特徴量とWhisperから得られた音響特徴量を入力した場合に高い精度となっています。ただし、このタスクにおいてはBERTから得られた言語特徴量を加えることでさらに精度が向上しています。(緑枠部分) この結果は、認知機能の評価において言語情報と音響情報を用いた総合的なアプローチが有効であることを示しています。

4. 著名な研究者による講演

Keynoteと呼ばれるセッションでは音声処理AIの著名な専門家が講演を行います。Interspeech2024では4名の方が登壇されました。その中でも今後の音声処理AI研究への影響が大きいと考えられる講演を紹介します。

Towards Responsible Speech Processing 

講演者: Isabel Trancoso (INESC-ID / IST, Portugal)

音声には年齢・性別・どのような環境で会話していたかなど個人情報が含まれています。また、近年の音声合成・音声変換の発展により、少量のデータで特定の人の声を模倣することができます。これにより、なりすましなどの悪用の危険が高まっています。クラウド等で音声処理を行う場合、責任ある音声AIの開発が求められています。講演ではこのようなプライバシーリスクを最小限に抑えるための技術が紹介されています。具体的には、音声を暗号化してから音声処理を行う技術や、話者の不要な情報を削除するPrivacy-oriented manipulationが紹介されました。

Analysis of Pathological Speech – Pitfalls along the Way

講演者: Elmar Nöth (Pattern Recognition Lab, Germany)

パーキンソン病やアルツハイマー病は早期段階で声に変化が現れます。そのため、これらの病気を検出するための研究が近年増加しています。講演では、これらの研究意義に加えて、研究を行う際の注意点や倫理的課題について述べています。具体的には、データ作成の際にラベリングが難しくラベルにばらつきが出る、モデルが予測した結果を患者が理解できる形で説明できる必要がある、などが挙げられました。

5. まとめ

今回はInterspeech2024の調査、動向を整理しました。今年は、LLMと組み合わせた研究や、ニューラルコーデックを活用した研究が増加していることが分かりました。また、音声から記憶障害などの病気を検出する研究が増加しており、今後発展することが期待されます。

おすすめの記事

条件に該当するページがございません