プレスリリース 2020年

国際会議「NeurIPS 2020」で論文が採択

~発話中の間を利用したノイズ除去~

2020年12月14日
ソフトバンク株式会社

ソフトバンク株式会社(以下「ソフトバンク」)は、2020年12月6日から12日までオンラインで開催された機械学習分野における世界最高峰の国際会議の一つである「Neural Information Processing Systems 2020」(以下「NeurIPS 2020」)において、ソフトバンクのIT本部アドバンスドテクノロジー推進室と米コロンビア大学が共同で執筆した論文(以下「本論文」)が採択されましたのでお知らせします。本論文はNeurIPS 2020で、研究成果として発表したものです。

これまで数多くのノイズ除去の研究がされています。本論文は、心理学的見地から人が話をする時には間(発話をしていない短い時間)が存在することに着目し、その間に聞こえる音をノイズとして自動判定する他、発話中の数多くの間のノイズから、発話中のノイズを自動推定することで、ノイズ除去を行うことに成功したものです。これにより、これまで難しかった街中や繁華街でのざわめきの中から必要な発話のみの取り出しや、複数のマイクがないとできなかった音響エコーおよびバックグラウンドミュージックの除去が、1チャンネル(モノラル)で可能になりました。また、汎用的な手法であるため、日本語だけではなく、英語やスペイン語、中国語など、あらゆる言語にも適用可能となっています。

本論文の研究は、今後、通信における音声品質の向上や音声認識、機械翻訳、テレビ会議などの音声ソリューションでの活用が期待されます。

NeurIPS 2020で採択された本論文の詳細は、下記の通りです。

タイトル

Listening to Sounds of Silence for Speech Denoising
(和訳)間を利用した音声のノイズ除去

概要

本論文では、長年の課題であった音声のノイズ除去に対して、ディープラーニングモデルを提案している。本アプローチは、発話中の間(サイレントインターバル)に着目し、間に聞こえる他人の音声や音楽といった全ての音をノイズとしている。提案する音声ノイズ除去手法は、(a)間の自動検知、(b)発話中のノイズ推定、(c)ノイズ除去の三つの重要な要素から成り立っている(図)。これにより、ざわめきの中や音楽が流れている状況の音声から、必要な音声のみを一つのマイクで抽出することが可能になった。また、今回の手法は、機械学習におけるトレーニングデータに含まれない音声言語のノイズ除去も可能であることから、優れた一般化特性を持っていることを示している。

イメージ

ノイズ除去のために提案したディープラーニングモデル
図 ノイズ除去のために提案したディープラーニングモデル

NeurIPSについて

Neural Information Processing Systems(NeurIPS)は、機械学習分野のトップ会議として知られています。1987年に立ち上がり、NeurIPS 2020は34回目の会議となります。
機械学習分野において、NeurIPSは、International Conference on Machine Learning(ICML)と対をなす二つのトップ会議として認識されています。

  • SoftBankおよびソフトバンクの名称、ロゴは、日本国およびその他の国におけるソフトバンクグループ株式会社の登録商標または商標です。