Intelligent Speech Interactionで日本語の音声を認識したり読み上げてみた(AlibabaCloud)

2024年12月26日掲載

キービジュアル

ご覧いただきありがとうございます。ソフトバンクの小柳です。

本記事では、Alibaba CloudのIntelligent Speech Interactionを利用して日本語の音声認識、テキスト読み上げを試してみます。

目次

Intelligent Speech Interactionとは

Alibaba CloudのIntelligent Speech Interactionサービスは、音声関連のさまざまな機能を提供するクラウドベースのソリューションです。このサービスは、機械学習や人工知能を利用して、音声認識、音声合成、音声理解などの高度な音声技術を提供します。これらは、カスタマーサービス、スマートデバイス、エンターテインメント、教育、医療など多様な産業に利用され、急速に進化するAI技術を活用して、利用者体験の向上と業務効率の改善を図ることができます。

Intelligent Speech Interactionでは、大きく以下の機能を提供しています。

音声認識:(ASR:Automatic Speech Recognition):
話された内容をテキストに変換します。これにより、音声をデジタル形式で保存したり、テキスト処理に利用したりできます。認識できる音声は1分以内の短文、リアルタイム認識、録音ファイル認識という3つのカテゴリに分けられています。

音声合成:(TTS:Text to Speech):
テキストを自然な音声に変換します。これにより、自動応答システムやナビゲーションシステム、音声ガイドなどで利用されます。

音声対話:
利用者とシステムとの自然な対話を実現します。これはインテリジェントなカスタマーサービスやインタラクティブな音声アプリケーションに利用されます。名前やビジネス用語を事前に登録しておくことができるホットワード機能(中国語のみ)や、カスタム言語モデルを利用することもできます。

今回は、この中から音声認識音声合成を利用して日本語音声の文字起こしと、読み上げを行う手順を紹介します。

手順

1. Alibaba Cloudアカウントの作成

Alibaba CloudのIntelligent Speech Interactionを使用するためには、まずAlibaba Cloud国際サイトのアカウントを作成する必要があります。アカウントを作成後、コンソールにログインして、Intelligent Speech Interactionを有効化します。

2. Intelligent Speech InteractionのProject作成

1.Alibaba Cloudコンソールにログインし、左上のオレンジアイコンをクリックし、「Intelligent」と入力します。

2.「Intelligent Speech Interaction」をクリックします。

3.左のメニューから「All Project」をクリックし、右側の画面に表示される「Create Project」をクリックしてProjectを作成します。Project作成時は、名前が必須で、備考は必要であれば入力します。

4.Projectの作成後、一覧に「App Key」が表示されますが、SDKやAPIを使用する時に必要になります。コンソールの中だけで完結してしまうのであれば、App Keyは特に意識する必要はありません。

dataintegration
dataintegration

3. 日本語音声の文字起こし(Speech-to-Text)

次に、日本語の音声データをテキスト化(文字起こし)する手順を説明します。

1.Projectが作成できたら一覧の右のActionsにある「Project Settings」をクリックします。

2.次の画面で、Speech Recognitionにある「Modify the configuration」をクリックします。

3.電話以外か、電話かを選択します。日本語を利用する場合は電話以外になっており、目的の言語を選択したら、右下にある「Confirm to use」をクリックします。

4.元の画面の右側にテストスペースがあるので、「Speech Recognition」を選択した状態で、マイク入力か、音声ファイルかを選択して、マイクアイコンを押すと音声認識が始まります。

認識した結果は、Test Wayの上にある空白のスペースに、リアルタイムで表示されます。

dataintegration
dataintegration

文字起こし製品の正確性を測る指標として、単語誤り率(Word Error Rate: WER)や文字誤り率(Character Error Rate: CER)というものがあります。

テストで使用した音声ファイルは、ナレーターの方が読み上げた音声で、「えーと」「あの」などのフィラーが無かったためAIとしても判別しやすいものではあるのですが、単語誤り率や文字誤り率は、10%以内でした。

サンプル1で誤り率が少し高いのは、数字をカタカナ読みした時の変換をさらに漢字に変換してしまう箇所が2か所あったことが原因です。
例:元の音声が「55」のところを、音声認識は「ゴーゴー」と認識、さらに変換で「午後」と変換してしまった。

  • サンプル1(53単語 96文字):単語誤り率9%、文字誤り率7%
  • サンプル2(93単語 162文字):単語誤り率、文字誤り率共に1%
  • サンプル3(58単語 88文字):単語誤り率3%、文字誤り率8%

4.テキストを日本語で読み上げる(Text-to-Speech)

Intelligent Speech Interactionでは、文字起こしされたテキストや、事前に用意した原稿があれば、コードを書く必要はなく、コンソール内で音声認識の言語設定を行った後にテキストを貼り付けるだけで、読み上げを行ってくれます。

1.対象Projectの一覧の右のActionsにある「Project Settings」をクリックします。

2.次の画面で、speech synthesis serviceにある「Modify the configuration」をクリックします。

3.次の画面で音声合成のモデルを選択します。
日本語を利用する場合はMultilingualの欄に女性と男性の2パターンがあります。目的の言語を選択したら、右上にある「Confirm to use」をクリックします。

4.元の画面の右側にテストスペースがあるので、「Speech Synthesis」を選択し、そのすぐ下に音声合成したいテキストを貼り付けます。スピーカーアイコンかダウンロードアイコンをクリックすると音声合成が始まります。

dataintegration
dataintegration

音声合成の制限などは公式ドキュメントを参照してください

Overview of speech synthesis

Intelligent Speech Interactionの音声合成で作成した音声ファイルは上記です。速さ、イントネーション、音量を調整することができ、日本語の話し手は女性と男性から選ぶことができます。もちろん、日本語以外の言語も選択することができます。

速さとイントネーションを調整しながら女性と男性のどちらのバージョンも作成してみましたが、調整してもなお機械音声だとわかるもので、アクセントにも少し違和感がありました。

5. API/SDK

ここまではWebコンソールで音声認識や音声合成をする方法をご紹介してきましたが、APIやSDKを利用して音声認識や音声合成をする方法もあります。

詳細は公式ドキュメントを参考にしてください。

まとめ

Alibaba CloudのIntelligent Speech Interactionを利用すると、事前に用意した原稿や録音した音声ファイルを、Webコンソール上から簡単に音声認識や音声合成をすることができます。

アプリに組み込んだりコードを書く必要が無く、手早くWebコンソール上で音声認識や音声合成をするには良いと思いますが、その反面でWebコンソールの日本語対応、音声の認識精度、音声読み上げに少し難があることが解りましたので、ソフトバンクからAlibaba Cloud社へフィードバックし、製品改善につなげたいと思います。

関連サービス

Alibaba Cloud

Alibaba Cloudは中国国内でのクラウド利用はもちろん、日本-中国間のネットワークの不安定さの解消、中国サイバーセキュリティ法への対策など、中国進出に際する課題を解消できるパブリッククラウドサービスです。

おすすめの記事

条件に該当するページがございません