フォーム読み込み中
コロナ禍を経て、電話以外にもチャットツールやオンライン会議などさまざまなビジネスコミュニケーションが使われるようになってきました。電話に未来はあるのか、ビジネスにおける音声コミュニケーションの今と未来について、メディアアーティストである落合陽一さんに聞きました。
2023年10月3~6日にSoftBank World 2023が開催されました。10月5日には落合陽一さんが展示ブースを訪れ「ConnecTalk」の受電集約を体験。インタビューに答えました。
メディアアーティスト。1987年生まれ、東京大学大学院学際情報学府博士課程修了(学際情報学府初の早期修了)、博士(学際情報学)。筑波大学デジタルネイチャー開発研究センター センター長、准教授・JST CREST xDiversityプロジェクト研究代表。
SoftBank Worldにはコロナ禍前に何度かご登壇をいただいています。今回4年ぶりですが、イベント(展示ブース)の印象はいかがでしたか?
落合 昔よりLEDの数が多いような気がして、何かちょっと明るいですね(笑)毎回各社さんを入れてイベントとして盛り上がってていいなと。携帯通信系の技術は多くの会社で使われているので、技術見本市として通信とIT周りのエコシステムが分かるのがいいところだと思います。
ありがとうございます。展示ブースで気になった点はありましたか?
落合 テラヘルツのアンテナのところと、成層圏用の飛行機のバッテリーの軽いやつはすごく印象的でした。あとH.266のコーデックが面白かったのと、GPUのグレースホッパーを実機で初めて見ることができたのが良かったですね。(展示ブースの紹介はこちら)
4年ぶりのイベントになるのですが、その間にビジネスコミュニケーションもかなり変化しました。落合さんはビジネスコミュニケーションを普段どのような方法でされてますか?
落合 僕は基本的にチャットツールしか使わないので、電話とメールは秘書さんに任せてます。(秘書さんで対応して、落合さんに集約する仕組みが)コールセンターと変わらないような気がします。
秘書さんのところで結構さばいてる?
落合 秘書さんが7人いるので、それぞれで電話とメールをさばいてて。僕にはチャットツールを経由してしか連絡が来ないようにしているので、比較的仕事の妨げにはならないというか、非常に助かってます。
電話では外の方とお話しされないのですか?
落合 ほぼ電話はしないですね。僕ずっとPC持ってるんで、携帯電話は面倒くさくて。コンピュータからそのまま連絡することが多いですね。
では、最近、固定電話は使われました?
落合 僕は使っていないけど、僕のスタッフは会社や大学にある固定電話を使っていますね。落合陽一に連絡するときに固定電話にかけてくる人はいますが、落合陽一は固定電話を使ってないです。電話をかけることは多いんですけどね(笑)
そうなんですか、それはなぜ?
落合 電話を受けないけど、電話をかけるというのは自分勝手ですよね(笑)かける分にはもういつでもかけてますから。すごく迷惑な使い方だと思います(笑)
やっぱり電話した方が早いということですね。
落合 早いことは多いですね。
相手によってコミュニケーションの仕方はどんどん変わっていくものだと思いますが、今後どのように変わっていくと思われますか?
落合 コールセンターなんかは、今は人が対応していますがAIに代わるのは間違いないと思ってます。今のChatGPTも音声で対話する方が早いと思うし、音声読み上げも随分自然になってきてるので。電話(音声)でコミュニケーションした方がハンズフリーだし、キーボードを使うより意外と速いですよね。
あとはリアルタイム性の問題ですが、人間はインターネットに慣れたせいか、お互いに非同期に微妙にずらしてコミュニケーションしてるんです。でも、電話はわりとリアルタイムでかなり速い。だから、リアルタイムコミュニケーションに音声を載せていくというジャンルは非常に有望で、もっと音声認識が使われるようになっていくと思うんです。
音声発話と音声認識、あとLLM(大規模言語モデル)の組み合わせは非常に有望なので、コンピュータのインターフェースとしてもっと使われるようになると思ってます。
文字の(コミュニケーション)量は増えていくと思いますか?
落合 LLMの中はほぼ文字でできてるので量はありますね。ただ、人間が目にする量はなるべく減らしたいとは思ってます。
それはなぜですか。人間が読む文字を減らした方がリアルタイム性が上がるからとか?
落合 そう信じています。音声で聞くより文字で読んだ方が速いのは間違いないので。ただ、文字で読むことの方が情報の摂取は速いんですけど、インタラクションとして音声発話と音声認識で高速な打ち返しが必要なやり取りの場合は、音声to音声(音声どうし)の方が速いので、考えようですね。
音声to音声の方が良いのは、どういう場合でしょうか?
落合 例えばコールセンターにかけるような用途です。クレジットカードの番号をいちいちボタンでピピって入力していくよりも番号を読み上げて入力した方が本当は速いはずなんです。今は相手が人間だから復唱が入ってるんですけど。
後はインタラクティブ性が必要なときですね。例えば、出前屋さんに電話してラーメンを頼みたいときに「麺は固い方がいいですか?」「いや、柔らかい方がいいです」「チャーシュー載せますか?」「載せてください」みたいなやり取り。電話すれば15秒ぐらいで終わるのに、アプリのインターフェイスをクリックして注文すると何十秒もかかってしまったりして。電話の方が早かったりするときもありますよね。
素早いやり取りが必要なものは、音声の方がインターフェイスとしてよいのではということですね。
落合 早く確認して、打ち返さないといけないやり取りはそうですね。
感情面としては音と文字の違いはどうでしょうか?
落合 長いメールは読む気がなくなりますが、長い読み上げはもっと聞く気がなくなりますね。ただ、最大の問題点は長いメールは読む前からの長さが分かるけれど、長い音声はこれからどれだけ読まれるか分からない。そう考えると、音声は長くない方が嬉しいので、なるべくちゃちゃっとした応対を求めてしまいます。
ソフトバンクでは固定電話のお客さまにも業務効率化のサポートをしたいと考えていますが、業種によって課題も色々あります。例えば銀行だと、本店と支店間の電話が多いことやお客さまから直接電話がかかってくるので効率化したいなど。そういう課題のために 受電集約 という仕組みを提供しています。
今日体験された 受電集約 はいかがでしたか?仕組みについてどう思われますか?
落合 店舗予約の案内に付いている電話番号(店舗にかかってきた電話にコールセンターのオペレータがでる仕組み)って裏はどうやって動いてるのかなと思ってたんですが、こんな風に動いてたんだっていうのはよく分かりました。
テクニカルな話なんですけど、遅延はどうなんですか?
通話ですと最大でも400msecぐらいです。
落合 400msecなら大丈夫ですね。
僕はほとんどの接続を有線で行ってるんです。例えば4Kや8Kの動画や楽器演奏の映像の切り替えなど、大容量の通信をすることが多いので。GPUで学習させたものを転送するのにも、通信が速度のボトルネックになるので、遅延が気になるのでBluetoothではなく、10Gbps出るもので繋げることも多いです。
ただ電話では、数100msecぐらいであればいいかと思うので、非常に面白いなと思います。
ありがとうございます。コールセンター以外にも、多店舗展開してる小売のお店など、受電業務を1ヵ所に集めたいという企業で取り入れられています。電話の応対時間を効率化して、顧客対応に集中をしたいというお客さまに非常に受けています。
落合 美容院やラーメン店など、たくさん店舗がある飲食、小売は全部(電話の対応が課題)でしょうね。
受電集約 を使っていただきたいお客さまは、多くが昔からの固定電話に使い慣れている企業です。弊社としてはどんどんテクノロジーを取り入れて、業務を効率化してほしいと思っています。新しいテクノロジーをお届けする立場として意識するべきポイントはどんなところだと思われますか?
落合 レガシーフィットというか、古典的なものをフィットさせていくのは重要だと思います。
電話はキーボード入力より速いですが、今のスマートフォンでの入力系は不完全なので。そう考えると音声入力と音声出力はかなり長い間残るのではないかと思います。電話は結構古くから使っているけれど、テクノロジーとしては今でも結構速いので悪くないと思うんです。
例えば、LLMがあれば電話で発注を完結できるはずなんです。ほかに必要なのはメールアドレスくらいで。わざわざWebページにアクセスするよりも絶対にそっちの方が速いはずです。電話回線にしてもIPアドレスを使うようにして発注するようなものができるはずなので。そういう活用が進めばIT化がもっと進むんじゃないかと思いますね。
音として情報を受け取って、それをいかにさばくかというところですね。
落合 まだ技術課題はあるんですが、電話応対した情報をオンライン上のSQL※に入れられるようにするための音声変換(の技術)は、おそらく今年来年でめちゃくちゃ伸びると思います。
例えば、ユーザによって発注の順番が違います。コーヒーショップに行って「キャラメルマキアートをトールサイズオールソイミルクの何とかトッピング」みたいなことを言われる。でも、人によってトッピングを言う順番が違うし、「オールソイミルク」ではなく「豆乳」と言う人もいます。
でも、最近のLLMは随分賢いから完全文に直すことができるんです。直した完全文をSQLに入れて発注を完了した発注番号だけ電話で伝えて、その番号だけ入力すると問い合わせができるような状態にすれば、実はWebフォームを開いてわざわざ全部入力するより速くできるはずなんです。クレジット番号とかを読み上げる手間とか含めても速いはずなので、電話発注で十分なんです。
今だと聞き返したりすることがあるからWeb入力するよりも低速になってしまっていますが、LLMを使えばちゃんと発注できるので、もっと便利になると思うんですよね。
※SQL:データベースにアクセスしてデータを操作する言語
入力としての音声の使い方は確かに速そうですよね。一部、LINE AiCallでそのような使い方がはじまっています。
落合 これから性能がぐんぐん上がっていくだろうから、予想外の使い方もいっぱい出てくると思いますね。
(従来の働き方から)変わりたいけど変われない企業はまず何から取り組んだらいいと思いますか?
落合 受電集約 はいい感じだと思いますよ(笑)
うーん(考える)もしIT化するんだったら、まずはネットワーク化からじゃないですか。今もFAXで発注書をかけていたりして、ネットワークが繋がってないところは多いですからね。政治家の事務所とか早くIT化してほしい(笑)。
テクノロジーをデザインされている落合さんから見て、10年後20年後のビジネスコミュニケーションはどういう風に変わっていくと思いますか?
落合 まずユーザインターフェース(UI)として、まだキーボードを使ってるのはどうかと思っています。本当は音声で入力したいけれど、今はまだマウスポインタと音声認識の相性があまり良くない。
例えば、フォームに入力項目が10ヵ所あるというのに、マルチタッチではなく1本の指でスマートフォンを操作してる。今の音声入力ツールのUIだと操作しようとしたときに自分がフォーカスしてる対象が何かを機械判定できない。だから今は、指1本型の操作系を使って文章を打ったり、電話をかけたりという操作をしてるはずなんです。
でも本質的には効率が悪くて。人間と人間だと複数ある操作系のことを考えながらでも、音声で指示ができたりしているんですよね。例えば、野球やサッカーの監督とかが、「お前ら右に行け」って言うと、「お前ら」って言った瞬間に操作ポイントが一気に10個(10人)に増えたりするじゃないですか。でも、「落合、左だ」といったら、いきなりカーソルが1個になるんです。UIはもっと賢くなるはずなんですよ。
これはすごく重要なことです。
今までの音声は一方的にブロードキャストしていただけですが、受け手のUIが全部スマートになると自分が今ここを動かしてるんだと認識したり、もっと抽象的な指示でも理解するようになると思います。つまり、今のビジネスコミュニケーションの障壁はほぼUIなんです。そのUIが変われば、ある程度知的な指示を与えても受け入れられるようになるでしょうね。
例えば、FacebookとかLINEに、誕生日のメッセージが500件も来てると全部返信するのにすごく時間がかかる。本来は、僕が過去に言ったことを基にして、僕が言いそうな文を作ってそれぞれ返信しておいてと言ったら全部返信してくれるはずなんですよね。
でも、それが今できていないのは返信するプログラムはあるんだけど、返信するプログラムと指示を受けるUIが繋がっていなかったり、返信する対象を認識してぴったりあてはまるようにわざわざ作るほどじゃない。だから毎年一個一個自分で500件送っちゃうんです。
その辺が改善していくと、非常にシームレスにタイミングよくコミュニケーションが取れるようになるのではと思うので、まだまだこの分野は改善の余地しかないと思っています。
素敵なまとめですね。ありがとうございました。
会場で受電集約を体験した落合氏は、たとえ電話そのものがレガシーであったとしても、受電集約やLLMを活用することで音声コミニケーションの形は、まだまだ大きく進化していく可能性を秘めていると語っていました。ソフトバンクは通信キャリアとして、そんな未来の実現に向けて今後もさまざまなサービスを提供していきます。ご期待ください。
条件に該当するページがございません
条件に該当するページがございません