SNSボタン
記事分割(js記載用)

コールセンターの応対は自律思考型AIが担う時代へ。人間らしい自然な会話を実現するAIオペレーター「X-Ghost」

音声認識は “聞き取る” から“考える”へ。自然な会話で顧客に寄り添う次世代のAIオペレーター「X-Ghost」

コールセンターでは、人員不足や長い待ち時間といった課題が長らく指摘されてきました。これらを解決するために誕生したのが、次世代AIオペレーター「X-Ghost(クロスゴースト)」です。24時間365日対応を可能とし、応答速度と人間らしい自然な会話を追求しています。
Gen-AX株式会社 代表取締役社長 CEOの砂金信一郎氏とCTOの木田祐介氏に、開発の背景や今後の展望についてお話を伺いました。

砂金 信一郎 (いさご・しんいちろう)

Gen-AX株式会社 代表取締役社長 CEO

砂金 信一郎 (いさご・しんいちろう)さん

東京工業大学卒業後、日本オラクル、ローランド・ベルガー、マイクロソフトでのテクニカルエバンジェリスト、LINE(現LINEヤフー)でのプラットフォーム推進やAIカンパニーCEOを経て2023年7月から現職。2019年度より政府CIO補佐官、その後発足時よりデジタル庁を兼任しインダストリアルユニット長を兼任。

木田 祐介

Gen-AX株式会社 CTO

木田 祐介(きだ・ゆうすけ)さん

複数の企業にて音声認識を中心にAI技術の研究開発に従事。研究活動では10本以上のトップカンファレンス採択実績を持ち、かつ、組み込みミドルウェアからクラウドサービスまで幅広く先端技術を製品化した経験を持つ。LINE株式会社(現:LINEヤフー株式会社)では、音声認識チームのマネージャーとして研究開発とプロダクト開発をけん引。日本音声認識のベンチマークで当時の世界最高精度を達成。

応答速度と自然さを追求した次世代AIオペレーター「X-Ghost」

日本では労働力不足が深刻化しており、常用労働者の離職率が平均8.7%であるのに対し、コールセンターは約30%と突出して高い水準にあります。そのため、従業員が定着せず、サービス品質のばらつきや業務負荷の増加を招き、人手対応だけでは限界が見え始めています。加えて、商材やサービスの多様化に伴い、リアルタイムな対応は顧客体験だけでなく企業の売上やブランド価値にも直結する重要な課題となっています。
こうした状況を背景に誕生したのが、音声対話AIソリューション「X-Ghost」です。自律的に考えて応答できるAIオペレーターとして、24時間365日、人間らしい自然な音声対話によりスムーズな顧客応対を実現します。人間とAIの発話が重なっても自然な応答を維持できるなど、問い合わせ内容に合わせて柔軟に対応できるだけでなく、深層学習によって業務を分析・データ化し、対応品質を継続的に高めていける点が大きな特長です。現場で実際に使う中で成長し、日々改善されていく仕組みになっています。

応答速度と自然さを追求した次世代AIオペレーター「X-Ghost」

AI技術の進展で「認識精度」から「応答速度」重視へシフト

音声AIによるコールセンターの現場では、どのような課題を感じていたのでしょうか?

砂金 「現場でよく指摘されていたのは『人間らしさが足りない』『会話が自然ではない』という点です。この課題に対し、近年、音声で聞いて音声で答える仕組みであるSpeech-to-Speechの活用ができるようになり、自然で人間らしい会話の実現に向けた大きな進展が見られるようになりました」

AI技術の進展で「認識精度」から「応答速度」重視へシフト

木田 「私たちはLINE株式会社(現:LINEヤフー株式会社)に在籍していたときから電話対応の音声ボットの開発に取り組んでいました。当時は、『この言葉が来たらこう返す』といったあらかじめ設定したルールやパターンに従って対応する言語処理の方法を取っていました。そのため、会話の内容は定型的なやり取りに限られ、応答のテンポも悪く、さらに音声認識の誤りが会話全体の破綻につながるといった課題がありました。
現在は、裏側にLLM(大規模言語モデル)が存在することで、多少の誤認識や誤変換があっても会話全体としては成立させることができます。結果として、かつて『認識精度の向上』が最優先課題とされていたものが、現在では『応答速度』をより重視する方向へと大きくシフトし、技術的な前提そのものが大きく変化したと言えます」

コストと品質の両立を実現する新しい基盤

なぜルールベース型の仕組みでは限界があるのでしょうか?

木田 「ルールベース型の仕組みは、音声認識 → ルールベースによるテキスト処理 → 音声合成、という3つの工程を順番につないで実行する構造です。そのため、最初の段階で生じた認識の誤りがそのまま後の工程に伝わりやすく、全体として信頼性に欠けるという問題があります」

砂金 「また、業務を細かく分析して一つ一つ設計しなければならず、導入コストやランニングコストの面で投資対効果(ROI)が合いにくいという課題もあります。シナリオを精緻に作り上げても莫大(ばくだい)な費用がかかり、提供側が赤字を覚悟するか、お客さまが高額な費用を負担するかといった極端な選択になりがちでした。運用においても従量課金が主流となる中、無制限にトークン(単語や文字を分割した処理単位)を消費して完璧な会話を追求するのは現実的ではありません」

従来型の課題を踏まえ、X-Ghostではどのような仕組みを採用されたのでしょうか?

木田 「『現行の技術でどこまで実現可能か』『人間らしさをどの水準まで追求できるか』を検討していた時期に、日本語でも遅延の少ない即時処理を可能にするOpenAIの『RealtimeAPI』が利用できるようになりました。
この技術的進展が採用を後押しした結果、『X-Ghost』では応答速度を大幅に短縮できるだけでなく、お客さまが言い直したりあいまいに話したりしても会話の流れをつかんだまま、最短ルートで回答できるようになっています。さらに、話題が少しそれた場合でも意図を読み直して必要な質問を簡潔に差し込むことで、会話が途切れにくく、スムーズなやり取りを実現しています。
『RealtimeAPI』はまだプレビュー版のため※、プロンプトへの従順性の低さ、日本語理解の不十分さ、挙動の不安定さといった課題があります。Gen-AXではこれらを補う独自の制御機構を導入し、安定した対話を実現する仕組みを構築中です」

  • Realtime APIは8月29日に正式版をリリースしています

出典: 2025年7月16日に開催:SoftBank World 2025:
Gen-AX 代表取締役社長 CEO 砂金の登壇資料より(X-Ghostのティザー・デモ動画より)

砂金 「LLMを基盤とした自律思考型AIであれば、1件ずつ業務を分析して細かいシナリオを作り込む必要が少なくなり、効率的に設計できるようになります。顧客にとっては投資対効果が見合い、提供側にとっても収益性を確保できるため、両者のバランスを取りながら導入の手間や運用のしやすさを確保できる点が大きなメリットです。もちろん、ルールベース型やスクリプト型にも手順の安定性や低コストといったメリットがあるので従来型の「音声認識→LLM→音声合成」構成も並行して検討していますが、LLMがここまで進化した今では、ルールベースに固執するより積極的にLLMを活用する方が合理的だと考えています」

複数エージェントの分業設計で安定した会話を実現

今回の開発に至った背景やきっかけを教えてください。

砂金 「開発の背景には、いくつかのきっかけがありました。一つは、社内でGPT-3.5系を活用していた頃の初期の取り組みです。始めは応答に30秒ほどかかり、実用できるレベルではありませんでしたが、『ユーザーの意図を理解し、必要なタスクをAIが自律的に組み立てる』というアプローチ自体は正しかったと考えています。その後、モデルやAPIといった技術の進化に合わせて当時の知見を生かすことで、十分に実用に近づくレベルまで到達しました。特に、応答速度の改善には大きな苦労がありました。
もう一つは、LINE株式会社(現:LINEヤフー株式会社)時代の経験です。当時は『LINE WORKS AIコール』などでルールベースの仕組みを構築していましたが、導入コストの面で採算が合わず、利用できるのは集荷依頼のような定型業務に限られていました。ですが、本当に解決したかったのは、定型には収まらない『おたずね型』の問い合わせです。当時の技術では実現できませんでしたが、現在であれば複数パターンの会話を通じてお客さまの真のニーズを推定し、提案することも可能になりつつあります。当時はすべてのケースを作り込もうとすると、極めて大規模かつコスト効率の悪いシナリオになってしまうというもどかしさがありました」

コールセンター業務にAIを導入する際、会話設計にはどのような工夫が必要なのでしょうか?

複数エージェントの分業設計で安定した会話を実現

木田 「コールセンターでの会話は、自由にやり取りするのではなく、あらかじめ決められた手順やルールに沿って進める『規定演技』に近いです。例えば、本人確認では何点確認するか、照合に失敗した場合はどうするか、予約変更ならどの項目をどの順番で確認するか、在庫確認はどのように行うかといった手順が細かく決まっています。業務マニュアルやトークスクリプトとして明文化されており、オペレーターが研修を通じて学ぶように、AIを導入する際にも同じように業務フローを分かりやすく与える必要があります」

再現性が求められる現場だからこそ、AIに正しく会話を理解して実行させる仕組みが必要ということですね。

木田 「現時点では、業務ごとにAIを細かく作り替えて最適化するような環境はまだ十分には整っていません。そのため、①プロンプトの中に業務知識や手順を組み込む、②検索機能や外部ツールを組み合わせて使う、③役割ごとにAIを分けてそれぞれに必要な情報だけを与える、といった方法を取っています。
最低限の素材や方針だけを渡せば、AIが自動的に質問の順番を決め、必要に応じてシステムを呼び出してくれるのが理想ですが、現状ではそこまでの実現はまだ難しいのが実情です。長大なプロンプトを与えると、必ずしもその通りに動いてくれるとは限りません。そのため、業務範囲を絞り込み、必要なノウハウを与えたうえで複数のエージェントに分割して構成する、という現実的な設計にしています」

業務をAIに託す時代へ。自律思考型AIで人の行動や意識変化を後押し

今年7月に「X-Ghost」の三井住友カード株式会社への先行導入を発表していますが、導入後、現場にはどのような変化があったのでしょうか?

砂金 「現場における変化として大きいのは、AIにどの業務を任せるべきかという線引きを、お客さま自身が明確に決めてくださるようになってきたことです。従来は人間の作業を補助する形で導入が始まるケースが多かったのに対し、『ここはメイン業務としてAIに任せましょう』と前向きな判断をいただけるようになっています。
例えば、三井住友カードさまと先行案件として議論を進めている中で、3Dセキュア強化の影響で『カードが使えなくなった』という問い合わせが急増しているというお話がありました。件数も非常に多く、かつ影響が大きい課題であることから、最初に解決すべき領域としてご判断いただきました」

導入後の手応えについては、どのように感じていますか?

砂金 「高い評価をいただき、年末には本格的に稼働させる方向で準備を進めている状況です。他にも、正式な製品発表や価格提示前の段階で、さらに言えば、私たちが使っているリアルタイムAPIも一般提供前の先行検証段階であるにもかかわらず、ぜひやりたいという前のめりなお客さまばかりです。課題を承知しつつ積極的に活用を考えてくださるお客さまが多く、反響の大きさを実感しています」

業務をAIに託す時代へ。自律思考型AIで人の行動や意識変化を後押し

「X-Ghost」はどのような分野での展開を考えていますか?

砂金 「まずは、市場規模が大きく、学習に必要なデータが豊富にそろっているコールセンター分野に注力していきます。将来的には、医療や教育の分野など、人の行動や意識の変化を後押しできる領域にも広げていきたいと考えています。相手の気持ちを動かすような会話は難易度が高く、人間にとっても簡単ではありませんが、可能性は十分にあると見ています」

自律思考型AIの普及によって、働き方や仕事に対する考え方はどのように変わっていくと考えているのでしょうか?

砂金 「AIによって就労機会が奪われるというよりも、むしろ人の役割がシフトしていくと前向きにとらえています。コールセンターでいえば、オペレーターを支援する立場にあるスーパーバイザーという役割がありますが、将来的にはオペレーターがスーパーバイザーへとステップアップし、多数のAIオペレーターをマネジメントするようなイメージです。例えるなら、自動改札の導入によって駅係員が改札で切符に手作業で切り込みを入れる必要がなくなり、駅員の役割が変わったのに近い変化です。今後は、機械に任せられる部分と人間にしかできない部分をうまくすみ分けていくことが重要だと考えています」

これからの取り組みや目指す方向性について教えてください。

木田 「私はずっと音声に関わる仕事をしてきましたが、音声認識の技術は長い間「不遇の時代」が続いていたと感じています。技術としては非常に優れていても、ビジネスとして成功する事例がなかなか出てこなかったからです。そうした中でLLMが登場し、日常生活にも結びつくようになりました。これは、音声技術にとって千載一遇のチャンスだと考えています。
将来を見据えると、AIは一定レベルで会話を成立させられるようになると思います。ただし、まだ足りない部分も多く取り組むべき課題は残されています。技術面では、会話の品質を継続的に改善できる仕組みを整えること、新しい業務へ迅速に適用できるようプロンプトやデータ、外部ツールとの連携を工夫すること、そしてリアルタイムAPIの成熟に合わせて応答速度とコストを最適化することを重視しています。すでに『会話が成立する』という段階には到達していますが、重要なのは仕組みが常に進化し続けること、新しい業務に効率的に広げていけることです。現状の能力を出発点として、さらに幅広い分野に応用を広げていきたいです」

砂金 「コールセンターを日本の輸出産業にしたいと考えています。現在、世界のコールセンターは労働集約型が中心ですが、AIを活用すれば言語の壁はなくなり、英語はもちろん中国語や韓国語など、さまざまな言語に対応できるようになります。そのときに重要になるのは『どのように会話を設計し、顧客に満足してもらうか』という運営ノウハウです。
日本人が海外で顧客対応を受けた際に感じる、もう少し丁寧に接してほしいという感覚は、日本の強みでもあります。日本式の顧客体験を世界に展開できれば、利用する言語にかかわらず高品質なサービスを提供することが可能になります。実際にロンドンの地下鉄では日本の鉄道会社が運営を担い、新幹線の清掃オペレーションが世界から注目されているように、日本独自の運営力はすでに海外で評価されています。
コールセンターにおいても、日本の運営ノウハウをAIと掛け合わせて世界に広げていくことができれば大きな可能性が開けると考えています」

業務をAIに託す時代へ。自律思考型AIで人の行動や意識変化を後押し

(掲載日:2025年9月18日)
文:ソフトバンクニュース編集部

関連記事

24時間365日、顧客に寄り添うAIオペレーター「X-Ghost(クロスゴースト)」

X-Ghost(クロスゴースト)

コンタクトセンターが直面する深刻な課題に対し、生成AI技術を活用した革新的な音声応対ソリューションです。

Gen-Ax公式HPをみる