展示会で大活躍！？マルチモーダル生成AIを活用して、テキスト入力を効率化するアプリを開発してみた。

2024年11月21日掲載

近年、AI技術の進化に伴い、マルチモーダル生成AIが注目を集めています。特にGoogle の生成AIモデルであるGeminiと、グループウェアのGoogle Workspaceを組み合わせることによって、ビジネス現場での効率化や顧客対応の質向上を実現することが期待されています。

本ブログでは、音声データの活用ユースケースとして、録音された会話データを即時に処理し、価値ある情報として活用する具体的なアイデアを実現するアプリを開発してみました。その方法について詳しく解説していきます。

具体的には、展示会の説明員のテキスト入力の課題を例にして、会話音声データを自動的に分析し、会話内容を登録するアプリケーションをGoogle CloudとGoogle Workspaceを利用して開発しました。

なお、今回取り上げるGeminiモデルは、Google CloudのVertex AI Gemini APIを利用しています。Gemini for Google Workspaceは利用していないので注意してください。

マルチモーダル生成AIとは？

マルチモーダル生成AIとは、テキスト、画像、音声など異なる種類のデータを同時に処理できるAI技術です。例えば、自動運転やロボットの制御において、カメラ画像やセンサー情報などを組み合わせて判断を行うといった様々な分野で研究が行われています。

代表的なマルチモーダル生成AIモデルであるGoogle 社のGeminiは、テキスト処理のみを行うシングルモーダル生成AIモデルと比較し、画像データの認識や音声データから会話を理解することができるため、多くのインプット情報に基づき、より人間の感覚に近い処理を行うことができるため、様々なビジネスシーンでの活用が期待されています。

マルチモーダル生成AIを利用したユースケース

マルチモーダル生成AIのユースケースの中でも、今回は音声データ、テキスト、画像を活用したケースを紹介します。

日々の仕事でパソコンやスマホを利用する方の多くが、入力作業をする際にキーボードやタッチパネルなどを利用していると思います。私もキーボードを使用してこのブログ原稿を作成していますが、入力作業が大変だったという経験はないでしょうか？

例えば、以下のようなシーンにおいて、テキスト入力作業が難しいと感じることがありました。

外出時に商談の報告レポートを作成しなければならない
スマホで多くの文字を入力をしなければならない
使い慣れない機器での入力作業に時間がかかる

展示会の説明員などは、これらの課題のオンパレードです。次々と来るお客様と会話をしなくてはいけず、メモしている時間もなく、スマホで長文を入力するのも難しく時間がかかる作業で、入力をしているとお客様対応の機会を逃してしまうので短時間で入力しなければいけない課題があります。

そこで、展示会の説明員の文字入力の課題を例にして、会話音声データを自動的に分析し、会話内容を登録するアプリケーションをGoogle CloudとGoogle Workspaceを利用して開発しました。

構成　

展示会の説明員が名刺交換をしてデータ化、会話をした内容をメモする作業を簡略化するアプリを作ります。

構成としては、会話については録音してその録音データから会話のサマリを作ってもらいます。名刺は写真にとってデータ化をおこないます。

Google CloudとGoogle Workspaceを連携させた構成例は以下のようになります。

スマホで名刺の画像と会話の録音データを取得
Google AppSheetで開発したアプリから名刺画像と会話データをGoogle Cloudに送信
Geminiを用いてデータを処理・分析
名刺情報と会話内容をデータベースに自動登録

スマホで撮影した名刺画像と、録音した会話情報をGoogle AppSheetで開発したアプリを用いてGeminiに送信することで、以下のようなことを実現できました。

即時リード登録：名刺情報と会話内容をリアルタイムでデータベースに登録、面倒な登録作業を効率化
会話内容の記録：会話内容をテキスト化し、後日会話した内容に基づく顧客フォロー
顧客ニーズの把握：会話分析によって顧客のニーズや関心を理解し、質の高いサービスを提供

開発したアプリケーション

ここからは、サンプルデータを用いて開発したアプリケーションを紹介します。今回はアプリケーションの開発にノーコード開発プラットフォームであるGoogle AppSheetを利用しました。

アプリケーションのインターフェース

スマートフォンから利用することを想定し、名刺イメージと録音データのみで情報の登録ができるようにしました。

登録した名刺情報（サンプル）

今回はサンプルデータを用いて、アプリケーションの動作を説明します。先ほどのアプリにカメラ撮影した名刺画像と音声データを入力し、登録処理を実行します。

名刺情報の取り込み

登録した名刺情報は、一部情報の不足や異なる部分もありますが、概ね必要な情報が拾えており、編集機能と組み合わせると入力補助としては十分使えそうです。名刺によってデザインや記載されている情報が異なりますが、Geminiが人の名前や会社名、住所などを識別して抽出してくれることに驚かされます。

音声データから抽出した会話のサマリ情報

音声データからは、会話の要約や会話中に出てきたプロダクトの情報などを抽出しました。プロンプトを工夫することで様々な情報を抽出することができ、データ収集の効率化ができました。
画像や音声データから情報抽出をする場合は、プロンプトの工夫が必要です。事前にプロンプトのテストを実施し、内容の抽出精度や形式をチューニングすると開発がスムーズに進みます。

登録したデータは、指定のスプレッドシートに書き込まれます。抽出した情報を列毎に格納しているので、データ整理の時間を大幅に削減します。

データの可視化

最後に、登録したデータをアプリ内で可視化できるようにしました。Google AppSheetの機能を利用すると、登録したデータ件数などをアプリ内で簡単に可視化できます。これによって、リアルタイムでのデータ収集状況の確認や、関係者間での情報共有に活用することができます。

まとめ

今回は、マルチモーダル生成AIの活用ユースケースとして、音声データと画像データを活用する方法について紹介しました。

個人情報も含みますので会話の録音データや名刺の写真データの取り扱いには十分な注意が必要ですが、これまで大変だった入力作業が、数ステップで情報の登録から共有が可能になりました。生成AIモデルの回答精度は100％ではないため、入力者による確認は必須ですが、それでも大幅に入力作業時間を短縮できます。迅速な情報の共有により、展示会などの後日フォローが早くなり、漏れも少なくなることで、顧客満足度向上も期待できます。

マルチモーダル生成AIを活用することで、業務効率の向上とサービス品質の向上が実現できる良い活用事例が作れました。

Google CloudのGeminiとGoogle WorkspaceのAppSheetを活用したマルチモーダル生成AIは、ビジネスに革新的な変化をもたらしています。

ソフトバンクでは、マルチモーダル生成AIの多様なユースケースを研究し、今後も情報を発信していく予定です。

まだマルチモーダル生成AIを利用したことのない方は、ぜひこの機会に初期費用無しで簡単に始められるDIYプランを試してみてはいかがでしょうか。

Vertex AI DIYプランについて

Vertex AI Search を使って社内文書を検索する生成 AI を構築してみませんか？
ソフトバンクのエンジニアが構築をサポートします。

Vertex AI DIY プランでは、以下の3つのことをご体験いただけます。
詳細は、関連サービスにある「Vertex AI DIYプラン」をご確認ください。

Vertex AIに関する他の記事もぜひご覧ください

＼業務課題をデジタルで支援／

デジタルツールの選定から導入の手引きまで、中小規模のお客さまへわかりやすくお伝えします。

中小規模のお客さま向けサイトをみる

メールマガジン登録（無料）
ビジネスに役立つ記事やウェビナー情報をお届けします。