フォーム読み込み中
ソフトバンク アドベントカレンダー 2024の 14日目の記事です。
スマートフォンやタブレットの普及により、手元のデバイスで撮影した写真や動画、録音した音声を業務に活用することができるようになりました。他方で、近年発展が著しい生成AIは、人工知能を用いてテキストや音声、画像、動画などの生成や解析を行う技術です。データの要約、ドキュメント生成、翻訳などが自動的に行うことができ、こちらも積極的な導入が進められています。そのような中、複数種類のデータを同時に処理できるマルチモーダル生成AIが登場し、これらのデータ活用の可能性は更に広がっています。
この記事では、システムなどの操作手順を録画した動画からマニュアルを書き起こすというシチュエーションを想定して、Googleのマルチモーダル生成AIであるGeminiとGoogle Workspaceを活用したドキュメント作成の自動化方法を紹介します。
まず、業務マニュアルの作成において動画を活用する場面を考えてみます。以下のような状況で業務システムの操作手順を同僚から教わる場面を想像してみましょう。
既存の操作マニュアルや資料が古く、業務実態と合わなくなっている
部門独自の詳細な業務手順があり、理解が難しい
誤操作の懸念から初回は同僚に説明を受けながら操作したい
一度教わっただけで操作手順を正確に理解できることが理想ですが、説明内容を再度確認したくなることもあるでしょう。そのような場合、操作内容を録画し、動画を視聴できれば同じ説明を繰り返す必要はなくなります。このように、業務のレクチャーにおいて録画データを共有し、必要に応じて視聴することは有効な手段となります。
ところが、操作手順が複雑であったり、長時間の作業が必要な場合、確認のために毎回動画を見るのは効率的ではありません。また、人によって見逃しや聞き逃しのポイントも異なるため、動画を用意するだけでは視聴する側の理解の正確性を担保することはできません。
最終的には情報の鮮度が高く、業務の実態に即した業務マニュアルが必要になると思われます。そして、そのマニュアル作成にはなるべく手間をかけたくないので、効率的にマニュアル作成できるようなツールが欲しいところです。マニュアルは作って終わりではなく、更新も必要です。
ここでマルチモーダル生成AIの出番です。このAIが動画を読み込み、要点を簡潔なドキュメントにまとめてくれれば、短時間で動画の内容を把握することができます。また、見落とされがちなポイントもドキュメントにわかりやすく記載されていれば、誰でも気づくことができるようになります。 手順が変わったとしても、画面操作を録画するだけで簡単にマニュアルの更新も可能です。
このように、人が動画を視聴し解釈する中で拾いきれなかったり失われたりする情報を一定の品質でまとめ、繰り返し処理をする際にマルチモーダル生成AIは強力なツールになります。
さて、操作手順の録画や取得したキャプチャはどのように共有するでしょうか?普段Gmailを利用するユーザーならGoogle Driveは手軽で一般的な選択肢になります。グループウェアとしてGoogle Workspaceを導入している企業でも、社内のファイル共有基盤としてGoogle Driveが広く活用されているため、業務上作成したり撮影した動画を保存することも多いと思います。スマートフォンで撮影した動画の共有にも相性が良いです。
上述したGoogle Driveの利便性の他にも、次のようなメリットがあります。
AppSheetとの連携が容易である
ノーコードアプリケーション開発ツールであるAppSheetが利用できます。これによりGoogle Workspace上で迅速にアプリケーションを開発することができ、業務アプリケーションの構築だけでなく概念実証にも有効です。
Google Apps Scriptを利用できる
Google Apps Script(以下、GASと表記)を使うことで、手軽に業務ツールを開発することができます。また、GASを介して生成AIを利用したり、Google Docsなどのオフィスワーク向けアプリケーションのファイルを作成することも可能です。
Google Cloudとの親和性が高い
Google WorkspaceはGoogle Cloudと高い親和性を持っており、データの連携や拡張性に優れています。これにより、クラウドベースのAIサービスやデータ解析ツールを柔軟に利用することができます。
今回紹介するアプリケーションにおいてもこれらのメリットを生かして迅速に開発を行うことができました。このようにGoogle Workspaceの活用により効率的にマルチモーダル生成AIの導入検証や運用が可能となります。
ここからは、アプリケーションの構成を紹介します。
各コンポーネントの概要は、次の通りです。
AppSheet
アプリケーションのユーザーインタフェースをAppSheetで作成します。AppSheetアプリケーションで登録したファイルはGoogle Driveへ保存され、GASを介して容易に後続の処理につなげることができます。
Google Workspace
前述のGoogle Driveを利用する他、マルチモーダル生成AIを使用するための橋渡しとしてGASを利用します。また、成果物となる手順書はGoogle Docsで作成しGoogle Driveへ保存します。
Google Cloud
マルチモーダル生成AIの実行基盤であるVertex AIを使用します。これを介してマルチモーダルLLMであるGoogleのGemini 1.5 Proで動画解析を行います。また、動画から画像を取得する処理を行うためにCloud Run functions(旧:Cloud Functions)上に簡単なPython関数を実装します。さらに、これらの処理をGoogle Cloud上で行うためにファイルを一時的に保存するストレージとしてCloud Storageを使用します。
画像取得関数について補足しますと、Geminiはマルチモーダル生成AIであるものの、読み込んだ動画の一場面を切り取って画像化するというようなピンポイントな処理は行うことができません。しかし操作画面のキャプチャは操作マニュアルには定番の要素であり、こちらも自動的に埋め込みたいため、Cloud Run Functionsを用いて動画からキャプチャを取得する機能を実装しました。
この構成ではGoogle Cloud上のコンポーネントはPaaS製品のみを使用しており、ユーザー側は環境セットアップの手間を最小限にとどめることができます。このため実用性の検証やロジックの構築に集中することが可能です。また、Geminiでは直接行うことができない処理をCloud Run Functionsなどを用いて追加実装することができ、機能拡張が容易です。
今回はデモのためにGoogle CloudでVMインスタンスを作成するコンソール操作手順を収録した動画を使用します。
実際の動画を掲載することはファイル容量の関係で難しいため、この記事では画面キャプチャのみ掲載します。
日常的にクラウドのコンソールを操作しているエンジニアには見慣れた画面ですが、設定完了するのに何ページもの画面遷移をたどる必要があり、設定漏れなどが発生しそうです。筆者が初めて操作した際は不安で手が震えていたことを思い出します。
この動画をアプリケーションに登録し、ドキュメント化してみます。
「動画を登録」ボタンから登録画面を呼び出します。
登録画面の「Subject」項目にわかりやすい名前を入力し、「Video Data」項目でデモ動画を選択します。「Save」を押すと登録が実行され、Google Driveへ動画ファイルが保存されます。さらに、GASによってCloud Storageへ動画ファイルがアップロードされます。
数分後、画面上の表示項目が増え、「手順書を作成」ボタンが現れました。アップロードが完了し、Google Cloud上でGeminiによる動画解析と、マニュアル作成のための一連の処理を行う準備ができました。「手順書を作成」を押します。
しばらくすると処理が完了し、「Document Url」の項目が表示されました。文字通り、作成されたドキュメントへのリンクとなっているので、すぐにドキュメントを開くことができます。早速クリックしてみます!
リンクを開くと、動画内の作業手順がまとめられたGoogle Docsのドキュメントが現れました。仕上がりを見てみると、動画内で行われている操作手順を正確に記述しています。
ドキュメント内では見出しや箇条書きが使用されていますが、これはGeminiへ与えたプロンプト(指示)による出力結果をもとにGASでドキュメント出力する際にスタイルを適用する処理を行うことによって実現しています。このようにGeminiに与えるプロンプトにより柔軟に出力形式を制御することが可能です。
ドキュメントの末尾にはキャプチャの一覧が出力されています。Geminiへは動画内の手順で重要と思われる場面のキャプチャを取得する指示も与えており、この結果を用いて先述のCloud Run functionsに実装した画像取得関数によりキャプチャを取得し、Google Driveへダウンロードしたのちドキュメントへ埋め込んでいます。各画像には場面に応じたキャプションも添えられており、こちらのテキストもGeminiにより生成されたものです。
ここまではシステムの操作手順の例としてGoogle Cloud操作のデモ動画を利用しましたが、スマートフォンのカメラなどで撮影した動画にも利用できます。以下は、筆者の自宅の宅配ボックスの開け閉めを行う手順を音声付きで動画撮影し、今回のアプリケーションでドキュメント化を試した結果です。
この動画は片手でスマートフォンを持ちながら撮影し、もう片方の手で宅配ボックスを操作しているため手元がおぼつかず、手順の説明動画としての品質はかなりお粗末です。さらに、開け閉めの手順を少し間違えており余計な動作が含まれています。しかしながら操作手順のドキュメントとしては要点を抑えられていると思います。このように手元のスマートフォンで撮影した動画にも適用可能です。
この記事では、Google Workspaceを基盤としてマルチモーダル生成AIへ動画データを連携し、業務に活用する例を紹介しました。これによりマルチモーダル生成AIで実現可能なことのイメージが伝わったと思います。この他にも生成AIへ与えるプロンプトの工夫によって、作業手順の書き起こしだけでなく作業内容のチェックや業務報告など、さまざまな応用が考えられます。
動画が短かったり数が少ない場合は、一つ一つでできるものは大したことはないかもしれませんが、長い動画や多数の動画の処理は、積み重なれば膨大な手間となります。このようなデータを扱う業務にはマルチモーダル生成AIが高い効果を発揮する可能性がありますので、活用を検討してみると良いでしょう。
またこの記事ではAppSheetの利用は最小限にとどめていますが、AppSheetでは実業務での利用を想定したアプリケーションを簡単に作成することもできます。展示会で大活躍!?マルチモーダル生成AIを活用して、テキスト入力を効率化するアプリを開発してみたもご覧いただけたらと思います。
皆さんのフォルダやストレージ、普段の業務で収集した動画が眠っていませんか?身近にあるデータを使って生成AIを活用できることを知っていただくことで、これまではできなかった業務改善やデータ活用のきっかけとなれば幸いです。
ソフトバンクではクラウドサービスの提案・導入支援に力を入れております。ぜひお気軽にご相談ください。
それでは、アドベントカレンダー 15日目もおたのしみに!
Google サービスを支える、信頼性に富んだクラウドサービスです。お客さまのニーズにあわせて利用可能なコンピューティングサービスに始まり、データから価値を導き出す情報分析や、最先端の機械学習技術が搭載されています。
Google スプレッドシート、Gmail、Google カレンダー、Google Chat、Google ドライブ、Google Meet などのさまざまなサービスがあらゆる働き方に対応する業務効率化を実現します。
ノーコードのアプリケーション開発プラットフォームサービスです。Google Workspace をはじめとする、さまざまなデータソースと接続し、コーディング不要で迅速なアプリケーション開発を可能にします。
条件に該当するページがございません