GeminiとGoogle Workspaceの活用～動画からマニュアルの自動作成～

2024年12月14日掲載

ソフトバンクアドベントカレンダー 2024の 14日目の記事です。

スマートフォンやタブレットの普及により、手元のデバイスで撮影した写真や動画、録音した音声を業務に活用することができるようになりました。他方で、近年発展が著しい生成AIは、人工知能を用いてテキストや音声、画像、動画などの生成や解析を行う技術です。データの要約、ドキュメント生成、翻訳などが自動的に行うことができ、こちらも積極的な導入が進められています。そのような中、複数種類のデータを同時に処理できるマルチモーダル生成AIが登場し、これらのデータ活用の可能性は更に広がっています。

この記事では、システムなどの操作手順を録画した動画からマニュアルを書き起こすというシチュエーションを想定して、Googleのマルチモーダル生成AIであるGeminiとGoogle Workspaceを活用したドキュメント作成の自動化方法を紹介します。

この記事では

GeminiとGoogle Workspaceを活用したドキュメント作成の自動化方法を紹介します
エンジニアでない方にもわかりやすいように記載しています

活用例：業務マニュアルの作成

まず、業務マニュアルの作成において動画を活用する場面を考えてみます。以下のような状況で業務システムの操作手順を同僚から教わる場面を想像してみましょう。

既存の操作マニュアルや資料が古く、業務実態と合わなくなっている
部門独自の詳細な業務手順があり、理解が難しい
誤操作の懸念から初回は同僚に説明を受けながら操作したい

一度教わっただけで操作手順を正確に理解できることが理想ですが、説明内容を再度確認したくなることもあるでしょう。そのような場合、操作内容を録画し、動画を視聴できれば同じ説明を繰り返す必要はなくなります。このように、業務のレクチャーにおいて録画データを共有し、必要に応じて視聴することは有効な手段となります。

ところが、操作手順が複雑であったり、長時間の作業が必要な場合、確認のために毎回動画を見るのは効率的ではありません。また、人によって見逃しや聞き逃しのポイントも異なるため、動画を用意するだけでは視聴する側の理解の正確性を担保することはできません。

最終的には情報の鮮度が高く、業務の実態に即した業務マニュアルが必要になると思われます。そして、そのマニュアル作成にはなるべく手間をかけたくないので、効率的にマニュアル作成できるようなツールが欲しいところです。マニュアルは作って終わりではなく、更新も必要です。

ここでマルチモーダル生成AIの出番です。このAIが動画を読み込み、要点を簡潔なドキュメントにまとめてくれれば、短時間で動画の内容を把握することができます。また、見落とされがちなポイントもドキュメントにわかりやすく記載されていれば、誰でも気づくことができるようになります。手順が変わったとしても、画面操作を録画するだけで簡単にマニュアルの更新も可能です。

このように、人が動画を視聴し解釈する中で拾いきれなかったり失われたりする情報を一定の品質でまとめ、繰り返し処理をする際にマルチモーダル生成AIは強力なツールになります。

Google Workspaceの活用

さて、操作手順の録画や取得したキャプチャはどのように共有するでしょうか？普段Gmailを利用するユーザーならGoogle Driveは手軽で一般的な選択肢になります。グループウェアとしてGoogle Workspaceを導入している企業でも、社内のファイル共有基盤としてGoogle Driveが広く活用されているため、業務上作成したり撮影した動画を保存することも多いと思います。スマートフォンで撮影した動画の共有にも相性が良いです。

上述したGoogle Driveの利便性の他にも、次のようなメリットがあります。

AppSheetとの連携が容易である

ノーコードアプリケーション開発ツールであるAppSheetが利用できます。これによりGoogle Workspace上で迅速にアプリケーションを開発することができ、業務アプリケーションの構築だけでなく概念実証にも有効です。

Google Apps Scriptを利用できる

Google Apps Script（以下、GASと表記）を使うことで、手軽に業務ツールを開発することができます。また、GASを介して生成AIを利用したり、Google Docsなどのオフィスワーク向けアプリケーションのファイルを作成することも可能です。

Google Cloudとの親和性が高い

Google WorkspaceはGoogle Cloudと高い親和性を持っており、データの連携や拡張性に優れています。これにより、クラウドベースのAIサービスやデータ解析ツールを柔軟に利用することができます。

今回紹介するアプリケーションにおいてもこれらのメリットを生かして迅速に開発を行うことができました。このようにGoogle Workspaceの活用により効率的にマルチモーダル生成AIの導入検証や運用が可能となります。

アプリケーションの構成

ここからは、アプリケーションの構成を紹介します。

アプリケーション構成図

各コンポーネントの概要は、次の通りです。

AppSheet

アプリケーションのユーザーインタフェースをAppSheetで作成します。AppSheetアプリケーションで登録したファイルはGoogle Driveへ保存され、GASを介して容易に後続の処理につなげることができます。

Google Workspace

前述のGoogle Driveを利用する他、マルチモーダル生成AIを使用するための橋渡しとしてGASを利用します。また、成果物となる手順書はGoogle Docsで作成しGoogle Driveへ保存します。

Google Cloud

マルチモーダル生成AIの実行基盤であるVertex AIを使用します。これを介してマルチモーダルLLMであるGoogleのGemini 1.5 Proで動画解析を行います。また、動画から画像を取得する処理を行うためにCloud Run functions（旧：Cloud Functions）上に簡単なPython関数を実装します。さらに、これらの処理をGoogle Cloud上で行うためにファイルを一時的に保存するストレージとしてCloud Storageを使用します。

画像取得関数について補足しますと、Geminiはマルチモーダル生成AIであるものの、読み込んだ動画の一場面を切り取って画像化するというようなピンポイントな処理は行うことができません。しかし操作画面のキャプチャは操作マニュアルには定番の要素であり、こちらも自動的に埋め込みたいため、Cloud Run Functionsを用いて動画からキャプチャを取得する機能を実装しました。

この構成ではGoogle Cloud上のコンポーネントはPaaS製品のみを使用しており、ユーザー側は環境セットアップの手間を最小限にとどめることができます。このため実用性の検証やロジックの構築に集中することが可能です。また、Geminiでは直接行うことができない処理をCloud Run Functionsなどを用いて追加実装することができ、機能拡張が容易です。

実行デモ

今回はデモのためにGoogle CloudでVMインスタンスを作成するコンソール操作手順を収録した動画を使用します。

長さ：2分30秒
ファイルサイズ：43.7 MB
動画形式：mp4
音声の有無：無し

実際の動画を掲載することはファイル容量の関係で難しいため、この記事では画面キャプチャのみ掲載します。

デモ用動画のキャプチャ：VMインスタンスの作成画面

デモ用動画のキャプチャ：マシンタイプの選択画面

デモ用動画のキャプチャ：ファイアウォールの設定

日常的にクラウドのコンソールを操作しているエンジニアには見慣れた画面ですが、設定完了するのに何ページもの画面遷移をたどる必要があり、設定漏れなどが発生しそうです。筆者が初めて操作した際は不安で手が震えていたことを思い出します。

この動画をアプリケーションに登録し、ドキュメント化してみます。

アプリケーションのトップ画面

「動画を登録」ボタンから登録画面を呼び出します。

動画の登録画面

登録画面の「Subject」項目にわかりやすい名前を入力し、「Video Data」項目でデモ動画を選択します。「Save」を押すと登録が実行され、Google Driveへ動画ファイルが保存されます。さらに、GASによってCloud Storageへ動画ファイルがアップロードされます。

アップロード完了後

数分後、画面上の表示項目が増え、「手順書を作成」ボタンが現れました。アップロードが完了し、Google Cloud上でGeminiによる動画解析と、マニュアル作成のための一連の処理を行う準備ができました。「手順書を作成」を押します。

ドキュメント作成完了後

しばらくすると処理が完了し、「Document Url」の項目が表示されました。文字通り、作成されたドキュメントへのリンクとなっているので、すぐにドキュメントを開くことができます。早速クリックしてみます！

作成されたドキュメント

リンクを開くと、動画内の作業手順がまとめられたGoogle Docsのドキュメントが現れました。仕上がりを見てみると、動画内で行われている操作手順を正確に記述しています。

ドキュメント内では見出しや箇条書きが使用されていますが、これはGeminiへ与えたプロンプト（指示）による出力結果をもとにGASでドキュメント出力する際にスタイルを適用する処理を行うことによって実現しています。このようにGeminiに与えるプロンプトにより柔軟に出力形式を制御することが可能です。

ドキュメント末尾のキャプチャ一覧：場面に応じたキャプションが付与されている

ドキュメントの末尾にはキャプチャの一覧が出力されています。Geminiへは動画内の手順で重要と思われる場面のキャプチャを取得する指示も与えており、この結果を用いて先述のCloud Run functionsに実装した画像取得関数によりキャプチャを取得し、Google Driveへダウンロードしたのちドキュメントへ埋め込んでいます。各画像には場面に応じたキャプションも添えられており、こちらのテキストもGeminiにより生成されたものです。

ここまではシステムの操作手順の例としてGoogle Cloud操作のデモ動画を利用しましたが、スマートフォンのカメラなどで撮影した動画にも利用できます。以下は、筆者の自宅の宅配ボックスの開け閉めを行う手順を音声付きで動画撮影し、今回のアプリケーションでドキュメント化を試した結果です。

宅配ボックスの開け方の動画をドキュメント化した結果

違和感なくキャプションが添えられている

この動画は片手でスマートフォンを持ちながら撮影し、もう片方の手で宅配ボックスを操作しているため手元がおぼつかず、手順の説明動画としての品質はかなりお粗末です。さらに、開け閉めの手順を少し間違えており余計な動作が含まれています。しかしながら操作手順のドキュメントとしては要点を抑えられていると思います。このように手元のスマートフォンで撮影した動画にも適用可能です。

おわりに

この記事では、Google Workspaceを基盤としてマルチモーダル生成AIへ動画データを連携し、業務に活用する例を紹介しました。これによりマルチモーダル生成AIで実現可能なことのイメージが伝わったと思います。この他にも生成AIへ与えるプロンプトの工夫によって、作業手順の書き起こしだけでなく作業内容のチェックや業務報告など、さまざまな応用が考えられます。

動画が短かったり数が少ない場合は、一つ一つでできるものは大したことはないかもしれませんが、長い動画や多数の動画の処理は、積み重なれば膨大な手間となります。このようなデータを扱う業務にはマルチモーダル生成AIが高い効果を発揮する可能性がありますので、活用を検討してみると良いでしょう。

またこの記事ではAppSheetの利用は最小限にとどめていますが、AppSheetでは実業務での利用を想定したアプリケーションを簡単に作成することもできます。展示会で大活躍！？マルチモーダル生成AIを活用して、テキスト入力を効率化するアプリを開発してみたもご覧いただけたらと思います。

皆さんのフォルダやストレージ、普段の業務で収集した動画が眠っていませんか？身近にあるデータを使って生成AIを活用できることを知っていただくことで、これまではできなかった業務改善やデータ活用のきっかけとなれば幸いです。

ソフトバンクではクラウドサービスの提案・導入支援に力を入れております。ぜひお気軽にご相談ください。

それでは、アドベントカレンダー 15日目もおたのしみに！

GeminiとGoogle Workspaceの活用～動画からマニュアルの自動作成～

活用例：業務マニュアルの作成

Google Workspaceの活用

アプリケーションの構成

実行デモ

おわりに

関連記事

関連サービス

Google Cloud

Google Workspace

AppSheet

＼業務課題をデジタルで支援／

おすすめの記事

GeminiとGoogle Workspaceの活用～動画からマニュアルの自動作成～

活用例：業務マニュアルの作成

Google Workspaceの活用

アプリケーションの構成

実行デモ

おわりに

関連記事

関連サービス

Google Cloud

Google Workspace

AppSheet

＼ 業務課題をデジタルで支援 ／

おすすめの記事

＼業務課題をデジタルで支援／