Vertex AI Search Web サイト検索を使ってみた

2024年12月24日掲載

皆さま、こんにちは。ソフトバンクアドベントカレンダー2024、クリスマスイブの24日目の記事です。

Vertex AI Search のアプリでは Web サイト検索、ドキュメント検索、メディア検索などの様々な種類のアプリを作成することができます

今回は、Vertex AI Search の Web サイト検索アプリを実際に使ってみた結果をレポートします。

以前公開した記事「Vertex AI Search で各種データを投入し精度検証してみた」では、Vertex AI Search のドキュメント検索アプリを使用し、Google Cloud Storage に保存したPDF ファイルなどをデータソースとして生成 AI から回答を得ていましたが、今回の Web サイト検索アプリでは Web サイト自体をデータソースとして生成AIから回答を得ることができます。

本記事では、Vertex AI SearchをつかってWeb サイト検索のアプリやデータストアの作成手順から、テキスト・埋め込み画像・表などをどの程度正確に回答できるか回答精度をレポートします。

目次

Web サイト検索用アプリ・データストアの作成方法

まずは Web サイト検索用のアプリおよびデータストアの作成方法を紹介します。

手順1:
Vertex AI Searchのコンソール を開き [+アプリを作成する] をクリックします。

手順2:
[Search for your website] を選択します。

手順3:
アプリ名と会社名を入力し、[続行] をクリックします。

手順4:
データストア一覧から使用するデータを選択します。
今回は Web サイト用のデータストアが無いため、[+データストアを作成] → [ウェブサイトのコンテンツ] を選択し、新しくデータストア作成をします。

手順5:
[追加するサイト] に検索をかける Web サイトの URL(httpは不要)を入力し [続行] をクリックします。
※URL を複数入力する場合は1行ずつ入力してください。
※[除外するサイト]に入力された Web サイトはアプリの検索対象外になります。
※除外するサイトが無い場合は未入力で大丈夫です。

手順6:
手順4の画面にて作成したデータストアを選択し [作成] をクリックすることで、アプリ・データストアの作成は完了となります。

注意事項:
アプリ・データストアの作成完了後、Web サイトのドメイン認証をする必要があります。
データストアのエラー表示の [確認] からドメイン認証を実施してください。

※手順5にて[ウェブサイトの高度なインデックス登録]にチェックを入れていない場合、本手順は不要です。

回答精度

アプリ・データストアの作成が完了しましたので、アプリの回答精度を見ていきます!

今回は弊社で用意したサンプル Web サイトを使用します。

Web サイトはテキストデータ、テキストが書かれた画像データ、表データ、埋め込み PDF データで構成されており、サイト内の文章などは Gemini で作成したサンプル文章を使用しています。

今回はそれぞれの項目に対して質問を投げて結果を確認してみます。
 

【テキスト】
質問:RAG の正式名称は何ですか
回答:RAG の正式名称は、Rerrieval-Augmented Generation です。

サイト該当箇所:

判定:正解


【表】

質問:2023 年 Q2 において、ベッドの売上状況はどのようになっていますか?
回答:2023 年のベッドの売上状況は、売上目標を大幅に上回った状態でした。

サイト該当箇所:

判定:正解


【画像】
質問:
大阪の春の天気の傾向は何と記載されていますか?
回答:検索語句の要約を生成できませんでした。以下が検索結果です。

サイト該当箇所:

判定:不正解(検索結果が得られない)

画像に含まれる文章に関する質問にはうまく回答できないことが分かりました。


【PDF】

質問:日本政府が新たに展開した経済政策は何ですか。
回答:検索語句の要約を生成できませんでした。以下が検索結果です。

サイト該当箇所:

判定:不正解(検索結果が得られない)


検証の結果として、埋め込みPDFの内容には回答できないことが分かりました。

ただし、今回はサイトの URL のみをデータストアにインデックスしたため、埋め込み PDF の検索結果が得られませんでしたが、別の検証で、データストアの設定時に埋め込み PDF の URL を指定することで検索結果を得られることが分かっています

PDFがある場合は個別にURLを指定する必要があるので注意しましょう。

まとめ

本記事では、Vertex AI SearchをつかってWeb サイト検索のアプリやデータストアの作成手順と、テキスト・埋め込み画像・表などをどの程度正確に回答できるか回答精度をレポートしました。

コンテンツ種別結果
テキストデータ正解
表データ正解
PDFデータ不正解→PDFをデータストアに指定することで正解
画像に含まれたテキスト不正解

現状、Web サイト検索ではテキストデータ、表データ、埋め込み PDF に対する質問には正確に回答できることが確認されました。しかし、画像に記載された文章に対する質問には現段階では回答することができませんでしたので今後のアップデートに期待したいところです。

しかし、Web検索に必要なコンテンツ種類は検索対象となっているので、会社のWebサイトや製品情報などを対象とした検索アプリとして活用できそうだと思いました。また、検索ボックスを埋め込むことで、既存の検索窓と置き換えることも検討できます。

今後、画像データはもちろんのこと、音声データ、動画データなど検索できるデータの種類が増えれば活用の幅も広がりそうですね!

今後も期待ポイント含めアップデート情報を追っていきながら、役に立つ内容をどんどん発信していきたいと思います。皆さんもぜひ、Web サイト検索アプリを試してみてください!

ソフトバンクアドベントカレンダー2024、いよいよ明日は25日最終日です。明日もお楽しみに!

Vertex AI DIYプランについて

Vertex AI Search を使って社内文書を検索する生成 AI を構築してみませんか?
ソフトバンクのエンジニアが構築をサポートします。

Vertex AI DIY プランでは、以下の3つのことをご体験いただけます。
詳細は、関連サービスにある「Vertex AI DIYプラン」をご確認ください。

SoftBank Vertex AI Search DIYプランのご紹介

関連サービス

Vertex AI Search を使って社内文書を検索する生成AIを構築してみませんか?
ソフトバンクのエンジニアが構築をサポートします。
Google の生成AIの導入を考えている方はもちろん、どのようなものか確認したいという方でもご活用いただけます。

Looker は定義から集計、可視化の一連のデータ分析プロセスをカバーする BI ツールを超えるデータプラットフォームです。ソフトバンクは、顧客のニーズに合わせて柔軟なサポートを提供し、Looker を活用したデータドリブンな企業変革を支援しています。

Google サービスを支える、信頼性に富んだクラウドサービスです。お客さまのニーズにあわせて利用可能なコンピューティングサービスに始まり、データから価値を導き出す情報分析や、最先端の機械学習技術が搭載されています。

MSP(Managed Service Provider)サービスは、お客さまのパブリッククラウドの導入から運用までをトータルでご提供するマネージドサービスです。

おすすめの記事

条件に該当するページがございません