【もうRAGの精度で悩まない!①】Vertex AI Search でグラフや画像データを元にした回答精度を向上させるコツ

2024年7月30日掲載

皆様、こんにちは。

生成AI を使った RAG が流行っている昨今、その精度に対する課題を感じたことがありませんか。
現状、Vertex AI Agent Builder もほかの RAG と同様、複雑な画像やグラフ、表など一部のデータに対して精度の課題があります。

今回は、Vertex AI Agent Builder (旧称:Vertex AI Search and Conversation) の回答精度を向上させるコツをご紹介いたします。

先日公開されたブログ「Vertex AI Search で各種データを投入し精度検証してみた」にて精度検証の結果を紹介しておりますので、興味のある方は是非ご確認ください。

今回紹介する方法を使用すれば、確実に精度 UP すること間違いなし!ですので是非最後までご覧いただければと思います!

目次

記事で使用する Google Cloud プロダクト のご紹介

【Vertex AI Agent Builder】
Google Cloud の Vertex AI プラットフォームの一部です。企業が構築したデータを効率的に検索でき、ユーザーは自社のデータを高速かつ正確に検索し、必要な情報にアクセスすることができます。
詳細については、以前のブログ「Vertex AI Search (旧称 Gen App Builder の Enterprise Search) の日本語版を試してみた」をご覧ください。
 

【Vertex AI Studio】
Vertex AI Studio は Google Cloud の Vertex AI でのマネージド環境であり、マルチモーダルを含む様々なモデルを特別な知識を必要とせず、簡単に使用することができます。また、モデルをカスタマイズしたり、独自のニーズにあわせて調整、デプロイすることが可能です。
詳細については、以前のブログ「Vertex AI Studio (旧称:Generative AI Studio )でマルチモーダルの凄さを体験しよう!」をご確認ください。

精度UP方法

早速精度UP の方法をご紹介したいと思います。それは「PDF と一緒に PDF 内に含まれる表やグラフを Vertex AI Studio で Markdown 形式 に変換して CSV ファイルとしてデータストアに投入する」という方法です。
本記事では、PDF → Markdown 形式 → CSV に変換する方法まで丁寧に解説いたします。
お役に立てれば幸いです。

CSVファイルの作成方法

PDF を Markdown 形式 CSV ファイルに変換していきましょう。
 

1.Vertex AI Studio を使用して PDF の内容を Markdown 形式に変換します。
 Vertex AI Studio に以下のようにプロンプトを入力し、回答を生成します。

 <プロンプト>
 ・PDFファイル
 ・〇ページ目のスライドの内容だけを Markdown 形式に変換してください。
 ・ほかのページは変換必要ありません。
 ・図や表などに記載されている情報は漏れなく詳細に記述してください。
 ・また、グラフは可能な限りテーブル形式にしてください。

 <画像例>

これで、対象ページの情報だけを Markdown 形式に変換できました。
年度が記載されていない、数値の順序が違うなど足りていない部分もありますが、プロンプトを調整することでより正確に出力できますので、上手く変換されない場合はプロンプトを調整してみてください。では、この回答を利用して CSV ファイルを作成していきましょう。
 

2.スプレッドシートにて CSV ファイルを作成します。
 実際に作成したスプレッドシートが以下の画像のものになります。

question と answer の項目を作成し、question にページのサマリーをもとに作成した質問内容を、answer に Vertex AI Studio で出力された結果を入力するだけです。

question には自分で考えた質問文を入力する必要がありますが、question 以外の質問が来た場合でも、answer 内に該当する質問であれば精度が UP する結果が弊社で実施した検証で得られています。
しかし、適当な質問文よりページのサマリーをもとに作成した質問内容の方が精度がより上がるため、今回の方法を紹介をしています。

※answer のみの場合データストアへインポートする際にエラーが発生するため、question と answer の両方を必ず入れてください。
 

3.CSV ファイルとしてデータをダウンロードします。
 メニューの[ファイル] → [ダウンロード] → [カンマ区切り]形式(.csv)]でダウンロードします。

検証

資料の内容に関しての質問を4問作成して検証をしてきます。
検証データとして弊社で使用している Looker サンプルダッシュボード の PDF ファイルを使用しております。


質問1:月次売上・オーダー数において最もオーダー数が低い月はいつですか

Before:PDF ファイルのみ投入した場合
レスポンス:月次売上・オーダー数において、オーダー数が最も低い月は 5 月です。
判定:不正解(資料では 7 月が最も低いため)

After:PDF+CSV ファイルを投入した場合
レスポンス:
オーダー数が最も低い月は 7 月です。
判定:正解

資料該当箇所:

質問2:Member の会員において男性と女性の割合を教えてくださ

Before:PDF ファイルのみ投入した場合
レスポンス:
会員の男女比は、男性が 57%、女性が 43% です。
判定:不正解(資料では男性が 68%、女性が 32% と記載してあるため)

After:PDF+CSVファイルを投入した場合
レスポンス:
Member 会員の男性は 68%、女性は 32% です。
判定:正解

資料該当箇所:

質問3:注文詳細において Avery 519 の単価は何円と記載されています

Before:PDF ファイルのみ投入した場合
レスポンス:
注文詳細において Avery 519 の単価は ¥7,310 と記載されています。
判定:不正解(資料では 1,462 円と記載してあるため)

After:PDF+CSVファイルを投入した場合
レスポンス:
注文詳細において Avery 519 の単価は 1,462 円と記載されています。
判定:正解

資料該当箇所:

質問4:TOP 顧客にて最も売上が低い顧客 ID を教えてください

Before:PDF ファイルのみ投入した場合
レスポンス:
TOP 顧客の中で最も売上が低い顧客 ID は CA-1502172 です。
判定:不正解(資料では CA-1102158 の顧客が最も売上が低いため)

After:PDF+CSVファイルを投入した場合
レスポンス:
TOP 顧客の中で最も売上が低い顧客 ID は CA-1102158 です
判定:正解

資料該当箇所:

検証結果

生成された回答をスプレッドシートに簡単に表でまとめてみました。

画像やグラフに関する精度が UP していることが分かりました!

まとめ

いかがでしたでしょうか。
 

今回の検証を通して、CSVファイルを投入することで、グラフや画像に対する精度が上がることが分かりました。
今回は、デフォルトのドキュメントのままだと回答がうまく返ってこないパターンをメインで検証したのでBeforeの検証はすべてNGとなりますが、Vertex AI Search がすべてのグラフや画像データに対して正しく読み取れないということではありません。
まずはご自身のドキュメントをそのまま Vertex AI Search に入れて確認したうえ、本記事の方法でお試しいただければと思います。
 

CSVファイルの質問文は自身で作成する必要がありますが、こちらもAIで生成できれば、もっと簡単に精度 UP が実現できそうですね!
現状、PDFのみの場合よりは、作業に一手間かかりますが、精度は大幅に向上するため、是非、一度今回ご紹介した方法で精度 UP を試してみてはいかがでしょうか。


当社では、Vertex AI Search を使った社内文書検索ができる無償サービス「Vertex AI DIY」プランを提供しており、日々最新の生成AI と技術を使った精度向上への取り組みを行っています。

次回は、「もうRAGの精度で悩まない!Vertex AI Search で複雑な表データの精度を向上させるコツ」を取り上げたいと思います!

お楽しみに!

Google Cloud Next Tokyo'24 に最上位スポンサーとして出展します!

SoftBank は Google Cloud Next Tokyo'24 に最上位スポンサーとして出展します

8/1-8/2にパシフィコ横浜ノースにて開催される Google 主催イベント、Google Cloud Next Tokyo'24 に最上位スポンサーとして出展いたします!

「生成 AI」をテーマにソフトバンクが実践している組織全体へ生成AIカルチャーを定着化させる取組みや、生成AI時代の快適なクラウド環境を実現するために必要な、高速・安定した通信、柔軟なネットワーク構成、セキュリティ対策まで、ソフトバンクの Google ソリューションの活用事例をご紹介します。

Google Cloud Next Tokyo ’24
2024年8月1日(木)~8月2日(金) 10時~17時30分(展示ブースは11時30分から)
パシフィコ横浜ノース 臨場開催 (地図
無料(全来場者登録入場制)
※入場にはオンラインでの事前登録が必要です。

詳細・ご登録は 公式サイト からお願いします。申し込みの際は以下の招待コードを入力ください。
招待コード:FY24nx_pt031

ソフトバンクブース内では、Looker をテーマにしたミニセッションやデモをご案内しています。
ブースでお待ちしております!

Vertex AI DIYプランについて

Vertex AI Search を使って社内文書を検索する生成 AI を構築してみませんか?
ソフトバンクのエンジニアが構築をサポートします。

Vertex AI DIY プランでは、以下の3つのことをご体験いただけます。
詳細は、関連サービスにある「Vertex AI DIYプラン」をご確認ください。

SoftBank Vertex AI Search DIYプランのご紹介

関連サービス

Vertex AI Search を使って社内文書を検索する生成AIを構築してみませんか?
ソフトバンクのエンジニアが構築をサポートします。
Google の生成AIの導入を考えている方はもちろん、どのようなものか確認したいという方でもご活用いただけます。

Google サービスを支える、信頼性に富んだクラウドサービスです。お客さまのニーズにあわせて利用可能なコンピューティングサービスに始まり、データから価値を導き出す情報分析や、最先端の機械学習技術が搭載されています。

MSP(Managed Service Provider)サービスは、お客さまのパブリッククラウドの導入から運用までをトータルでご提供するマネージドサービスです。

おすすめの記事

条件に該当するページがございません