VAIS チューニングプランの紹介〜独自ツールでRAG・Agentspace の精度を上げるための３ステップ〜

2025年8月4日掲載

はじめに

近年、大規模言語モデル（LLM）の進化に伴い、その応用技術であるRAG（Retrieval-Augmented Generation）が注目を集めています。RAGは、指定されたナレッジベースから関連情報を検索し、それを基にLLMが回答を生成する仕組みです。

これにより、LLMが学習していない最新情報や、社内ドキュメントのような専門的な情報に基づいた回答生成が可能になり、ハルシネーション（もっともらしい嘘の情報を生成する現象）を抑制する効果も期待できます。

Google Cloud の Vertex AI Search は、このRAGシステムを誰でも驚くほど簡単に構築できる強力なサービスです。

詳しくは、Vertex AI Agent Builder の使い方を学習できる技術解説記事まとめをご覧ください。

しかし、RAGシステムを構築したものの、「期待したほど精度が出ない」「間違った情報源を参照してしまう」「特定の質問にうまく答えられない」といった課題に直面するケースは少なくありません。

この精度の問題は、主に「検索（Retrieval）」と「生成（Generation）」の2つのフェーズに起因します。検索がうまくいかなければ、LLM は関連性の低い情報をもとに回答を生成してしまいますし、検索が完璧でも、LLM への指示（プロンプト）が不適切であれば、ユーザーが求める回答は得られません。勘と経験だけに頼った手作業のチューニングには、限界があるのです。

今回紹介する「VAIS チューニングプラン」では、私たちが独自に開発したチューニングツール（特許取得済、以降、「本ツール」と呼ぶ）を使い、データに基づいた科学的なアプローチでRAGシステムの精度を測定し、改善へと導きます。

本記事では、本ツールを使ったチューニングの3つのステップを通して、具体的な改善アプローチの一端を紹介します。

ステップ１現状分析〜見えない課題を可視化する〜

RAGシステムチューニングの第一歩は、現状のシステムが「何に答えられて、何に答えられないのか」を定量的かつ客観的に把握することです。

評価データセットの自動生成

本ツールでは、まず、データストアに使用されているドキュメント群から、評価用の質問回答（Q&A）データセットを自動的に生成します。LLM がドキュメントの文脈を深く理解し、重要なポイントを抽出することで、1ページも余すところなく網羅的なQ&Aペアを作成します。

今回は評価用のサンプルとして、地方自治体の広報誌や観光マップ、ごみの分別ガイドなどを使用しました。

【Q&A生成パフォーマンス】

総ページ数： 45ページ
自動生成Q&A数： 668件
Q&A生成時間： 19分59秒 (1問あたり約1.8秒)

わずか 20分で、668件もの網羅的なQ&Aデータセットが自動生成されました。1問あたり約1.8秒という速度は、手作業では決して到達できない速度と品質です。

評価の実行とレポーティング

次に、生成したQ&A データセットを使い、RAG システムの評価を自動実行します。

具体的には、質問をRAG システムに入力し、得られた回答と元のQ&A データセットを照合して、検索と回答のスコアを判定します。

【評価実行パフォーマンス】

回答生成： 28分1秒（1問あたり約2.5秒）

手動でテストする場合、1問10秒以上はかかると想定され、大幅な時間短縮になります。

回答判定： 5分4秒（1問あたり約0.45秒）

人が判断すると評価基準に主観が入りばらつきが出ますが、ツールなら一貫した基準で客観的に評価できます。

評価レポート（全体）

評価レポート（テストケース別）

初期状態のレポートからは、以下の課題が明確になりました。

検索スコアは8割弱と、比較的高い水準で関連情報を検索できています。
しかし、回答スコアは6割強に留まっています。

つまり、「検索はできているのに、正しい回答ができていない」ケースが多く、これが精度向上のボトルネックになっている可能性が高い、という重要なインサイトが得られました。

ステップ２レコメンドの実践

現状分析で課題が明らかになったら、次はその改善策を実践します。本ツールでは、分析結果に基づいて具体的な改善アクションを以下のように推奨（レコメンド）してくれます。

”データストアのパーシング方式をOCR パーサーに変更してみてください”

パーシング（文書解析）方式の検証

今回は、レコメンドに従い「パーシング方式」の変更を試します。文書の特性に合わせて最適なパーサーを選択することが、検索精度向上の鍵となります。

※パーサーはドキュメントをテキスト化する文書解析器のことで、検索精度を左右する重要な要素です。

デジタルパーサー（デフォルト）: テキスト情報が埋め込まれたPDF に最適。
OCR パーサー: スキャンされた画像ベースの文書から文字を抽出。
レイアウトパーサー: 図や表を含む複雑な構成の文書の構造を理解して抽出。

このツールを使えば、異なるパーサーを使用したデータストアとアプリを自動で作成できるため、パラメータを変えたテストも簡単に行えます。

ステップ1と同じドキュメントを使い、新たに「OCRパーサー」と「レイアウトパーサー」のアプリを作成し、再度評価を実行しました。

【評価実行パフォーマンス】

回答生成： 38分47秒（1問あたり約1.7秒）

回答判定： 8分18秒（1問あたり約0.37秒）

評価レポート（全体）

評価レポート（OCRパーサ）

評価レポート（レイアウトパーサ）

今回のサンプルドキュメントの場合、３つのパーシング方式の中で最も精度が良かったのはOCRパーサという結果になりました。

しかし、デジタルパーサーと比較すると検索スコアは2%向上したものの、回答スコアは同率でした。検索精度が上がった分が、まだ回答品質に結びついていない状況です。

ステップ3 FAQ の追加

パーシング方式の変更だけでは改善しきれない課題も少なくありません。特に、「社内用語や略語に関する質問」や「必ずこの通りに答えてほしい、よくある質問」などです。

このようなケースでは、特定の質問と回答のペアをFAQとして登録することが極めて有効です。FAQをデータストアに追加するだけで、これまで回答が不安定だった質問への対応品質を向上させることができます。

しかし、FAQを手作業で大量に作成するのは大変な労力がかかります。そこで本ツールは、ドキュメントの内容や想定される利用シーンから、効果的なFAQ のCSV データを自動的に生成します。

ステップ2で最も精度の良かったOCR パーサのデータストアに、このFAQデータを追加したアプリを作成し、最終評価を行いました。

【最終評価パフォーマンス】

回答生成時間： 16分32秒（1問あたり約1.48秒）
回答判定時間： 9分38秒（1問あたり約0.86秒）

ステップ1:デジタルパーサ

ステップ3:OCRパーサ + FAQデータ

ご覧の通り、全体的なスコアが向上しました。特に、表形式のデータに対する検索精度が50%から86%へと劇的に改善していることがわかります。

Q&A生成から最終評価まで、作業時間は合計で約1時間46分。2時間以内に、データに基づいた網羅的なチューニングが完了しました。

おわりに

本記事では、「VAISチューニングプラン」での精度改善の例を3つのステップで紹介しました。

現状分析: 評価データに基づき、システムの課題を客観的に可視化する。
レコメンドの実践: 分析結果から得られた具体的な改善案を試し、効果を測定する。
FAQの追加: 自動生成されたFAQの追加により、システムの信頼性と安定性を高める。

RAGシステムのチューニングは、もはや勘や手作業に頼るものではなく、ツールを活用することで、より科学的かつ効率的なプロセスへと進化します。このツールを使えば、従来は多大な工数がかかっていた評価作業を自動化し、短時間で網羅的かつ定量的にRAGシステムの精度を測定・改善できます。

すでにRAGを導入済みで、回答精度にご不満をお持ちの方
これからRAGを導入したいが、精度面で不安を感じている方
精度改善にこれ以上、多くの時間とコストをかけたくない方

そんなお悩みをお持ちでしたら、ぜひ一度私たちのソリューションをご検討ください。

「VAISチューニングプラン」では、専門エンジニアがお客様と伴走しながら、本ツールを活用して効率よく短期間でRAGの精度向上を目指していきます。

まずは、自社のRAG システム (※1) が今どれほどの実力なのか、ステップ1の「現状分析」から始めてみてはいかがでしょうか？

※1 現在対応しているサービスは Google Vertex AI Search、Google Agentspace （一部コネクターのみ）となっております。

Google Cloud Next Tokyo '25 に最上位スポンサーとして出展します！

SoftBank は、2025年8月5日(火)～8月6日(水) に東京ビッグサイト南展示棟で開催される Google 主催イベント「Google Cloud Next Tokyo '25」 に、最上位スポンサーとして出展いたします！
本記事で紹介した Agentspace を活用した生成 AI エージェントの実践例を中心に、会場では 自然言語による業務自動化デモやミニセッションを実施予定です。
特に、社内データの横断的な検索や要約、メール送信・カレンダー連携といった 業務フローの自動化に関する具体的なユースケースをご紹介します。

ご来場の皆さまには、AI エージェントを業務に活用するための実践的なヒントをお届けできればと考えています。
ぜひ、ソフトバンクブースへお立ち寄りください！

Google Cloud Next Tokyo '25
日時：2025年8月5日(火) ～ 8月6日(水) 10:00～17:30（展示ブースは 11:30 開始）
会場：東京ビッグサイト南展示棟
参加費：無料（事前登録制）
登録サイト：Google Cloud Next 公式サイト