RAGの精度向上！Vertex AIで生成したQ&A表の活用術！

新卒クラウドエンジニア
岡崎利恩

2024年9月27日掲載

このブログでは、RAG（Retrieval-Augmented Generation）の精度に困っている方へ一つの解決策を提案します！

生成AIの回答精度を向上させるための有効な手段として注目されているのがRAGですが、身の回りにあるデータには非構造化データが多くありますが、非構造化データを元にした回答には間違いが多くある傾向があります。

この非構造化データを元にした回答に誤りが多い課題に対して、RAGで"Q&A表" を活用することで、難解な非構造化データもクリアに解読し、より確実に情報を探し出せるようになります。

検証結果も交え、具体的に紹介しますので、RAGの活用幅拡大のきっかけになれば幸いです。

はじめに

生成AIは、さまざまな分野で積極的に活用されるようになっています。特に、企業内の文書検索や顧客対応のチャットボットなどの業務においては、RAG（Retrieval-Augmented Generation）が注目を集めており、その導入が進められています。しかし、通常のRAGでは求められる高い精度に到達することが難しいという課題があります。

本稿では、RAGの回答精度の課題に注目し、その解決策の一つとして、オリジナルデータに加えて "Q&A表"(以下、Q&A表) を活用することで、回答精度を上げることができます。その方法について具体的に解説していきます。

はじめに、本稿で使用するキーワードについて説明します。

RAG

RAG（Retrieval-Augmented Generation）は、情報検索と文章生成の2つの要素を組み合わせることで、膨大なデータセットから正確な情報を抽出し、それに基づいて適切な文章を生成します。これにより、モデルを再トレーニングすることなく、特定の分野や組織の内部ナレッジベースの提供が可能になります。

Vertex AI

Vertex AIは、Googleが提供する統合型の人工知能プラットフォームで、開発者がモデルを容易に構築、管理、スケーリングできるように設計されています。これにより、ビジネスの規模や目標に関わらず、短期間で高度なシステムを実装することが可能となります。

RAGが抱える課題

RAGは、企業内の社内文書検索やチャットボットの開発において非常に有用な技術であるため、より高い回答精度を実現したいとのニーズが存在します。しかし、通常のRAGで、この要求される高い回答精度に到達することが困難であるという課題があります。

この原因の一つとして挙げられるのが、参照するドキュメントのデータ構造です。

例えば、回答生成に利用したいデータが複雑な文章や画像を含む非構造化データである場合、RAGによるドキュメントからの情報抽出が正しくできない場合があります。この場合、RAGによって生成AIに正しい情報を渡すことができず誤った回答生成が行われます。

この課題を解決するために、複雑なデータ構造を持つオリジナルのデータから「質問」と「回答」の形式で構造化した「Q&A表」を作成し、RAGの精度向上に取り組みました。

精度向上のためのアプローチ：Q&A表

Q&A表は、オリジナルのデータから、主要な質問とそれらの回答をCSVファイルとして生成します。このQ&A表を用いることで、ナレッジベースを検索する場合に、オリジナルのデータに加え、構造化されたデータから検索を行うことができるため、正しい情報が抽出できる可能性が高くなります。

Q&A表の作成には、マルチモーダルなデータに対応したGemini 1.5 Proを使用し、オリジナルのデータに基づく大量のQ&Aを素早く作成することができます。Gemini 1.5 Proは、非構造化データから情報を正確に抽出することができるため、RAGに必要な構造化データ（Q&A表）の作成に役立ちます。

Q&A表を用いたRAG環境の構築

今回はGoogle CloudのVertex AIを用いて検証を行います。まずは、Q&A表を作成します。

Vertex AIでGemini 1.5 Proを使用し、オリジナルのPDFファイルをもとにQ&A表（CSVファイル）を作成します。また、Q&A表は質問と答えがセットになるように生成します。本稿で利用するデータはデモのために作成した架空の「決算資料」を利用します。
作成したQ&A表(CSV)は、Cloud Storageに保存し、RAGの参照用データとして利用します。

また、RAGの構築について方法は過去の記事「ノーコードでVertex AI Search を利用してGoogle サイトでRAG構築してみた」にて紹介していますので合わせてご覧下さい。

以下の画像は「2024年3月期投資家向け説明会」のプレゼンテーションのイメージになります。