【もうRAGの精度で悩まない!②】Vertex AI Search で複雑な表データを元にした回答精度を向上させるコツ

2024年7月31日掲載

近年、生成AIの進化に伴い、Retrieval-Augmented Generation(RAG)という手法が注目を浴びています。RAGは、大規模言語モデル(LLM)と検索技術を組み合わせることで、より正確で信頼性の高い回答を生成する技術ですが、その特徴の一つとして、「外部から情報を与えることによって、モデルが知らない情報もさらに学習させ回答することができる!」といった点かと思います。

ただし、その精度について疑問を持たれるかもしれません。特にグラフや画像、複雑な表データに対する精度向上は、多くのビジネスや研究において重要な課題となっています。

グラフや画像、表データの精度を向上させるためには、ハイブリッド検索やエンベディング、クエリ変換やリランキング、メタデータの活用など、さまざまな手法があります。

その中でもデータの前処理は、検索精度を向上させるための重要なステップです。

前回は、グラフや画像データに対するデータの前処理の方法をステップバイステップで示しながら、実データに基づいて Vertex AI Search で精度が確実に向上できた内容を取り上げました。よろしければぜひブログをご確認ください。
Vertex AI Search でグラフや画像データの精度を向上させるコツ

今回の記事の精度向上ターゲットは「複雑な表データ」です!簡単な表から複雑な表にわたって精度を向上させるコツをご紹介します。

目次

パターン1:記号のないシンプルな表を Vertex AI Search に加えてみる

PDFにある以下の表を Vertex AI Search に加えて質問してみます。

この記事では、Vertex AI Search の利用方法については言及しません。Vertex AI Search については関連記事をご確認ください。

表データをそのまま投入した場合

質問:営業部の社員の名前を教えてください。
回答のイメージです。

営業部だけでなく、ほかの部署の社員情報も合わせて案内されましたが、すべて正しい情報が返ってきました。これぐらい簡単な表ならそのままのデータを Vertex AI Search に加えるだけで正解が返ってきますね!

パターン2:記号のあるシンプルな表を Vertex AI Search に加えてみる

社内の規定を含め記号で表現された表が多いですが、記号は RAG がもっとも苦手な要素の一つです。今回は記号を含めた表データをそのまま Vertex AI Search に加えたらどうなるのか、どういうふうに修正すれば精度が向上できるのかをみていきたいと思います。

表データをそのまま投入した場合

PDFにある以下の表を Vertex AI Search に加えて質問してみます。

パターン1で質問への回答以外の情報も返ってきたので、今回は質問への回答以外の情報は回答しないようにプロンプト修正してみました。

質問:2024年のモップの売上達成状況を教えてください。質問への回答以外の情報は回答しないでください。

回答のイメージです。

記号の意味は正しく読み取れたものの、回答は間違っていました。表データに含まれている記号は AI にとっては扱いにくい形となっています。それでは記号の代わりに文字へ変換したあと再度試してみます

クレンジング処理を実施

記号を説明文に置き換えてクレンジングしたデータのイメージです。

クレンジングした後のデータを投入して Vertex AI Search へ同じ質問をしてみます。

質問:2024年のモップの売上達成状況を教えてください。質問への回答以外の情報には回答しないでください。

回答のイメージです。

2024年Q1以外はすべて正しい情報が返ってきました。
改善されていますね!

Markdown(*) 形式へ変換

今回は表データを Markdown (MD) 形式へ変換して Vertex AI Search に加えてみます。

(*) Markdown(マークダウン)は、文書を記述するための軽量マークアップ言語の一つです。元々はプレーンテキスト形式で手軽に書いた文書からHTMLを生成するために開発されましたが、現在では様々な形式に変換可能で、多くのプラットフォームで利用されています。

簡単で覚えやすい、構造を簡単に表現できる、プレーンテキストとして読みやすいのが Markdown の特徴となります。

Markdown へ変換後のデータのイメージです。

Markdown 形式へ変換後のデータを投入して Vertex AI Search へ同じ質問をしてみます。

質問:2024年のモップの売上達成状況を教えてください。質問への回答以外の情報には回答しないでください。

回答のイメージです。

すべての回答内容が正解です!

今回はパターン1より少し複雑な表ですが、記号をなくすクレンジング作業と Markdown 形式へ変換する作業を行うことで精度向上が実現できました。

パターン3:記号のある複雑な表を Vertex AI Search に加えてみる

最後にPDFにセル結合が含まれる複雑な表を Vertex AI Search に加えて確認してみたいと思います。

質問:2024年Q1の文房具の売上達成状況を教えてください。質問への回答以外の情報には回答しないでください。

回答のイメージです。

ペンとノートは不正解ですが、ファイルとマーカーは正解です。回答内容の半分が正解ですね。

クレンジング& Markdown 形式へ変換

より複雑なクレンジング処理、凡例追加、Markdown 形式へ変換を実施し、RAG が扱いやすい形式に変換してみました。以下のデータのイメージです。

それでは上記の PDF ファイルを Vertex AI Search に投入して確認してみます。

質問:2024年Q1の文房具の売上達成状況を教えてください。質問への回答以外の情報には回答しないでください。

回答のイメージです。

回答の内容はすべて正解ですが、マーカーへの回答が漏れていますね。
Vertex AI Search のフォローアップ付き検索機能を有効にして、続けて質問してみます。

質問:文房具にほかの項目があったら、その項目の2024年Q1の売上達成状況を教えてください。質問への回答以外の情報には回答しないでください。

回答のイメージです。

回答内容が正解ですね!
ほかの項目=マーカーなので、マーカーだけ出してくれてもよいのに、すべて出してくれています。ポジティブな意味で「丁寧な回答」ですね。

プロンプト調整

フォローアップ付き検索もよいのですが、一回で正解を出してくれてほしいので、プロンプトを調整してみました。

質問:2024年Q1の文房具のすべての項目の売上達成状況を教えてください。質問への回答以外の情報には回答しないでください。

回答のイメージです。

一回の質問ですべての内容が正解ですね!
今回はクレンジングや Markdown 形式への変換だけでなく、プロンプト調整も工夫してみました。

まとめ

今回は簡単な表から複雑な表までさまざまな表データに対して精度を向上させるコツをご紹介しました。

記号はそのままでは意味を持たないため、RAG システムがその意味を解釈するのが難しくなります。シンボルグラウンディング問題とは、記号をその意味するものと結びつけることが必要であり、これが困難であることを指します。例えば、「△」という記号は「売上目標に近づいている」という意味を持ちますが、RAGシステムはこの記号の意味を理解できないため、正確な情報抽出や生成が困難になります。

もっとも複雑な表では結合セルを利用していますが、結合セルは、データの整合性を保つのが難しいため、RAGシステムが正確に解釈するのが困難になります。結合セルは通常、複数のセルを一つにまとめるため、データの位置や順序が変わることがあります。これにより、RAG がデータを正確に解析することが難しくなります。

そのほかにもデータ(例えば、日付データ等)フォーマットが一致しない場合や、メタデータが不足している場合も RAG システムが解読しにくくなります。

今回ご紹介したのは、マネージドの RAG - Vertex AI Search でできる現状の最善策として、表データを対象にデータの前処理を行うことで精度を向上させる方法をご紹介しました。その中でも、主にデータのクレンジングと Markdown 形式へ変換、表データの内容に従って、さらに RAG が扱いやすい形をとって、Vertex AI Search の精度向上を図りました。精度向上のためには、あとプロンプト調整も大事ですね!

当社では、Vertex AI Search を使った社内文書検索のできる無償サービス「Vertex AI DIY」プランを提供しており、日々最新の生成AI と技術を使った精度向上への取り組みも行っています。

次回は「Google スプレッドシートで Vertex AI Search を使った問い合わせシステムを構築、さらに Gemini を利用し回答を最適化してみた!」の記事をご紹介したいと思います。

お楽しみに!

Google Cloud Next Tokyo'24 に最上位スポンサーとして出展します!

SoftBank は Google Cloud Next Tokyo'24 に最上位スポンサーとして出展します

8/1-8/2にパシフィコ横浜ノースにて開催される Google 主催イベント、Google Cloud Next Tokyo'24 に最上位スポンサーとして出展いたします!

「生成 AI」をテーマにソフトバンクが実践している組織全体へ生成AIカルチャーを定着化させる取組みや、生成AI時代の快適なクラウド環境を実現するために必要な、高速・安定した通信、柔軟なネットワーク構成、セキュリティ対策まで、ソフトバンクの Google ソリューションの活用事例をご紹介します。

Google Cloud Next Tokyo ’24
2024年8月1日(木)~8月2日(金) 10時~17時30分(展示ブースは11時30分から)
パシフィコ横浜ノース 臨場開催 (地図
無料(全来場者登録入場制)
※入場にはオンラインでの事前登録が必要です。

詳細・ご登録は 公式サイト からお願いします。申し込みの際は以下の招待コードを入力ください。
招待コード:FY24nx_pt031

ソフトバンクブース内では、Looker をテーマにしたミニセッションやデモをご案内しています。
ブースでお待ちしております!

Vertex AI DIYプランについて

Vertex AI Search を使って社内文書を検索する生成 AI を構築してみませんか?
ソフトバンクのエンジニアが構築をサポートします。

Vertex AI DIY プランでは、以下の3つのことをご体験いただけます。
詳細は、関連サービスにある「Vertex AI DIYプラン」をご確認ください。

関連サービス

Vertex AI Search を使って社内文書を検索する生成AIを構築してみませんか?
ソフトバンクのエンジニアが構築をサポートします。
Google の生成AIの導入を考えている方はもちろん、どのようなものか確認したいという方でもご活用いただけます。

Looker は定義から集計、可視化の一連のデータ分析プロセスをカバーする BI ツールを超えるデータプラットフォームです。ソフトバンクは、顧客のニーズに合わせて柔軟なサポートを提供し、Looker を活用したデータドリブンな企業変革を支援しています。

Google サービスを支える、信頼性に富んだクラウドサービスです。お客さまのニーズにあわせて利用可能なコンピューティングサービスに始まり、データから価値を導き出す情報分析や、最先端の機械学習技術が搭載されています。

MSP(Managed Service Provider)サービスは、お客さまのパブリッククラウドの導入から運用までをトータルでご提供するマネージドサービスです。

おすすめの記事

条件に該当するページがございません