RAGの回答精度改善に最も必要なデータ改善のイロハ〜75%の精度向上させた秘訣～

TASUIKI事業部エンジニア
中村友哉

2024年12月19日掲載

ソフトバンクアドベントカレンダー 2024 19日目の記事を担当する中村です。

普段は、TASUKI AnnotationというAIを構築するためのデータ作成代行、データコンサル、データ構造化ツールの事業開発に関わっています。

ChatGPTの登場により、大規模言語モデル（LLM）などの生成AIを業務で活用する案件が増加しています。特に、企業独自の非公開データをRAGを用いて回答させたいと考えるお客様が増えています。

しかし、RAGの回答精度が課題となり業務への本導入の決断が進まない、こんなご相談が増えています。

そういった課題にソフトバンクは RAG回答精度向上を支援する「TASUKI Annotation」サービスを提供しています。

本記事では、TASUKI事業での支援事例から、最も精度向上に紐づきやすいデータに基づく有効な改善 Tip など具体的な改善への取組みを紹介します。

本記事は10月24 日（木）にベルサール渋谷ファーストにて開催された、AIに特化したリアルイベント「Google Cloud Generative AI Summit Tokyo ’24 Fall」で登壇させていただいた内容の中でもRAGの精度改善に最も必要なデータ改善のパートのみ抜粋して記事化しています。

LLMやRAGをこれから業務活用したいと考えている方や企業担当者に向けた記事です。
RAGを業務利用する際に、つまずきやすいデータの前処理・構造化の重要性について記載しています。
データ前処理の有効な順序やそれぞれのプロセスでの注意点が分かります。

RAGの概要と回答精度向上しやすい改善ポイント

ご存じの方は多いかと思いますが、生成AIで社内のデータを活用するために、注目されているのが、RAGという外部情報を取り込むAIアーキテクチャです。RAGを用い、あらかじめ連携させたい社内ドキュメントをデータベースに保存しておくことで、その質問に関連するデータを検索して、そのデータに基づいた回答を生成してくれます。

例をあげると、「交通費精算の方法を教えて」と質問すると企業特有の精算方法などを回答することができます。

RAGの精度向上のためのポイントはいくつか存在します。

プロンプトの改善
クエリ拡張の使用
ドキュメント検索手法の改善
ベクトル化手法の改善
LLMモデルの変更
RAGに適した形式にデータを前処理すること

その中でも精度向上の肝であるのが「RAGに適した形式にデータを前処理すること」です。

データ改善の有効な順番と注意点

データ改善は以下の順番でおこなうことを推奨しています。

データのクレンジング
チャンクの分割
記法の工夫
検索しやすい情報の付与

それぞれのプロセスの説明と、注意点を順に説明します。

1. データクレンジング

データクレンジングとは、データセットから不正確、不完全、または不要なデータを取り除き、精度と品質を向上させるプロセスです。

特にPDFはクレンジングの処理が必要なことが多く、以下に上げるような処理が必要です。

意図しない文言の削除(白文字・ページ外の文字等)
文字間に含まれる文字の除去(スペースなど)
ノイズとなるページ数などのデータの除去
(OCR等で読み込んだ後)適正に読み込まれなかった文章の改修

2. チャンク分割

チャンク分割とは、大量のデータやテキストを扱いやすい小さな部分（チャンク）に分割するプロセスです。これにより、データ処理や分析の効率が高まります。

チャンク分割に関しては、”適切な意味の区切りで分割すること”が重要です。

よくない例をあげますと、文の途中で終わっていて意味が通じないチャンクになっている、チャンクサイズが不適切、などがあります。

3. 記法工夫

また、チャンクに関してはコンピュータが理解しやすい記法で回答精度が向上する傾向が見られるので、特に図や表などのデータはMarkdownなどで記載することを推奨しています。

4. 情報付加

文書検索に必要な情報を付加することで回答精度が向上する傾向があるため、イラストやポスターなどの文言情報が少ない場合に情報を付加したり、元文書からチャンクに変換した後、それぞれのチャンクの位置付けなどを記載すると精度が向上しやすいです。

データ改善の効果検証

データに適した適切な前処理を行うデータ改善はかなり効果があることが分かっています。

構造化データと非構造化データ（前処理をしていないデータ）での精度比較の検証結果を以下の記事で公開しておりますので、モデルの選択・データ改善の効果の参考にしてください。

RAG回答精度向上支援サービス

RAG精度向上において、”データ改善”が重要であると説明してきましたが、この"データ改善"は非常にコストの掛かる作業です。現在の社内にある情報の多くは非構造化データですので、これをすべて構造化データに変更していくのは、非常に工数がかかることは想像できると思います。

そんなときに思い出してほしいのが、TASUKI Annotaion が提供している生成AIに関するデータサービス「生成AI用データ構造化代行サービス」と「RAGデータ作成ツール」です。

データ構造化代行

お客さまからRAGに取り込んで頂いたデータをお預かりし、回答精度が低いデータに関してデータ構造化処理を支援します。

また、単純なデータ構造化処理のみならず、キックオフでお客さまの課題を吸い上げ、アクション方針を決定・お客さまに合意頂いたうえで、プロジェクトとしてお客様とのゴールを設定させて頂きます。

その後、現在地の確認をし、現状分析〜回答精度の向上に関して伴走型として支援します。

RAGデータ作成ツール

ビジネスシーンで利用するデータの構造化は人手を介した作業が最も効果があるのは事実ですが、非常に工数がかかるという課題もあります。

RAGデータ作成ツールでは、TASUKIの構造化ナレッジを搭載した機能を利用でき、お客さま自身で工数を多くかけずにデータ構造化や精度評価を行うことができます。

〇テキスト化機能

ツール内に、ファイルを投入頂くだけで自動でテキスト化とチャンキングを行います。ファイル投入後にテキスト化を確認し、精度検証テストを実施し、現在地の把握、そこから改善に向けたアクションに移行できます。

〇精度評価機能

自動テキスト化後に精度検証テストがツール内で行えます。あらかじめ質問と模範解答をCSVでインポート、もしくは入力します。その後、ワンボタンで簡単に精度検証テストをおこなうことができます。

回答引用元のデータ、チャンクも紐づいており、画面上で確認できますので、簡単に確認や修正対応ができます。

〇図表構造化サポート機能

精度検証テストで回答が誤りであった図表やグラフなどのデータ構造化をサポートします。対象の図表を選択することで、図表に近似した構造サンプルが画面上で提案され、構造化例に沿った手動対応が可能となります。データに適した手法を提案しますので、試行錯誤が発生せず、工数をかけることなく対応ができます。

まとめ

RAGの回答精度を改善するためのデータ改善手法を紹介し、具体的な工程としてデータクレンジング、チャンク分割、記法の工夫、情報付加の重要性を説明しました。
また、それぞれのプロセスでの注意点や課題についても詳細に解説しました。

ソフトバンクでは、生成AIの活用やRAGの性能改善を支援する「TASUKI Annotation」サービスを提供しています。具体的には、データ構造化代行やRAGデータ作成ツールを通じて、効率的に高精度なRAGを構築するサポートを行っています。RAGの回答精度改善にお困りの企業の方がいましたら、ぜひソフトバンクにご相談ください。

それでは、ソフトバンクアドベントカレンダー 2024　20日目にバトンを渡します。

RAGの回答精度改善に最も必要なデータ改善のイロハ〜75%の精度向上させた秘訣～

RAGの概要と回答精度向上しやすい改善ポイント

データ改善の有効な順番と注意点

1. データクレンジング

2. チャンク分割

3. 記法工夫

4. 情報付加

データ改善の効果検証

関連記事リンク

RAG回答精度向上支援サービス

データ構造化代行

RAGデータ作成ツール

まとめ

関連サービス

TASUKI Annotation RAGデータ作成ツール

関連セミナー・イベント

＼業務課題をデジタルで支援／

おすすめの記事

RAGの回答精度改善に最も必要なデータ改善のイロハ 〜75%の精度向上させた秘訣～

RAGの概要と回答精度向上しやすい改善ポイント

データ改善の有効な順番と注意点

1. データクレンジング

2. チャンク分割

3. 記法工夫

4. 情報付加

データ改善の効果検証

関連記事リンク

RAG回答精度向上支援サービス

データ構造化代行

RAGデータ作成ツール

まとめ

関連サービス

TASUKI Annotation RAGデータ作成ツール

関連セミナー・イベント

＼ 業務課題をデジタルで支援 ／

おすすめの記事

RAGの回答精度改善に最も必要なデータ改善のイロハ〜75%の精度向上させた秘訣～

＼業務課題をデジタルで支援／