フォーム読み込み中
ソフトバンク アドベントカレンダー 2024 19日目の記事を担当する中村です。
普段は、TASUKI AnnotationというAIを構築するためのデータ作成代行、データコンサル、データ構造化ツールの事業開発に関わっています。
ChatGPTの登場により、大規模言語モデル(LLM)などの生成AIを業務で活用する案件が増加しています。特に、企業独自の非公開データをRAGを用いて回答させたいと考えるお客様が増えています。
しかし、RAGの回答精度が課題となり業務への本導入の決断が進まない、こんなご相談が増えています。
そういった課題にソフトバンクは RAG回答精度向上を支援する「TASUKI Annotation」サービスを提供しています。
本記事では、TASUKI事業での支援事例から、最も精度向上に紐づきやすいデータに基づく有効な改善 Tip など具体的な改善への取組みを紹介します。
本記事は10月24 日(木)にベルサール渋谷ファーストにて開催された、AIに特化したリアルイベント「Google Cloud Generative AI Summit Tokyo ’24 Fall」で登壇させていただいた内容の中でもRAGの精度改善に最も必要なデータ改善のパートのみ抜粋して記事化しています。
ご存じの方は多いかと思いますが、生成AIで社内のデータを活用するために、注目されているのが、RAGという外部情報を取り込むAIアーキテクチャです。RAGを用い、あらかじめ連携させたい社内ドキュメントをデータベースに保存しておくことで、その質問に関連するデータを検索して、そのデータに基づいた回答を生成してくれます。
例をあげると、「交通費精算の方法を教えて」と質問すると企業特有の精算方法などを回答することができます。
RAGの精度向上のためのポイントはいくつか存在します。
その中でも精度向上の肝であるのが「RAGに適した形式にデータを前処理すること」です。
「Generative AI Summit」にて登壇した内容をウェビナーでも視聴できるようにしています。データ観点以外でのRAGの精度改善Tipsをお知りになりたい方は、
無料ウェビナー:RAGの回答精度改善にお悩みの方必見
回答精度を75%向上させたノウハウを事例と共に公開
からご覧ください。
データ改善は以下の順番でおこなうことを推奨しています。
それぞれのプロセスの説明と、注意点を順に説明します。
データクレンジングとは、データセットから不正確、不完全、または不要なデータを取り除き、精度と品質を向上させるプロセスです。
特にPDFはクレンジングの処理が必要なことが多く、以下に上げるような処理が必要です。
チャンク分割とは、大量のデータやテキストを扱いやすい小さな部分(チャンク)に分割するプロセスです。これにより、データ処理や分析の効率が高まります。
チャンク分割に関しては、”適切な意味の区切りで分割すること”が重要です。
よくない例をあげますと、文の途中で終わっていて意味が通じないチャンクになっている、チャンクサイズが不適切、などがあります。
また、チャンクに関してはコンピュータが理解しやすい記法で回答精度が向上する傾向が見られるので、特に図や表などのデータはMarkdownなどで記載することを推奨しています。
文書検索に必要な情報を付加することで回答精度が向上する傾向があるため、イラストやポスターなどの文言情報が少ない場合に情報を付加したり、元文書からチャンクに変換した後、それぞれのチャンクの位置付けなどを記載すると精度が向上しやすいです。
データに適した適切な前処理を行うデータ改善はかなり効果があることが分かっています。
構造化データと非構造化データ(前処理をしていないデータ)での精度比較の検証結果を以下の記事で公開しておりますので、モデルの選択・データ改善の効果の参考にしてください。
ここまで、RAGに格納するデータの前処理の一連のプロセスについて紹介させていただきました。
これらの手法を用いることによって、より回答精度の高いRAGを構築できますが、実際には以下の課題や工数が発生することが多いです。
各データ前処理のステップには高度なデータサイエンスや機械学習の知識が要求されます。
データのクレンジングや情報の付加は非常に手間がかかり、膨大な工数が必要です。
また、データを作成するだけでなく、作成したデータを用いた回答精度の検証や誤りがある回答の参照データの特定が必要なため、より多くの工数が必要になるケースが多いです。
このように、RAGの回答精度を向上させるために自社のリソース・外部ツールなしでデータの前処理を実行しようとすると多くの課題に直面することになります。
RAG精度向上において、”データ改善”が重要であると説明してきましたが、この"データ改善"は非常にコストの掛かる作業です。現在の社内にある情報の多くは非構造化データですので、これをすべて構造化データに変更していくのは、非常に工数がかかることは想像できると思います。
そんなときに思い出してほしいのが、TASUKI Annotaion が提供している生成AIに関するデータサービス「生成AI用データ構造化代行サービス」と「RAGデータ作成ツール」です。
お客さまからRAGに取り込んで頂いたデータをお預かりし、回答精度が低いデータに関してデータ構造化処理を支援します。
また、単純なデータ構造化処理のみならず、キックオフでお客さまの課題を吸い上げ、アクション方針を決定・お客さまに合意頂いたうえで、プロジェクトとしてお客様とのゴールを設定させて頂きます。
その後、現在地の確認をし、現状分析〜回答精度の向上に関して伴走型として支援します。
ビジネスシーンで利用するデータの構造化は人手を介した作業が最も効果があるのは事実ですが、非常に工数がかかるという課題もあります。
RAGデータ作成ツールでは、TASUKIの構造化ナレッジを搭載した機能を利用でき、お客さま自身で工数を多くかけずにデータ構造化や精度評価を行うことができます。
〇テキスト化機能
ツール内に、ファイルを投入頂くだけで自動でテキスト化とチャンキングを行います。ファイル投入後にテキスト化を確認し、精度検証テストを実施し、現在地の把握、そこから改善に向けたアクションに移行できます。
〇精度評価機能
自動テキスト化後に精度検証テストがツール内で行えます。あらかじめ質問と模範解答をCSVでインポート、もしくは入力します。その後、ワンボタンで簡単に精度検証テストをおこなうことができます。
回答引用元のデータ、チャンクも紐づいており、画面上で確認できますので、簡単に確認や修正対応ができます。
〇図表構造化サポート機能
精度検証テストで回答が誤りであった図表やグラフなどのデータ構造化をサポートします。対象の図表を選択することで、図表に近似した構造サンプルが画面上で提案され、構造化例に沿った手動対応が可能となります。データに適した手法を提案しますので、試行錯誤が発生せず、工数をかけることなく対応ができます。
RAGの回答精度を改善するためのデータ改善手法を紹介し、具体的な工程としてデータクレンジング、チャンク分割、記法の工夫、情報付加の重要性を説明しました。
また、それぞれのプロセスでの注意点や課題についても詳細に解説しました。
ソフトバンクでは、生成AIの活用やRAGの性能改善を支援する「TASUKI Annotation」サービスを提供しています。具体的には、データ構造化代行やRAGデータ作成ツールを通じて、効率的に高精度なRAGを構築するサポートを行っています。RAGの回答精度改善にお困りの企業の方がいましたら、ぜひソフトバンクにご相談ください。
それでは、ソフトバンク アドベントカレンダー 2024 20日目にバトンを渡します。
TASUKI Annotation RAGデータ作成ツールは、RAGを高度に活用する際に課題となるポイントをテクノロジーで支援するツールです。
RAGに関する知見がなくても、社内データを活用した精度の高いRAG回答生成を簡単に得ることが可能です。
条件に該当するページがございません