フォーム読み込み中
この記事は、ソフトバンクアドベントカレンダー2024 の6日目の記事です。
本記事では、Claude 3 SonnetおよびClaude 3.5 Sonnetを利用したRAGの精度比較の結果を紹介します。構造化データと非構造化データの2種類のドキュメントで精度比較を行っています。RAGの導入を検討している方、最新の生成AIの精度に興味を持っている方の参考になれば幸いです。
ClaudeはAnthropic社によって開発された生成AIモデルです。2024年3月にClaude 3が、2024年6月にClaude 3.5がリリースされました。
Claudeは上記の3や3.5といった各バージョン内に3つのモデルが含まれています。(Claude3.5に関しては10/22時点でHaikuとSonnetがリリースされています。)
本検証ではAmazon Bedrock Knowledge baseを利用しました。AWSのドキュメントを参考にして簡単にRAGを構築できます。個人的にはLLMやベクトルDBの構築・連携だけでなく、UI部分も提供される点が高く評価できます。
検証時点(24年10月ごろ)で利用可能だった以下のモデルを使用しました:
社内にRAGの精度評価用データセットがありましたのでそれを使うことにしました。
データセットの内容は以下の通りです。
抜粋にはなりますが、QA表を以下に記載します。
今回はこのデータセットを、2つのファイル形式でそれぞれ登録した場合の精度を検証しました。
QA表に記載されている質問をRAGに入力し、得られた回答と模範回答が同様の内容であれば正解、異なる内容であったり回答内容が足りなかった場合は不正解としました。
PDFファイルを登録したRAGの場合、Claude 3.5 Sonnet v1の精度が一番高い結果となりました。
Claude 3.5 Sonnet v2のリリースが一番遅かったので、その分精度が高くなると予想していたのですが、意外な結果となりました。必ずしも新しく出たモデルの精度が一番高くなるわけではないですね。
どのモデルとも40%台に留まり、精度自体はあまり高くないという印象です。
どのモデルもPDFファイルの場合と比べて大きな精度向上が見られました。
マークダウンファイルを登録したRAGの場合、Claude 3.5 Sonnet v1の精度が一番高く81%を記録しました。マークダウンを使うと、PDFの場合と違いClaude 3.5 Sonnet v2の精度もv1と比べて遜色ない精度が出ることが確認できました。
Claude 3と3.5の間で10%以上の差が出ており、バージョンアップ=性能向上=精度向上という感じです。
今回は以下の2種類のドキュメントをそれぞれ登録した場合の精度を検証しました。
PDFファイルとマークダウンファイルを登録している場合の検証を比較すると、マークダウン(構造化データ)を使ったほうが高い精度が出ることが確認できました。
また、PDFファイルを登録している場合の検証ではバージョン間での精度の差はあまりない結果となり、マークダウンファイルを登録している場合の検証では、Claude 3とClaude 3.5の間で10%以上の精度の向上が確認できました。
この結果から、RAGにおけるLLMの性能は、使用するデータの形式によって大きく左右すると考えられます。すなわち、DBから適切なデータを抽出できなければ、LLMの性能がどれほど高くてもその効果は限定的になる可能性があるということです。
RAGシステムを構築する際には、データを可能な限り構造化することが重要です。構造化データを用いることで、LLMが最大限の性能を発揮し、より正確な情報を提供することができます。RAGにおけるLLMの精度検証を行う際には、適切な検索結果をLLMに渡せる環境を整えることが重要です。
ソフトバンクではデータの構造化作業を支援するツール「RAGデータ作成ツール」を提供しています。RAGの精度向上にご興味がある方は、ぜひご相談ください。
生成AIの精度向上に直結するデータを効率的に構造化&精度評価。RAG環境での高速な検証が実施でき、企業の生成AI活用を強力にアシストします。
条件に該当するページがございません