構造化データと非構造化データでClaudeのRAG回答精度を比較検証してみた

2024年12月6日掲載

キービジュアル

この記事は、ソフトバンクアドベントカレンダー2024 の6日目の記事です。

本記事では、Claude 3 SonnetおよびClaude 3.5 Sonnetを利用したRAGの精度比較の結果を紹介します。構造化データと非構造化データの2種類のドキュメントで精度比較を行っています。RAGの導入を検討している方、最新の生成AIの精度に興味を持っている方の参考になれば幸いです。

目次

Claudeとは

ClaudeはAnthropic社によって開発された生成AIモデルです。2024年3月にClaude 3が、2024年6月にClaude 3.5がリリースされました。

Claudeは上記の3や3.5といった各バージョン内に3つのモデルが含まれています。(Claude3.5に関しては10/22時点でHaikuとSonnetがリリースされています。)

  • Haiku
    業界トップクラスのスピードで軽量な操作を実行できるモデル
  • Sonnet
    効率的で高いスループットのタスクに最適な、パフォーマンスとスピードのベストな組み合わせのモデル
  • Opus
    複雑な分析、多くのステップを要する長いタスク、高次の数学やコーディングのタスクを処理できる最高性能のモデル
ClaudeFamily

検証環境

本検証ではAmazon Bedrock Knowledge baseを利用しました。AWSのドキュメントを参考にして簡単にRAGを構築できます。個人的にはLLMやベクトルDBの構築・連携だけでなく、UI部分も提供される点が高く評価できます。

検証時点(24年10月ごろ)で利用可能だった以下のモデルを使用しました:

  • Claude 3 Sonnet
  • Claude 3.5 Sonnet v1
  • Claude 3.5 Sonnet v2

検証用データセット

社内にRAGの精度評価用データセットがありましたのでそれを使うことにしました。

データセットの内容は以下の通りです。

  • ドキュメント
    "テキスト"、"表"、"図"、"画像埋め込みの図"を含む13個のファイル
  • QA表
    "正解/不正解"、"質問"、"RAGからの回答"、"模範回答"をまとめた表
    ("テキスト"、"表"、"図"、"画像埋め込みの図"に関する質問が各25問ずつ用意されている)

抜粋にはなりますが、QA表を以下に記載します。

QAlist

今回はこのデータセットを、2つのファイル形式でそれぞれ登録した場合の精度を検証しました。

  • PDFファイル(非構造化データ)
  • マークダウンファイル(構造化データ)

正解/不正解の判断

QA表に記載されている質問をRAGに入力し、得られた回答と模範回答が同様の内容であれば正解、異なる内容であったり回答内容が足りなかった場合は不正解としました。

結果

PDFファイルを登録したRAGの精度

 unstructured data result

PDFファイルを登録したRAGの場合、Claude 3.5 Sonnet v1の精度が一番高い結果となりました。

Claude 3.5 Sonnet v2のリリースが一番遅かったので、その分精度が高くなると予想していたのですが、意外な結果となりました。必ずしも新しく出たモデルの精度が一番高くなるわけではないですね。

どのモデルとも40%台に留まり、精度自体はあまり高くないという印象です。

マークダウンファイルを登録したRAGの精度

 structured data result

どのモデルもPDFファイルの場合と比べて大きな精度向上が見られました。

マークダウンファイルを登録したRAGの場合、Claude 3.5 Sonnet v1の精度が一番高く81%を記録しました。マークダウンを使うと、PDFの場合と違いClaude 3.5 Sonnet v2の精度もv1と比べて遜色ない精度が出ることが確認できました。

Claude 3と3.5の間で10%以上の差が出ており、バージョンアップ=性能向上=精度向上という感じです。

まとめ

今回は以下の2種類のドキュメントをそれぞれ登録した場合の精度を検証しました。

  • PDFファイル(非構造化データ)
  • マークダウンファイル(構造化データ)

PDFファイルとマークダウンファイルを登録している場合の検証を比較すると、マークダウン(構造化データ)を使ったほうが高い精度が出ることが確認できました。

また、PDFファイルを登録している場合の検証ではバージョン間での精度の差はあまりない結果となり、マークダウンファイルを登録している場合の検証では、Claude 3とClaude 3.5の間で10%以上の精度の向上が確認できました

この結果から、RAGにおけるLLMの性能は、使用するデータの形式によって大きく左右すると考えられます。すなわち、DBから適切なデータを抽出できなければ、LLMの性能がどれほど高くてもその効果は限定的になる可能性があるということです。

RAGシステムを構築する際には、データを可能な限り構造化することが重要です。構造化データを用いることで、LLMが最大限の性能を発揮し、より正確な情報を提供することができます。RAGにおけるLLMの精度検証を行う際には、適切な検索結果をLLMに渡せる環境を整えることが重要です。

ソフトバンクではデータの構造化作業を支援するツール「RAGデータ作成ツール」を提供しています。RAGの精度向上にご興味がある方は、ぜひご相談ください。

関連サービス

生成AIの精度向上に直結するデータを効率的に構造化&精度評価。RAG環境での高速な検証が実施でき、企業の生成AI活用を強力にアシストします。

おすすめの記事

条件に該当するページがございません