フォーム読み込み中
ソフトバンク アドベントカレンダー 2025 22日目の記事を担当する宮﨑です。
普段は、RAGの回答精度向上を支援するデータ構造化ツール「TASUKI Annotation」の研究開発や技術調査を担当しています。
近年、大規模言語モデル(LLM)の進化に伴い、RAG(Retrieval-Augmented Generation)技術を活用した社内におけるAI利活用が注目されています。特に、複雑なデータ間の関係性を扱う際にその真価を発揮するのが、グラフデータベースとRAGを組み合わせたGraphRAGです。
本記事では、「GraphRAGとは何か?」という基本的な問いから始め、Amazon Web Services(AWS)環境での実践的な構築を通して、GraphRAGが持つ可能性を探ります。具体的には、GraphRAGの実践に焦点を当て、データ間の「関係性」を構造化して活用するGraphRAGのコンセプト、アーキテクチャ、そして業種を問わず活用できる具体的なメリットと検証を通して分かる強みについて解説します。
本記事がGraphRAGについて理解したい方や、より高度なRAGシステム構築に関心のある方にとって、実践的な指針となることを目指します。
RAG(Retrieval-Augmented Generation)は、LLMが社内のナレッジや外部の知識ベースから必要な情報を検索し、その文脈をもとに回答を生成する仕組みです。特にベクトル検索を用いた「類似度にもとづく情報取得」は柔軟性が高く、幅広い業務で即効性のある検索改善手法として活用されています。
一方で、業務ナレッジの高度化や複雑化に伴い、従来のRAGでは十分に対応しきれないケースも増えています。以下に従来型RAGの特徴と課題をリストアップします。
従来のRAGは質問クエリと文書との類似度検索が中心で、業務で頻出する質問クエリと文書間の関係性を前提とした知識を十分に扱えません。
こうした課題に対応するため、データ間の関連性を構造化してRAGに取り込み、より高度な推論を実現するメカニズムとして、GraphRAGが注目を集めています。
GraphRAGはもともとMicrosoft Researchによって提唱・検証が進められた手法で、従来のRAGの課題を補うためにテキストから知識グラフを自動抽出し、推論に活用するアプローチとして登場しました。大規模言語モデルが文書の構造理解に長けるようになったことで、関係性を中心に据えた検索・推論が現実的になり、GraphRAGは新しいRAGの形として広く注目されるようになっています。
GraphRAGは、知識グラフ(Knowledge Graph)を用いて「データ同士の関係性」を表現し、それを検索・推論に活かすことで、従来のRAGでは難しかった複雑な問い合わせやマルチドキュメントの推論に対応できる点が特徴です。
GraphRAGの核心は、文書を「単なるテキストの集合」ではなく、
ノード(実体):人物、組織、製品、概念など
エッジ(関係):属する、依存する、関連する、時系列の順序など
として構造化し、グラフとして表現する点にあります。
LLM は、その知識グラフを参照しながら「どの情報がどことつながるか?」を理解し、文書間の文脈を横断した推論を行えるようになります。
ここまでGraphRAGの背景や従来型RAGとの概念的な違いを整理してきましたが、実際にどのように構築するのか気になった方も多いのではないでしょうか?本章以降では、AWS(Amazon Web Services)を活用してサクッと実装できるGraphRAGを構築し、その検証結果を紹介します。
GraphRAGというと専門的な知識グラフ基盤が必要となり、実装ハードルが高いイメージがありますが、AWSのサービスを利用することで意外とシンプルに始めることができます。
AWSでGraphRAGを構築する場合、以下のようなサービスを利用します。
また、以下のサービス・構成は1つの構築例です。
| サービス名 | 役割 |
|---|---|
| Amazon S3 | 知識グラフのデータソース。 |
| Amazon Bedrock | LLMによるデータソース・質問クエリの解析・知識グラフに基づく回答生成を行う。
|
| Amazon Neptune | 知識グラフを保管・クエリ探索するデータベース。 |
| Amazon SageMaker AI | Amazon Neptuneで構築した知識グラフをNotebook上で可視化する。 |
上記の構成で構築した場合のフローは以下です。
今回の実装では、TASUKIのホームページをTASUKI Annotationでテキスト構造化データに変換したものをデータソースとして取り込みました。
構築した知識グラフをAmazon SageMaker AIで可視化してみた結果が以下の画像です。関連性の高いワードほど接続しているノードが多く、ホームページ上で頻出している「ソフトバンク」や「AI」という単語が他のノードと関連度が高いことが分かります。
本検証では従来型RAGをAmazon OpenSearch Serverlessで作成し、GraphRAGと回答内容を比較しました。回答用のLLMはどちらもAnthropic Claude Sonnet 4.5を使い、その他のパラメータはすべてデフォルト状態のものを利用します。
また、知識グラフ作成時に用いるLLMは、執筆時点(2025年12月22日)でAnthropic Claude 3 Haikuのみ利用できます。
質問:
自社のユースケースにTASUKI Annotationが適しているかどうかを確認するにはどうすれば良いですか?
考察:
「こちら」という文言が実際のホームページではハイパーリンク付きのテキストであるため、リンク先のページ内容を回答に含めるべきです。しかし、ページ間の関連性が取れていないため、曖昧な回答をしています。
考察:
関連性のあるチャンクを跨いで複数取得できており、正確かつ具体的な回答ができています。
質問:
RAGを全社的に広げるうえで、TASUKI Annotationではどんな種類の壁があると整理していますか?
考察:
一見正解しているようですが、データベースから正しいチャンクを取得できていません。本来、参照すべき文書とは別文書を参照しています。そのため、ハルシネーション(幻覚)を起こしています。
考察:
質問クエリ内のキーワードとの関連性を考慮した上でチャンクを取得し、正しい回答をすることができています。
本記事では、従来型RAGとGraphRAGをマルチホップな質問と曖昧かつ抽象的な質問の2パターンに対してAWS上で構築し、検証しました。
その結果、従来型RAGではデータ間の関連性を十分に捉えられず、ハルシネーションが発生しやすいという課題が明らかになりました。一方、GraphRAGではこれらの質問に正確に回答できることを確認しました。
GraphRAGは知識グラフの更新・運用において一定のコストがかかるという課題はあるものの、ユースケースによっては非常に高い効果を発揮します。
AWSで非常に簡単にGraphRAGを構築できるので、自社データを使ってGraphRAGの効果を検証したい方は、この記事を参考にぜひトライしてみてください。
また、TASUKIではデータ構造化サービスの提供に加えて、今回のGraphRAGをはじめとするRAG導入支援も行っています。RAGの構築・運用でお悩みの企業の方は、ぜひソフトバンクまでご相談ください。
それでは、ソフトバンク アドベントカレンダー 2025 23日目にバトンを渡します。
TASUKI Annotation RAGデータ作成ツールは、RAGを高度に活用する際に課題となるポイントをテクノロジーで支援するツールです。
RAGに関する知見がなくても、社内データを活用した精度の高いRAG回答生成を簡単に得ることが可能です。
条件に該当するページがございません