Azure OpenAI Service On your dataで日本語の検索精度を向上させる方法

2023年8月28日掲載

Azure OpenAI Service の「On your data」を解説～日本語の検索精度を向上させる方法～

2023年１月（ChatGPT対応は３月）から提供が開始されたAzure OpenAI Service を企業内で使う場合、セキュアな通信環境が求められます。

このブログでは、Azure OpenAI Service の機能を自社データと連携するする方法について複数回に分けて紹介していきます。

第１回の記事では、Azure OpenAI Service の「On your data」機能で自社データを組み込んでみました。第２回となる今回は「日本語アナライザーの最適活用」と「プロンプトの向上」に焦点を当て、より高度な「On your data」の検索精度向上を試みました。

１.背景

前回の記事で触れましたが、「Upload files」機能を活用することで、手元に保持しているPDFファイルを容易にアップロードできます。この機能を利用することで、チャンク分割からインデックス作成までの一連のプロセスがワンクリックで自動的に実行され、GPTとのシームレスな連携が可能です。

しかしながら、「On your data」を介してCognitive Searchのインデックスを自動生成する場合、いくつかの課題が浮上します。

まず一つ目は「検索精度」です。「On your data」を経由してインデックスを作成する際に、contentフィールドの言語アナライザーがデフォルトで英語に設定されてしまいます。これにより、Cognitive Searchの日本語における検索精度が少し低下してしまいます。この問題は深刻ではありませんが、本番環境への展開に際しては、より一層の精度向上が求められるでしょう。

今回の記事では、検索精度向上のための対策をご紹介します。

日本語アナライザーの活用
contentフィールドに対して日本語専用のアナライザーを使用することで、検索精度を向上させることができます。適切なアナライザーを選択し、日本語テキストに特化した索引を作成することで、より正確な検索結果を得ることができます。
プロンプトの改善
ユーザが検索クエリを入力する際のプロンプトを改善することで、ユーザが求める情報を的確に抽出しやすくなります。適切なキーワードやフレーズを提示することで、ユーザエクスペリエンスを向上させることができます。

これらの対策を取ることで、Cognitive Searchの日本語における検索精度を向上させることが可能です。

Azure OpenAI Service の「On your data」を解説～日本語の検索精度を向上させる方法～：Cognitive Serch

２.プロンプト改善について

「On your data」のメカニズムでは、2つの主要な場面でプロンプトが活用されています。

クエリ生成時のプロンプト利用
ユーザの入力をもとに、Cognitive Searchへ投げるためのクエリを生成する際にプロンプトが使用されます。このプロセスにより、ユーザの意図を正確に捉えてクエリを構築し、最適な検索結果を得ることが可能です。
回答生成時のプロンプト利用
Cognitive Searchからの応答をもとに、ユーザに対して適切な回答を生成するためにもプロンプトが活用されます。これにより、ユーザが求める情報に基づいた意義深い回答を提供できます。

これらのプロンプトは、「On your data」のマネージド機能として隠されています。一般的なChatGPTでも利用可能なのは、"role": "system"というシステムプロンプト、およびCompletions extensions API内のroleInformationプロパティだけです。しかし、それぞれのプロンプトにはトークン数の制限があり（それぞれ200トークンと100トークン）、高度なコンテキストを提供するのは難しい場合もあります。

ちなみに、Azure OpenAI Studioの「Deploy to...」ボタンを使用して自動的にデプロイされるアプリは、すべて同じ値（環境変数：AZURE_OPENAI_SYSTEM_MESSAGE）を持つシステムプロンプトを使用しています。

システムプロンプトの例としては、以下のような推奨設定が公式ドキュメントで示されています。それぞれのトークン上限に留意しつつ、多言語サポートや最適なコンテキスト提供を考慮してプロンプトを選択することが重要です。

プロンプト例：「あなたは、情報の検索を支援する AI アシスタントです。日本語のドキュメントを取得し、それを日本語で注意深く読み、日本語で回答する必要があります。」

自前実装の場合、プロンプトを含むカスタム実装を行う際にはSemantic KernelやLangChainを活用するかどうかを検討することが重要です。これにより、効率的な実装が可能となります。

３.検証作業

3-1.データ準備ツール

公式提供のデータ準備ツールを使用すると、以下の手順で挙動します（PDFドキュメントの場合）。

ローカルのドキュメントをForm Recognizerを使用してテキスト化します。
テキストを適切なサイズに分割します（チャンク分割）。
分割されたテキストを利用して、Cognitive Searchのインデックスを作成します。

事前にCognitive SearchとForm Recognizerのセットアップが必要です。Cognitive Searchの価格プランについては、「Basic」プラン以上である必要があります。なお、Azure OpenAIとの連携は「Free」プランでは利用できませんので、予めご注意ください。

3-2.検証の流れ

Form Recognizer、Azure Cognitive Search、Azure OpenAI Service などのリソースを作成し、公式提供のデータ準備ツールを用いて検証用の電話料金資料を処理してインデックスを作成します。作成されたインデックスはChatGPTと連携してデプロイされ、質問をすることで動作確認を行います。