フォーム読み込み中
はじめまして、ソフトバンクで「TASUKI Annotation」というプロダクトを担当している徳江です。
アドベントカレンダーに参加して24日目、クリスマスイブの記事を担当しています。
普段はビジネスサイドの人間として、社内外の方と「どうすればデータをAI活用して業務を効率化できるか」についてディスカッションさせていただいています。
昨今、多くの企業で以下のようなプロジェクトが持ち上がっています。
「社内の膨大なマニュアルをAIに読ませて、RAGで問い合わせ対応を自動化したい」
「Agentに顧客対応の一次受けを任せたい」
そこでPoCをしてみると一定の成果が出るものの、本番運用に移行しようとすると法務・セキュリティ部門からデータ内の個人情報(Personally Identifiable Information、以下PII)の扱いに関する指摘が入り、プロジェクトが停滞する。こうした状況は珍しくありません。
生成AI活用が進む今、企業が解決しなければならないポイントは、「データに含まれる個人情報(PII)をどのように安全に扱うか」です。
本記事では、この課題の本質と、生成AI時代に不可欠となるマスキングの考え方、その実践方法について解説します。
生成AI(RAG/Agent)の導入を進めるDX担当者様
企業の現場で特にAI活用のニーズが高まっている領域の一つが、「コールセンター(CS)の対応履歴データ」です。
AI活用でこの領域に期待が集まる背景には、3つの理由があります。
人件費削減と効率化
慢性的な人手不足に加え、応対品質維持のための教育コストも増加する中、AIによる自動応答や通話後業務(After Call Work: ACW)の自動化によって、オペレーションコストを大幅に削減したいというニーズが高まっています。
膨大なデータ資産の蓄積
大手企業や大規模のコールセンターでは、日々数千〜数万件の通話ログがテキスト化され蓄積されており、すでにAI学習に適した大規模データが揃っていることが、大きなポテンシャルとなっています。
「カスタマーハラスメント」対策などのリスク管理
近年深刻化するカスハラに対し、感情分析によるオペレーター保護や、危険兆候の早期検知にAIを活用したいという要望が増えています。
しかし同時に、取り扱いに頭を悩ませているのもこの領域です。 なぜなら、会話ログの中には以下のような個人情報(PII)が不規則に含まれているからです。
お客さまの氏名
電話番号、住所
契約プランやクレジットカード情報の一部
これらを加工せずにAIへ渡すことはリスクが高いため、マスキングが有用となります。
データマスキングとは、元の文字や数字をそのまま外部に見せないよう、個人を特定できない形式へと置き換える処理を指します。特に、PIIと呼ばれる、氏名、電話番号、住所、マイナンバー、クレジットカード番号などの特定の個人を識別できる情報を保護するために用いられます。
AI活用において、マスキングには大きく2つのアプローチがあります。
例:田中 太郎 →
従来の手法。情報は完全に消えますが、AIは前後の文脈を失います。
例:田中 太郎 → [PERSON_A]
特定のルールに基づいて、個人を特定できない別の識別子に置き換えます。AI時代の主流はこちらです。
企業がマスキングを徹底しなければならない理由は、「セキュリティリスク」と「経営リスク」の観点にあると考えています。
近年、サプライチェーン攻撃やAIプロバイダーを狙ったサイバー攻撃のリスクは高まり続けています。もし、サービス提供側でセキュリティインシデントが発生し、データが流出した場合どうなるでしょうか?
未加工データの場合: 顧客の氏名、住所、電話番号がそのまま流出し、取り返しのつかない被害となります 。
マスキング済みの場合: 流出するのは「[顧客A]」といった意味のない記号の羅列だけであり、実質的な被害を防げます。
マスキングは、完全にリスクをゼロにするものではありませんが、「万が一の際の影響を最小限に抑えるための現実的な施策」として、多くの企業が導入を検討しています。
個人情報保護法や欧州のGDPR(EU一般データ保護規則)など、世界的にプライバシー保護の規制は厳格化しています。 特にGDPRでは、違反した場合に巨額の制裁金が科される可能性があります。日本企業であっても、グローバルにビジネスを展開している場合は、無関係ではありません。
また、金銭的なダメージ以上に恐ろしいのが「レピュテーション(評判)リスク」です。 「あの企業は、顧客のプライバシー情報をそのままAIに流していた」という事実は、一度広まればブランドイメージを失墜させ、顧客の信頼を回復するには長い年月を要します 。 企業としてAIを活用する以上、「そもそも漏洩して困るデータは社外に出さない」という管理体制が、経営を守るための必須条件となります。
上述のようなセキュリティ・経営リスクを回避するためのマスキングについて、「Microsoft PresidioのようなOSSや、正規表現(Regex)を使って自動変換すれば解決するのでは?」 と思われる方もいらっしゃるかもしれません。
しかし、これらの既存技術を日本の商用レベルで扱おうとすると、どうしても機械的な判定だけでは超えられない「4つの壁」に直面します 。
ルールベース(正規表現)での定義が困難な、日本独自の文字環境の問題です 。
単語そのものではなく、前後の文脈によって意味が変わるため、汎用的なNER(固有表現抽出)モデルが誤判定を起こす問題です 。
一般的な辞書や学習モデルに含まれていない、企業固有の情報の問題です 。
特にコールセンターなどのデータに見られる、データ自体の品質の問題です 。
これらの壁は複合的に絡み合い、自動マスキングの精度を著しく低下させる要因となります。
これらの4つの壁を突破するために、私たちTASUKI Annotationでは、AIと人で下記のように役割分担しシステム自体を賢くしていく「自律改善ループ」の構築を目指しています。
AIの役割: 膨大なデータを高速に処理し、既知のパターンを効率的に捌く。
人間の役割: AIが判断に迷う「文脈依存の高いケース」や「未知のエンティティ」に対して、高度な判断を下す。
重要なのは、人間が修正した結果を単なる事後処理で終わらせず、自律的に精度を高めていくサイクルを回すことです。「AIのミス」を人間がフォローし、それを学習させることで、今度はAIが正解できるようになる。このサイクルで、運用コストを抑えながらも、マスキング精度を継続的に向上させていきます。
個人情報の取り扱いはAIプロジェクトの推進における大きなハードルですが、データを安全に流通させるパイプラインさえ確立できれば、企業の資産である社内データをフル活用できるようになります。私たちTASUKI Annotationは現在、そんな社会の実現に向けて様々な検証を進めております。
「AIプロジェクトを推進したいが、社内データの個人情報処理で困っている」
そのような課題をお持ちの方は、ぜひ一度TASUKIにご相談ください。
明日は、25日目最終日のアドベントカレンダーもおたのしみに!
TASUKI Annotation RAGデータ作成ツールは、RAGを高度に活用する際に課題となるポイントをテクノロジーで支援するツールです。
RAGに関する知見がなくても、社内データを活用した精度の高いRAG回答生成を簡単に得ることが可能です。
図表資料も“分かるAI”へ、データ構造化の内製化をツールで実現
条件に該当するページがございません