日本企業のAI活用における「マスキング」とは? RAG/Agent時代に必要不可欠なデータ保護

2025年12月24日掲載

キービジュアル

はじめまして、ソフトバンクで「TASUKI Annotation」というプロダクトを担当している徳江です。

アドベントカレンダーに参加して24日目、クリスマスイブの記事を担当しています。

普段はビジネスサイドの人間として、社内外の方と「どうすればデータをAI活用して業務を効率化できるか」についてディスカッションさせていただいています。

昨今、多くの企業で以下のようなプロジェクトが持ち上がっています。

「社内の膨大なマニュアルをAIに読ませて、RAGで問い合わせ対応を自動化したい」

「Agentに顧客対応の一次受けを任せたい」

そこでPoCをしてみると一定の成果が出るものの、本番運用に移行しようとすると法務・セキュリティ部門からデータ内の個人情報(Personally Identifiable Information、以下PII)の扱いに関する指摘が入り、プロジェクトが停滞する。こうした状況は珍しくありません。

生成AI活用が進む今、企業が解決しなければならないポイントは、「データに含まれる個人情報(PII)をどのように安全に扱うか」です。

本記事では、この課題の本質と、生成AI時代に不可欠となるマスキングの考え方、その実践方法について解説します。

目次

【本記事はこんな方におすすめです】
  • 生成AI(RAG/Agent)の導入を進めるDX担当者様

  • 個人情報を含むデータを、生成AIで活用したい方

「コールセンターデータ」活用の課題

企業の現場で特にAI活用のニーズが高まっている領域の一つが、「コールセンター(CS)の対応履歴データ」です。

AI活用でこの領域に期待が集まる背景には、3つの理由があります。

  • 人件費削減と効率化 

慢性的な人手不足に加え、応対品質維持のための教育コストも増加する中、AIによる自動応答や通話後業務(After Call Work: ACW)の自動化によって、オペレーションコストを大幅に削減したいというニーズが高まっています。

  • 膨大なデータ資産の蓄積 

大手企業や大規模のコールセンターでは、日々数千〜数万件の通話ログがテキスト化され蓄積されており、すでにAI学習に適した大規模データが揃っていることが、大きなポテンシャルとなっています。

  • 「カスタマーハラスメント」対策などのリスク管理 

近年深刻化するカスハラに対し、感情分析によるオペレーター保護や、危険兆候の早期検知にAIを活用したいという要望が増えています。

個人情報が不規則に含まれることが大きな課題

しかし同時に、取り扱いに頭を悩ませているのもこの領域です。 なぜなら、会話ログの中には以下のような個人情報(PII)が不規則に含まれているからです。

  • お客さまの氏名

  • 電話番号、住所

  • 契約プランやクレジットカード情報の一部

これらを加工せずにAIへ渡すことはリスクが高いため、マスキングが有用となります。

そもそも「マスキング」とは何か?

データマスキングとは、元の文字や数字をそのまま外部に見せないよう、個人を特定できない形式へと置き換える処理を指します。特に、PIIと呼ばれる、氏名、電話番号、住所、マイナンバー、クレジットカード番号などの特定の個人を識別できる情報を保護するために用いられます。

「削除」と「仮名化」の違い

AI活用において、マスキングには大きく2つのアプローチがあります。

削除(Redaction)

例:田中 太郎 → 

従来の手法。情報は完全に消えますが、AIは前後の文脈を失います。

仮名化(Pseudonymization)

例:田中 太郎 → [PERSON_A]

特定のルールに基づいて、個人を特定できない別の識別子に置き換えます。AI時代の主流はこちらです。

なぜマスキングが重要なのか?

企業がマスキングを徹底しなければならない理由は、「セキュリティリスク」と「経営リスク」の観点にあると考えています。

① サイバー攻撃・予期せぬ流出リスク

近年、サプライチェーン攻撃やAIプロバイダーを狙ったサイバー攻撃のリスクは高まり続けています。もし、サービス提供側でセキュリティインシデントが発生し、データが流出した場合どうなるでしょうか?

  • 未加工データの場合: 顧客の氏名、住所、電話番号がそのまま流出し、取り返しのつかない被害となります 。

  • マスキング済みの場合: 流出するのは「[顧客A]」といった意味のない記号の羅列だけであり、実質的な被害を防げます。

マスキングは、完全にリスクをゼロにするものではありませんが、「万が一の際の影響を最小限に抑えるための現実的な施策」として、多くの企業が導入を検討しています。

② 法令違反による「多額の制裁金」と「ブランド毀損」

個人情報保護法や欧州のGDPR(EU一般データ保護規則)など、世界的にプライバシー保護の規制は厳格化しています。 特にGDPRでは、違反した場合に巨額の制裁金が科される可能性があります。日本企業であっても、グローバルにビジネスを展開している場合は、無関係ではありません。

また、金銭的なダメージ以上に恐ろしいのが「レピュテーション(評判)リスク」です。 「あの企業は、顧客のプライバシー情報をそのままAIに流していた」という事実は、一度広まればブランドイメージを失墜させ、顧客の信頼を回復するには長い年月を要します 。 企業としてAIを活用する以上、「そもそも漏洩して困るデータは社外に出さない」という管理体制が、経営を守るための必須条件となります。

 OSSや正規表現で全自動化できるのか?

上述のようなセキュリティ・経営リスクを回避するためのマスキングについて、「Microsoft PresidioのようなOSSや、正規表現(Regex)を使って自動変換すれば解決するのでは?」 と思われる方もいらっしゃるかもしれません。

しかし、これらの既存技術を日本の商用レベルで扱おうとすると、どうしても機械的な判定だけでは超えられない「4つの壁」に直面します 。

① 「表記揺れ」の壁(Syntax / Format)

ルールベース(正規表現)での定義が困難な、日本独自の文字環境の問題です 。

  • 全角・半角のカオス: 英数字やハイフンなどの記号において、全角・半角が不規則に混ざり、正規表現のパターンから漏れます 。
  • 漢数字と算用数字: 「六本木一丁目1-1」と「六本木1-1-1」など、同じ住所でも表記が揺らぎます。

② 「文脈依存」の壁(Context / Semantics)

単語そのものではなく、前後の文脈によって意味が変わるため、汎用的なNER(固有表現抽出)モデルが誤判定を起こす問題です 。

  • 住所の粒度(Granularity): マーケティング用に「港区」は残し、「六本木1-9-1」だけ消したい場合でも、海外製の汎用モデル等は「東京都港区六本木...」全体を一つの [LOCATION] として検知し、丸ごと消去してしまいがちです 。
  • 多義性: 「石川」という単語が、人名(石川様)なのか、地名(石川県)なのかは、前後の文脈を読まないと判定できません 。

③ 「未知語」の壁(Domain Knowledge)

一般的な辞書や学習モデルに含まれていない、企業固有の情報の問題です 。

  • 新語・造語: 新しいサービス名や社内プロジェクトコード(隠語)は、汎用モデルには「無意味な文字列」や「一般名詞」として扱われ、検知漏れ(False Negative)を起こすリスクがあります 。
  • 過剰検知: 逆に、「SoftBank Air」のようなサービス名を、人名や組織名として誤って検知し、消してしまうケース(False Positive)もあります 。

④ 「ノイズ」の壁(Noise / Error)

特にコールセンターなどのデータに見られる、データ自体の品質の問題です 。

  • 音声認識エラー: 「080(ゼロハチゼロ)」が「ぜろはちまる」とひらがな化されたり、不要語(フィラー)が混ざったりします。これらは正しい表記ではないため、辞書マッチングや正規表現が通用しません 。
  • OCR誤読: 紙書類のデータ化において、「l(エル)」と「1(イチ)」などが誤認識され、パターンマッチングをすり抜けてしまいます 。

これらの壁は複合的に絡み合い、自動マスキングの精度を著しく低下させる要因となります。

解決方法の模索

これらの4つの壁を突破するために、私たちTASUKI Annotationでは、AIと人で下記のように役割分担しシステム自体を賢くしていく「自律改善ループ」の構築を目指しています。

AIの役割: 膨大なデータを高速に処理し、既知のパターンを効率的に捌く。

人間の役割: AIが判断に迷う「文脈依存の高いケース」や「未知のエンティティ」に対して、高度な判断を下す。

重要なのは、人間が修正した結果を単なる事後処理で終わらせず、自律的に精度を高めていくサイクルを回すことです。「AIのミス」を人間がフォローし、それを学習させることで、今度はAIが正解できるようになる。このサイクルで、運用コストを抑えながらも、マスキング精度を継続的に向上させていきます。

まとめ:個人情報を守り、データ活用する未来へ

個人情報の取り扱いはAIプロジェクトの推進における大きなハードルですが、データを安全に流通させるパイプラインさえ確立できれば、企業の資産である社内データをフル活用できるようになります。私たちTASUKI Annotationは現在、そんな社会の実現に向けて様々な検証を進めております。

「AIプロジェクトを推進したいが、社内データの個人情報処理で困っている」

そのような課題をお持ちの方は、ぜひ一度TASUKIにご相談ください。

明日は、25日目最終日のアドベントカレンダーもおたのしみに!

関連サービス

TASUKI Annotation RAGデータ作成ツールは、RAGを高度に活用する際に課題となるポイントをテクノロジーで支援するツールです。
RAGに関する知見がなくても、社内データを活用した精度の高いRAG回答生成を簡単に得ることが可能です。

TASUKI Annotation導入事例

ダイダン株式会社

図表資料も“分かるAI”へ、データ構造化の内製化をツールで実現

おすすめの記事

条件に該当するページがございません