很抱歉,您提供的信息不完整,我无法直接给出答案。请您提供更具体的问题或信息,这样我才能更好地帮助您。
摘要:PII 泄露的风险无处不在,一旦发生不仅会引发合规风险,还会对企业声誉造成不可挽回的损失。本文将从 PII 的基础概念入手,分析 LLM 场景下的 PII 风险,并提供可落地的保护实践指南,帮助研发与安全团队构建安全的 LLM 应用。
在大语言模型(LLM)深度渗透业务的今天,我们在享受 AI 带来的效率提升的同时,也面临着个人可识别信息(PII)泄露的严峻挑战。从企业将用户数据喂给大模型训练,到用户在智能助手中输入敏感信息,PII 泄露的风险无处不在,一旦发生不仅会引发合规风险,还会对企业声誉造成不可挽回的损失。本文将从 PII 的基础概念入手,分析 LLM 场景下的 PII 风险,并提供可落地的保护实践指南,帮助研发与安全团队构建安全的 LLM 应用。
📖 一、什么是 PII?
1.1 PII 的定义
PII = Personally Identifiable Information(个人身份可识别信息),指任何能够单独或结合其他信息识别出具体个人身份的数据。不同地区和法规对 PII 的定义略有差异,但核心都是能够定位到特定个人的信息。
1.2 PII 的分类
类型
示例
风险等级
直接识别类
姓名、身份证号、护照号、手机号、邮箱、银行卡号
🔴 高
间接识别类
IP 地址、设备 ID、车牌号、精确地理位置、公司 + 职位
🟡 中
敏感个人信息
生物识别(人脸、指纹)、医疗健康信息、财务信息、行为轨迹
🔴 极高
1.3 为什么 PII 在 AI 时代更危险?
传统系统中,PII 主要存在于数据库和日志中,风险相对可控。但在 LLM 场景下,风险被成倍放大:
Prompt 泄露:用户可能直接将身份证号、病历等敏感信息输入 LLM
训练数据记忆:模型可能记住并复述训练集中的真实个人信息
RAG 知识库污染:向量数据库中存储的文档包含未脱敏的客户数据
输出幻觉:模型可能 "编造" 看似真实的个人信息,引发合规问题
graph LR
A[用户输入] --> B[Prompt泄露风险]
A --> C[训练数据]
C --> D[模型记忆风险]
E[RAG知识库] --> F[知识库污染风险]
G[模型输出] --> H[输出幻觉风险]
I[API密钥泄露] --> J[数据访问风险]
⚠️ 二、LLM 场景下的 PII 风险全景
2.1 典型泄露案例
三星半导体数据泄露事件:2023 年 3 月,三星工程师在使用 ChatGPT 处理工作时,将专有半导体设备的故障诊断代码、内部会议纪要等敏感数据粘贴到 ChatGPT 中,导致数据被 OpenAI 收集,存在泄露风险。
银行智能客服泄露事件:2023 年 12 月,某银行智能客服系统将一位用户的银行卡号、身份证号等敏感信息,在另一位用户咨询转账风险案例时作为案例回复,导致用户 PII 泄露。
联邦大模型 PII 提取攻击:哈尔滨工业大学深圳、快手科技等机构的研究显示,攻击者可利用本地数据作为 "钥匙",从联邦大模型中提取其他机构的敏感 PII,最高可达 56.6% 的恢复率,包括患者的姓名、地址、出生日期等信息。
AI 对话数据泄露事件:数百万 AI 对话被泄露到 LeakLake 网站,其中包含用户的创业计划、公司内部技术架构、个人信息等,用户在不知情的情况下将对话公开,且数据无法撤回。
