很抱歉,您提供的信息不完整,我无法直接给出答案。请您提供更具体的问题或信息,这样我才能更好地帮助您。

摘要:PII 泄露的风险无处不在,一旦发生不仅会引发合规风险,还会对企业声誉造成不可挽回的损失。本文将从 PII 的基础概念入手,分析 LLM 场景下的 PII 风险,并提供可落地的保护实践指南,帮助研发与安全团队构建安全的 LLM 应用。
在大语言模型(LLM)深度渗透业务的今天,我们在享受 AI 带来的效率提升的同时,也面临着个人可识别信息(PII)泄露的严峻挑战。从企业将用户数据喂给大模型训练,到用户在智能助手中输入敏感信息,PII 泄露的风险无处不在,一旦发生不仅会引发合规风险,还会对企业声誉造成不可挽回的损失。本文将从 PII 的基础概念入手,分析 LLM 场景下的 PII 风险,并提供可落地的保护实践指南,帮助研发与安全团队构建安全的 LLM 应用。 📖 一、什么是 PII? 1.1 PII 的定义 PII = Personally Identifiable Information(个人身份可识别信息),指任何能够单独或结合其他信息识别出具体个人身份的数据。不同地区和法规对 PII 的定义略有差异,但核心都是能够定位到特定个人的信息。 1.2 PII 的分类 类型 示例 风险等级 直接识别类 姓名、身份证号、护照号、手机号、邮箱、银行卡号 🔴 高 间接识别类 IP 地址、设备 ID、车牌号、精确地理位置、公司 + 职位 🟡 中 敏感个人信息 生物识别(人脸、指纹)、医疗健康信息、财务信息、行为轨迹 🔴 极高 1.3 为什么 PII 在 AI 时代更危险? 传统系统中,PII 主要存在于数据库和日志中,风险相对可控。但在 LLM 场景下,风险被成倍放大: Prompt 泄露:用户可能直接将身份证号、病历等敏感信息输入 LLM 训练数据记忆:模型可能记住并复述训练集中的真实个人信息 RAG 知识库污染:向量数据库中存储的文档包含未脱敏的客户数据 输出幻觉:模型可能 "编造" 看似真实的个人信息,引发合规问题 graph LR A[用户输入] --> B[Prompt泄露风险] A --> C[训练数据] C --> D[模型记忆风险] E[RAG知识库] --> F[知识库污染风险] G[模型输出] --> H[输出幻觉风险] I[API密钥泄露] --> J[数据访问风险] ⚠️ 二、LLM 场景下的 PII 风险全景 2.1 典型泄露案例 三星半导体数据泄露事件:2023 年 3 月,三星工程师在使用 ChatGPT 处理工作时,将专有半导体设备的故障诊断代码、内部会议纪要等敏感数据粘贴到 ChatGPT 中,导致数据被 OpenAI 收集,存在泄露风险。 银行智能客服泄露事件:2023 年 12 月,某银行智能客服系统将一位用户的银行卡号、身份证号等敏感信息,在另一位用户咨询转账风险案例时作为案例回复,导致用户 PII 泄露。 联邦大模型 PII 提取攻击:哈尔滨工业大学深圳、快手科技等机构的研究显示,攻击者可利用本地数据作为 "钥匙",从联邦大模型中提取其他机构的敏感 PII,最高可达 56.6% 的恢复率,包括患者的姓名、地址、出生日期等信息。 AI 对话数据泄露事件:数百万 AI 对话被泄露到 LeakLake 网站,其中包含用户的创业计划、公司内部技术架构、个人信息等,用户在不知情的情况下将对话公开,且数据无法撤回。
阅读全文