很抱歉，您提供的信息不完整，我无法直接给出答案。请您提供更具体的问题或信息，这样我才能更好地帮助您。

摘要：PII 泄露的风险无处不在，一旦发生不仅会引发合规风险，还会对企业声誉造成不可挽回的损失。本文将从 PII 的基础概念入手，分析 LLM 场景下的 PII 风险，并提供可落地的保护实践指南，帮助研发与安全团队构建安全的 LLM 应用。

在大语言模型（LLM）深度渗透业务的今天，我们在享受 AI 带来的效率提升的同时，也面临着个人可识别信息（PII）泄露的严峻挑战。从企业将用户数据喂给大模型训练，到用户在智能助手中输入敏感信息，PII 泄露的风险无处不在，一旦发生不仅会引发合规风险，还会对企业声誉造成不可挽回的损失。本文将从 PII 的基础概念入手，分析 LLM 场景下的 PII 风险，并提供可落地的保护实践指南，帮助研发与安全团队构建安全的 LLM 应用。 📖 一、什么是 PII？ 1.1 PII 的定义 PII = Personally Identifiable Information（个人身份可识别信息），指任何能够单独或结合其他信息识别出具体个人身份的数据。不同地区和法规对 PII 的定义略有差异，但核心都是能够定位到特定个人的信息。 1.2 PII 的分类类型示例风险等级直接识别类姓名、身份证号、护照号、手机号、邮箱、银行卡号 🔴 高间接识别类 IP 地址、设备 ID、车牌号、精确地理位置、公司 + 职位 🟡 中敏感个人信息生物识别（人脸、指纹）、医疗健康信息、财务信息、行为轨迹 🔴 极高 1.3 为什么 PII 在 AI 时代更危险？传统系统中，PII 主要存在于数据库和日志中，风险相对可控。但在 LLM 场景下，风险被成倍放大： Prompt 泄露：用户可能直接将身份证号、病历等敏感信息输入 LLM 训练数据记忆：模型可能记住并复述训练集中的真实个人信息 RAG 知识库污染：向量数据库中存储的文档包含未脱敏的客户数据输出幻觉：模型可能 "编造" 看似真实的个人信息，引发合规问题 graph LR A[用户输入] --> B[Prompt泄露风险] A --> C[训练数据] C --> D[模型记忆风险] E[RAG知识库] --> F[知识库污染风险] G[模型输出] --> H[输出幻觉风险] I[API密钥泄露] --> J[数据访问风险] ⚠️ 二、LLM 场景下的 PII 风险全景 2.1 典型泄露案例三星半导体数据泄露事件：2023 年 3 月，三星工程师在使用 ChatGPT 处理工作时，将专有半导体设备的故障诊断代码、内部会议纪要等敏感数据粘贴到 ChatGPT 中，导致数据被 OpenAI 收集，存在泄露风险。银行智能客服泄露事件：2023 年 12 月，某银行智能客服系统将一位用户的银行卡号、身份证号等敏感信息，在另一位用户咨询转账风险案例时作为案例回复，导致用户 PII 泄露。联邦大模型 PII 提取攻击：哈尔滨工业大学深圳、快手科技等机构的研究显示，攻击者可利用本地数据作为 "钥匙"，从联邦大模型中提取其他机构的敏感 PII，最高可达 56.6% 的恢复率，包括患者的姓名、地址、出生日期等信息。 AI 对话数据泄露事件：数百万 AI 对话被泄露到 LeakLake 网站，其中包含用户的创业计划、公司内部技术架构、个人信息等，用户在不知情的情况下将对话公开，且数据无法撤回。

很抱歉，您提供的信息不完整，我无法直接给出答案。请您提供更具体的问题或信息，这样我才能更好地帮助您。

相关推荐