什么是个人隐私信息(PII)脱敏处理具体在做什么?
摘要:什么是 PII?以及 PII 脱敏到底在做什么? 在做系统对接、日志采集、数据分析、接入大模型、做知识库时,经常会听到一个词:PII。很多人知道它“很重要”,但并不清楚它到底包含什么,以及我们在系统里做的“脱敏”究竟解决了什么问题。这篇文章
什么是 PII?以及 PII 脱敏到底在做什么?
在做系统对接、日志采集、数据分析、接入大模型、做知识库时,经常会听到一个词:PII。
很多人知道它“很重要”,但并不清楚它到底包含什么,以及我们在系统里做的“脱敏”究竟解决了什么问题。
这篇文章用一篇简单的技术视角讲清楚:
1、什么是 PII?
PII = Personally Identifiable Information
中文通常翻译为:个人身份可识别信息。
它指的是:任何能够单独或结合其他信息识别出具体个人身份的数据。
2、哪些数据属于 PII?
常见 PII 包括:
2.1 直接识别类信息
可以单独识别个人身份:
姓名
身份证号
护照号
手机号
邮箱
银行卡号
社保号
2.2 间接识别类信息
单独看不一定能识别,但结合其他数据可以识别:
IP 地址
设备 ID
车牌号
公司 + 职位
精确地理位置
出生日期
2.3 敏感个人信息(更高风险)
在很多法规中被单独强化保护,例如:
生物识别信息(人脸、指纹)
医疗健康信息
财务信息
行为轨迹
通话记录
3、为什么 PII 很重要?
3.1 法律合规要求
不同地区有严格的数据保护法律,例如:
General Data Protection Regulation(欧盟)
Personal Information Protection Law(中国)
如果企业泄露 PII,可能面临:
巨额罚款
业务停摆
法律诉讼
品牌声誉损失
3.2 技术风险
在技术系统中,PII 容易出现在:
接口日志
数据库备份
错误日志
AI 提示词
知识库文档
第三方系统对接数据
很多数据泄露不是黑客攻击,而是:
👉 日志没做脱敏
👉 测试库用了真实数据
👉 AI 调用时传入真实身份证号
4、什么是 PII 脱敏?
PII 脱敏 = 在不影响业务逻辑的情况下,去除或模糊个人身份信息。
目的只有一个:
即使数据被看到,也无法识别出具体个人。
5、常见脱敏方式
5.1 掩码(Masking)
最常见方式。
例如:
原始数据脱敏后
13812345678
138****5678
6222021234567890
6222********7890
张三
张*
适用于:
前端展示
日志输出
客服界面
5.2 替换(Tokenization)
将真实值替换为随机标识符。
例如:
身份证号 110101199001011234
→ 替换为 USER_001923
真实数据单独存储在安全映射表中。
适用于:
数据分析
多系统交互
AI 处理场景
5.3 哈希(Hash)
使用不可逆算法,例如 SHA256:
手机号 → hash(手机号)
优点:
不可逆
可用于去重
缺点:
如果原始数据可枚举,可能被撞库
5.4 加密(Encryption)
可逆加密方式。
优点:
可恢复原始数据
缺点:
密钥管理复杂
泄露风险仍存在
5.5 匿名化(Anonymization)
彻底去除识别能力,例如:
删除姓名
只保留年龄区间
只保留城市,不保留精确地址
适用于:
统计分析
公开数据发布
6、在 AI 场景下尤其要注意
现在很多系统会:
把数据库数据喂给大模型
把日志导入知识库
用智能体自动处理财务数据
如果没有做脱敏:
⚠️ 真实身份证号可能被上传到外部 API
⚠️ 银行卡信息可能出现在 Prompt 中
⚠️ 对话日志可能包含手机号
在接入大模型之前,建议:
先做 PII 检测
再做自动脱敏
再调用模型
7、企业系统中建议的做法
结合实际项目经验,建议:
7.1 日志层强制脱敏
在日志框架层做统一过滤,而不是靠开发自觉。
7.2 测试环境禁止使用真实数据
可使用数据生成工具或脱敏后的数据副本。
7.3 接入 AI 前增加 PII 过滤层
在调用模型 API 前增加一层:
原始数据 → PII检测 → 脱敏 → 模型调用
7.4 数据分级管理
将数据划分为:
公开数据
内部数据
敏感数据
高敏数据
不同级别采取不同保护策略。
8、总结一句话
PII 不是“数据字段问题”,而是“系统设计问题”。
是否做好 PII 保护,体现的是系统架构的成熟度。
在 AI 时代,数据流动越来越频繁:
日志 → 大模型
数据库 → 向量库
对话 → 训练数据
如果不从设计阶段就考虑 PII 脱敏,风险会成倍放大。
