大语言模型快速普及并深度渗透至各行业,成为数智化转型的核心支撑,OpenClaw等工具的普及进一步提升了模型应用需求与场景覆盖度。海量的数据应用和高频的人机交互催生了日益突出的隐私安全隐患,涉及个人身份标识(如身份证号、手机号、家庭住址等)以及健康医疗、财产金融、社会关系等多类敏感信息。当前隐私泄露风险贯穿训练、微调、推理全阶段,不仅威胁个体信息安全,且制约用户信任与行业高质量发展。中国移动人工智能安全治理研究中心聚焦训练与推理两个阶段的泄露风险开展大模型隐私保护研究,为构建全链路隐私保护体系提供解决方案,保障数据处理的合规性与安全性。
大模型隐私泄露风险分析
(一)训练阶段的数据泄露风险
训练数据是大模型的核心基础,医疗、金融等敏感场景的模型训练不可避免地包含大量个人信息。2025年7月,华盛顿大学的研究团队揭露,包含12.8亿样本的开源AI训练数据集DataComp CommonPool中存有数百万份护照、信用卡、出生证明等含个人身份信息的图像,该数据集自23年发布以来,累计下载量超200万次。云端算力与存储的广泛应用,使得训练数据隐私泄露风险攀升,不仅导致个体隐私批量外泄,同时为恶意模型训练提供敏感数据来源,进一步放大公共安全风险。
尽管本地的模型训练和微调可以避免训练数据上传云端,但模型对私有数据的非意图性“记忆”仍无法完全消除。攻击者通过观察模型对“见过的数据”和“未见数据”在输出行为上的微妙差异,判断该输入是否为模型训练数据的一部分,被称为成员推理攻击(MIA)。大模型微调阶段使用的私有数据集是MIA攻击者的攻击重点。例如,银行对预训练模型进行信贷风控微调时,模型会深度学习用户征信等级、负债水平等核心金融特征,攻击者可对比微调前后模型对同一用户数据的授信预测、风险评分、输出置信度等变化,推理该用户是否存在高负债、不良征信等敏感属性。该攻击具有极强隐蔽性,损害机构与用户之间的信任,影响本地微调模式的安全落地与规模化应用。
(二)推理阶段的提示词隐私风险
在模型的推广应用中,用户提交的查询指令(即提示词)是用户与大模型交互的核心载体,承载用户意图与大量个人信息,其无防护传输与处理成为模型推理中最显著的隐私隐患。2025年8月,疑似GPT-5的完整系统提示词(约15,000-17,803个token)在GitHub公开,引发行业对用户交互数据安全的广泛担忧。用户提示词被模型服务商收集存储,既可用于交互体验提升和模型迭代优化,也可能被模型无意识“学习”和“记忆”,进而在与其他用户的交互中被意外输出,造成跨用户的隐私泄露。
大模型隐私保护研究与实践
(一)敏感信息识别与匿名化处理
训练数据隐私保护的通用思路,是在数据输入大模型前完成敏感信息的识别与处理,从源头降低隐私泄露风险,注重实用性与部署灵活性。
基础过滤技术以模式匹配与并行替换为核心,通过预设模式或正则表达式,识别姓名、身份证号等常见类型的敏感信息,再采用占位符替换、保留格式加密、哈希计算等方式实现隐私混淆。该类方法计算开销低、部署简便,支持包括自由文本在内的多种数据类型,但在处理上下文相关敏感信息时易出现漏检、误检或过度过滤的问题。
增强型过滤技术融合命名实体识别(NER)、上下文分析、情感分析等自然语言处理技术,可显著提升敏感信息实体检测的精准度。团队基于微软开源的敏感信息检测与匿名化框架Presidio进行敏感信息识别,在其基础上扩展手机号、身份证号、员工工号、API密钥等自定义识别器,调用开源假名库Faker配置脱敏器,同时在工程上基于Apache Spark实现分布式并行化处理。该解决方案具备较强的上下文感知能力,支持多语言、多实体类型识别,可自动生成语义合理、格式规范的虚构数据,保持与原始数据统计特征一致,如图1所示。

图1 训练数据脱敏示例
(二)成员推理攻击防御
大模型成员推理攻击防御体系应分别针对数据侧与模型侧进行部署,其场景诉求与资源消耗存在差异。
数据侧防御采用“松耦合”方式,通过部署前置安全网关,在数据进入训练流程前切断攻击的基础,降低攻击可能性。数据脱敏技术是防御成员推理攻击的核心手段,其应用直接决定攻击的难易程度。如果原始数据中包含可识别用户身份的特征,模型容易学到这些独特标记,攻击者就能通过对比识别出用户是否参与训练。具体可通过屏蔽敏感字段、替换个人标识、模糊化专属特征等匿名化与去标识化操作,减少模型对个体用户数据分布的记忆。这些手段能够以安全网关等轻量化工具形式接入现有数据准备流程,无需大规模改造训练框架或调整训练逻辑。数据脱敏的算力消耗远低于模型训练本身,仅需在数据预处理阶段增加少量计算资源,且成熟的脱敏工具可直接复用,无需重复开发投入成本低、防护效果持久,属于高投入产出比的防御措施。
模型侧防御采用“紧耦合”方式,即在模型内部嵌入相应安全防御接口。差分隐私技术是模型侧防御MIA的关键手段,其能力接口的部署效果直接影响模型对用户分布的适配程度。因此,在模型训练过程中融入相应防御能力,可阻断相应攻击路径。差分隐私技术在模型梯度中注入噪声,模糊单一样本的梯度贡献,减少模型对单一样本分布的记忆。该能力可作为模型训练框架的扩展模块,以插件化形式集成到现有大模型训练流程中,无需重构训练架构或改变核心训练逻辑。差分隐私增加了噪声计算与参数校准的算力开销,但其相关技术框架已日趋成熟,一旦完成接口的适配部署,其防御逻辑可跨多个训练任务、不同模型版本复用,长期来看能持续降低大模型安全的防御成本。
团队通过实施上述数据侧和模型侧结合的协同防御策略,衡量模型区分“训练集成员”和“非成员”的能力,防御实施前后的效果对比如图2、图3所示。

图2 防御前攻击成功率(ASR)接近1

图3 防御后攻击成功率(ASR)接近0.5,攻击基本失效
(三)提示词智能脱敏与结果还原
提示词的质量影响大模型的理解能力与输出效果,因此相比于训练数据脱敏,提示词隐私保护更强调脱敏处理后的语义连贯性与信息可还原性。Token化与匿名化的敏感信息替换方法不支持信息还原;基于Presidio和Faker的脱敏方案虽可通过维护映射表实现结果复原,但大模型在处理过程中可能会改写文本表达方式,单纯依赖机械映射难以相似匹配和精准还原。
团队研发轻量级提示词隐私保护小模型,以健康医疗场景为测试领域构造训练数据集,基于Qwen3 8B base模型完成微调,在终端部署并实施用户输入提示词的脱敏处理与大模型输出结果的精准还原。关键流程如下:
步骤一是小模型脱敏处理。本地小模型对用户输入的原始提示词进行全面的敏感信息识别,并基于上下文语境生成语义匹配、格式一致的仿真词,替换原始敏感信息,确保脱敏后的提示词不泄露任何隐私数据,同时不影响大模型对任务需求的理解。
步骤二是大模型任务执行。将经过脱敏处理后的提示词,发送至目标大模型(如各类通用大模型、垂直领域大模型),由大模型正常执行用户需求的润色、摘要、阅读理解等任务,并返回相应的处理结果。此过程中,外部大模型仅能接触到脱敏后的仿真信息,无法获取任何原始隐私数据,从源头阻断隐私泄露路径。
步骤三是小模型还原处理。大模型返回处理结果后,本地小模型定位输出文案中所有由原始敏感信息替换而来的仿真词并还原为真实信息。还原过程中,将严格匹配上下文语义,最终输出还原后的完整结果,确保结果与原始需求的一致性,同时保障隐私数据不泄露。
该方案占用内存低、运行能耗小,可独立运行于用户本地环境,在不影响常见文本处理任务执行效果的前提下,实现大模型提示词全流程隐私保护,如图4所示。

图4 提示词脱敏与还原示例
未来研究与优化方向
当前大模型隐私保护技术已在训练数据脱敏、提示词防护等场景初步验证,但面对各行业差异化需求,在敏感信息识别精准度、场景适配性上仍有提升空间。下一步,将聚焦场景化适配与关键技术优化,构建行业专属高频敏感词库,解决通用词库漏检、误检问题,并在无需改造原有大模型系统即可快速部署的前提下,推进轻量化、一体化的大模型隐私保护网关建设与试点应用。
作者:
徐科鑫、郭斯栩、耿慧拯、粟栗 | 安全技术研究所(中国移动人工智能安全治理研究中心)
审核:
粟栗 | 安全技术研究所(中国移动人工智能安全治理研究中心)
声明:本文来自中移智库,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。