卫霞,张文俊.大语言模型隐私保护应用与自身风险防御研究[J]. 世界科技研究与发展,DOI:10.16507/j.issn.1006-6055.2025.12.005

卫霞1 张文俊2

(1.西安明德理工学院,西安 710124;2.国家计算机网络应急技术处理协调中心陕西分中心,西安 710075)

摘要:随着大语言模型(LLMs)在各个领域的广泛应用,其在隐私治理及自身风险方面的问题日益凸显。本文系统探讨了LLMs在隐私保护中的双面性:一方面,LLMs作为智能工具可增强数据安全防护能力,如提升代码漏洞检测任务的准确率;另一方面,面临梯度泄露、成员推理及个人身份信息泄漏等典型隐私攻击,LLMs具有较大的隐私风险。基于我国网络空间治理的法律框架,按照预防义务、处理规则、权利保障、事件响应的结构,本文梳理LLMs在隐私保护方面的合规性应用情况;同时分析针对LLMs隐私的典型攻击及防御手段,并从“数据—训练—推理”全生命周期角度探讨了提升LLMs安全性的举措,指出未来需着重解决模型规模扩张与隐私保护需求之间的根本矛盾。

关键词:大语言模型;防御机制;隐私保护;数据清洗;监督微调

在人工智能(Artificial Intelligence,AI)领域,大语言模型(Large Language Models,LLMs)凭借其在多类任务中几乎与人类一样的表现,深受学术界和工业界的欢迎,人们正在探索其是否能成为通用人工智能(Artificial General Intelligence,AGI)的代表。LLMs具有处理各种任务的强大能力,如大文本生成、总结文本、逻辑和数学推理、代码生成等。此外,通过适当的快速工程和情境学习能力,LLMs甚至无需培训或微调,即可适应不同场景。随着网络威胁技术的发展,人们迫切需要能应对网络安全态势的智能系统。而LLMs逐渐展现出优势,可被用于检测源代码漏洞,理解和分析安全策略和隐私策略,对文档进行分类并检测潜在的违规行为,尤其在数据安全领域展现出较好的应用效果。

然而,随着LLMs在代码生成、医疗诊断等领域呈现出暴发式增长,其隐私风险显著增加,如在代码生成场景中,可能记忆并泄露训练数据中的应用程序编程接口(Application Programming Interface,API)密钥、数据库连接字符串等敏感信息;在医疗诊断领域,对患者电子健康记录(Electronic Health Record,EHR)的推理过程可能违反隐私规则。LLMs还带来了攻击手段的进化,如从传统的梯度泄露发展到结合成员推理的复合攻击,攻击者仅需黑盒访问即可推断训练数据归属;此外,WormGPT等恶意专用模型的出现,使LLMs可被用于生成高度定制化的钓鱼邮件,进一步加剧LLMs的滥用风险,亟需系统性研究其隐私保护问题。

本文简要介绍LLMs的架构和流程机制,根据网络空间治理的法律框架,讨论LLMs作为智能工具在数据安全和隐私保护中覆盖预防义务、处理规则、权利保障、事件响应各个层面的应用。同时重点分析针对LLMs的典型隐私攻击,并从“数据—训练—推理”全生命周期角度讨论隐私保护的防御方法以及技术展望。

1 LLMs简介

基于Transformer的应用,LLMs被赋予数以千亿甚至更多的参数,通过对大量文本数据的广泛训练,结合预训练技术,LLMs能够理解和输出接近模仿人类语言的文本,在自然语言处理(Natural Language Processing,NLP)领域取得了实质性进展。LLMs使用公共互联网数据、书籍和各种文本的大型数据集等进行预训练,以学习语言内部的底层结构、模式和上下文关系。预训练阶段为模型配备了对语法、语义和知识的广泛理解,在训练过程中,文本经过标记后被输入模型;预训练之后,LLMs会针对特定任务或领域进行微调,以增强其针对目标应用的性能;之后,LLMs通过带有注意力机制的深度神经网络对输入文本进行处理,进而生成目标输出。通过学习表示能力,LLMs能够生成连贯且上下文紧密契合的文本,进而高效完成文本生成、语言翻译、内容总结等各种任务。Transformer体系结构中的自注意力模块包括GPT-3、Instruct GPT和GPT-4等LLMs共享的基础组件,在问答、文本摘要、文本生成等各类语言建模任务中均发挥着关键作用。此外,上下文学习作为LLMs的核心特征,使其能够从给定的上下文或提示信息中动态学习并生成文本,进而输出更连贯、更贴合语境的响应,让LLMs特别适用于聊天机器人等交互式会话应用场景。

图1所示为LLMs知识库问答工作流程,与LLMs的普遍交互策略涉及提示词工程,其中用户在提示中创建并向LLMs提供特定指令,以生成所需的响应并完成特定任务。人们还可以通过问答与LLMs互动。

2 LLMs隐私保护合规应用探索

在隐私保护法治建设层面,我国相继出台了《中华人民共和国网络安全法》(简称《网络安全法》)、《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》(简称《个人信息保护法》)以及《网络数据安全管理条例》,共同构成中国网络空间治理的法律框架,在隐私保护方面形成了层次分明、相互补充的完整法律体系,对数据处理者提出了较高的隐私保护合规要求‌。LLMs凭借强大的数据分析、处理与生成能力,正深度重塑隐私保护格局,从敏感信息的全生命周期防护到隐私数据的精准管控方面均展现出潜力。本节通过归纳相关法律法规,依据预防义务、处理规则、权利保障、事件响应的结构,梳理LLMs在隐私保护方面的应用情况。

2.1 预防义务

依据《网络安全法》第21条“网络安全保护义务”、《个人信息保护法》第51条“采取技术措施保障安全”、《网络数据安全管理条例》第9条“采取加密、备份、访问控制、安全认证等技术措施和其他必要措施,保护网络数据”等法定义务,LLMs的预防性应用聚焦勒索防护、访问控制、钓鱼检测等三个方面。

勒索防护方面,Wang借助LLMs实现了勒索软件防护网络安全策略制定;Liu等探讨了通过LLMs创建网络安全策略,以阻止和减轻执行数据泄露的勒索软件攻击的潜力,将GPT生成的治理、风险和合规性(Governance Risk And Compliance,GRC)政策与现有安全企业和政府网络安全机构的政策进行比较,结果表明在提供定制的输入提示词时,GPT生成的安全策略甚至优于人工制定的策略。

访问控制方面,Hyeokdong等利用ChatGPT基于属性访问控制策略,通过语义解析将业务规则转化为可执行权限策略,通过实时评估访问请求的上下文属性(角色、时间、地理位置等),实现细粒度访问控制。

钓鱼检测方面,Takashi等使用ChatGPT检测包含网络钓鱼内容的站点,具有很高的准确率和召回率,表现了较好的性能;Fredrik等评估了GPT、Claude、PaLM和LLaMA四个大模型检测钓鱼邮件中恶意意图的能力,总体有效性超过了人工检测方式。Jamal等提出基于BERT微调的IPSDM模型,可有效识别网络钓鱼和垃圾邮件,实现资产与威胁识别,在电子邮件分类方面表现出优异的性能。

2.2 处理规则

处理规则的实际应用主要体现在“最小必要”与“完整性”的协同,具体围绕《个人信息保护法》第6条最小必要原则以及第8条数据完整性要求展开。Arpita等基于LLMs提出智能数据过滤机制,通过自然语言理解自动识别并删除非必要个人身份信息(Personal Identity Information,PII),使用LLMs实现通用标识符替换文本数据中的识别信息,以保护用户敏感信息,确保数据收集严格遵循“够用即可”原则,可动态适配不同场景需求,例如在医疗数据分析中保留诊断结果但隐去患者住址,既满足研究需要又降低隐私泄露风险。异常检测是识别异常行为的关键机制,可以识别可能危及数据完整性、机密性和可靠性的异常行为。Amine等引入一种基于LLMs的监控框架,用于检测系统级缺陷中的语义异常,并将其应用于自动驾驶的有限状态机策略和对象操纵的学习策略,结果表明,该框架可采用与人类推理一致的方式有效识别语义异常。Chris等和Qi等探讨了ChatGPT在并行文件系统中基于日志检测异常的潜力,解决了传统人工标注和可解释性方面的问题。Gu等基于视觉大模型提出工业异常检测的方法Anomaly GPT,能不设置人工阈值就直接评估异常的存在和具体位置,并展现了优异的性能。Hyeokdong等通过ChatGPT实现加密,验证了个人直接利用LLMs完成加密任务的可行性。

2.3 权利保障

依据《个人信息保护法》第17条规定的“充分告知义务”、第44条及第50条要求的“个人权利行使机制”,以及第57条明确的“泄露事件告知要求”,LLMs可以通过增强隐私声明生成与透明度,以及提升效率来赋能数据主体权利保障。

在隐私声明生成与透明度增强方面,LLMs能够自动生成符合《个人信息保护法》以及《通用数据保护条例》(General Data Protection Regulation,GDPR)等的标准化隐私声明,显著提升数据合规主体在数据收集和规则使用方面的透明度;在应对数据泄露事件时,LLMs可快速生成个性化的用户通知模板,使数据合规主体能够在法定时限内完成合规报告,有效降低用户法律风险。

在效率提升方面,利用自身在人机交互方面的优势,通过自然语言交互界面,LLMs能够高效处理用户依据法律法规提出的数据访问、删除或更正请求,大幅简化了“被遗忘权”等数据主体权利的执行流程,使数据合规主体能够以标准化方式满足合规要求。在医疗健康等专业领域,LLMs展现出将复杂法律条款转化为通俗解释的独特优势,显著提升政策传达效果。

2.4 事件响应

依据《个人信息保护法》第57条规定的“泄露事件通知义务”,以及《网络数据安全管理条例》第53条要求的“建立数据安全事件应急处置机制”,LLMs可通过监测分析与策略生成、响应行动支持来实现事件的智能化响应。

在监测分析与策略生成方面,Wang使用LLMs在理论层面实现了安全事件的实时分析、自动策略生成、预测分析和知识转移等;响应行动支持上,Scanlon等探索了使用ChatGPT协助进行证据搜索、代码生成、异常检测、事件响应等工作,认为在某些情况下LLMs可以作为支持工具使用。此外,Sladiki等提出,使用ChatGPT生成主动响应策略,可创建真实的蜜罐来欺骗人类攻击者。除这些主动防御应用外,上文所述的在数据泄露事件发生时,采用LLMs可快速生成用户通知模板方案,为隐私泄露事件的快速处置提供合规路径。

综上所述,可以采用LLMs构建覆盖隐私保护全链条的智能治理体系,特别是在勒索防护、最小化处理、权利响应等场景的应用,可以解决实现传统合规存在的效率问题,为应对日益复杂的隐私安全挑战提供强有力的支持。

3 LLMs的隐私风险及防范

3.1 针对LLMs的典型隐私攻击

随着功能扩展及规模的不断扩大,LLMs逐渐成为攻击者的重要目标。攻击者或通过LLMs直接执行恶意软件,或直接使用LLMs产生更加人性化的钓鱼信息来欺骗目标人员实现攻击,甚至有些LLMs如WormGPT及FraudGPT专为网络攻击设计,进一步凸显LLMs使用安全的复杂性。图2从攻击目标维度对LLMs隐私攻击进行了分类。

梯度泄漏攻击、成员推理攻击和PII泄漏攻击作为当前针对LLMs最具代表性的三种隐私攻击方式(表1),本节将对其进行分析。

3.1.1 梯度泄露攻击

深度学习模型通常使用涉及梯度的优化算法进行训练,攻击者通过访问或推断这些梯度信息就能获得模型访问权,重构私有训练数据,从而危及其隐私安全。基于梯度攻击方法的关键是需要对模型具有白盒访问权限(例如梯度)。Deng等基于transformer的语言模型提出了梯度攻击方案,并提出一种梯度攻击算法TAG来重构局部训练数据,在重构训练数据的权重分布更多的情况下表现良好。Balunovic等提出一种从联邦学习(Federated machine learning,FL)环境的梯度中恢复输入文本数据的攻击方式,通过使用辅助语言模型来辅助指导搜索过程生成自然文本,打破了联邦学习关于隐私保护的效果,也进一步表明基于文本数据操作的模型经由梯度攻击泄漏的信息比超过前期其他模型。

3.1.2 成员推理攻击

成员推理攻击(Membership Inference Attack,MIA)的目的是判定某些数据样本是否被用于模型训练,其核心思想是认为模型的过拟合现象不可避免,导致训练数据样本和非训练数据样本的表现存在差异。使用隶属度推断对训练数据样本进行识别,可以不访问底层参数、仅依靠对模型输出的观察来执行,可在目标模型已经对医疗或金融数据等敏感信息进行了训练的场景中,造成严重的隐私问题。Shokri等首次引入针对ML模型的MIA-ML,即针对学习模型的模型推断攻击,首先通过构建几个“影子”模型来反映目标模型的行为,然后攻击模型在阴影模型的标记输入和输出进行训练,从而确定样本是否为训练数据样本。针对诸如医疗这类并不普遍公开可用数据的领域,Mattern等提出一种使用通过单词替换等数据增强产生的邻域样本作为推断成员关系的邻域攻击。Mireshghallah等设计了一种基于似然比假设检验的成员推理攻击系统框架,使用基于似然比的MIA成员来评估信息泄漏,攻击效果显著增强。Jagannatha等研究了临床语言模型训练数据泄露的风险,设计并使用成员推理攻击估计BERT和GPT2等模型的经验隐私泄漏问题。

3.1.3 PII泄漏攻击

在LLMs中,PII泄漏一直是严重问题。Inan等提出的TAB攻击,是最早聚焦PII泄露的研究之一,该研究分析了模型在相关上下文条件下,是否会从训练集中泄露用户信息,还进一步提出适用于评估用户隐私泄露的相关指标。之后,Lukas等针对GPT-2模型提出专门的攻击方法,该方法能够提取的PII序列比TAB攻击提升了10倍。Zanella等提出差分分数和差分排名两个指标,用于评估自然语言模型中的数据泄露程度,其中针对经重叠数据训练的语言模型的隐私分析结果表明,攻击者即便在不了解训练数据或模型架构的情况下也能提取特定信息。Carlini等证明攻击者可以通过查询语言模型来执行训练数据提取攻击以恢复单个训练示例,通过攻击GPT-2中从训练数据中提取到PII信息,且发现较大的模型比较小的模型更加脆弱。3.2 LLMs隐私攻击防御现状

常见的LLMs隐私攻击及对应防御手段如图3所示。

3.2.1 梯度泄露攻击防御

差分隐私(Differential Privacy,DP)、同态加密及梯度压缩等是缓解梯度泄露攻击的主要方法,均存在固有缺陷(表2)。具体来看,在梯度更新时添加高斯或拉普拉斯噪声,可以有效干扰攻击者的逆向分析,但同时会降低大模型训练效率;梯度压缩通过限制梯度更新的敏感度,可以减少数据泄露风险,但也可能影响模型性能;同态加密方案在加密状态下完成梯度计算,可有效防止原始数据暴露,但计算开销较大,不适合资源受限的场景。

Wu等探索了NLP模型的防御方法,但研究多针对小型模型,针对大型模型的防御效果仍需进一步验证。未来需研究高效噪声优化和轻量级加密方案,以平衡隐私保护与计算效率之间的矛盾。

3.2.2 成员推断攻击防御

针对大模型的成员推断攻击,目前主要防御机制有正则化、差分隐私、模型堆叠(Model Stacking,MS)(表3)。

正则化具体包括Dropout、标签平滑和对抗正则等方式,其中Dropout通过在全连接神经网络模型的每次训练迭代中随机删除一定比例的神经元连接,能够减轻深度神经网络中的过拟合问题,从而避免了MIA的因素,但该方式仅适用于攻击模型以神经网络为目标的特定场景;标签平滑通过对标签进行平滑处理实现数据隐私保护;基于对抗正则的MIA防御主要借鉴了生成对抗网络的对抗思想来保护数据隐私,可以实现对攻击的动态防护,但是实现过程相对复杂。MS方案通过使用不同数据子集训练子模型,降低模型整体的过拟合倾向。DP技术在训练过程中引入噪声,如采用随机梯度下降优化算法的差分隐私可以减少经验隐私泄露,但会牺牲模型精度,影响模型的实用性。正则化机制采用标签平滑(Label Smoothing)等技术,防止模型对训练数据过度自信,提高模型泛化能力,从而有助于对抗MIA。上述技术多是在相对较小的语言模型上实现,并未专门针对LLMs进行验证评估,因此仍需要进一步研究适配LLMs的MIA防御技术。

3.2.3 PII泄漏攻击防御

PII泄漏风险贯穿LLMs全生命周期。在数据预处理阶段,删除重复数据能减少模型的记忆风险,但需要权衡数据效用;通过命名实体识别(Named Entity Recognition,NER)技术标记并过滤PII,可有效降低风险,但是手动检查大模型海量的训练数据,不仅会耗费大量人力,而且准确性也不能保证。在训练阶段,通过采用差分隐私随机梯度下降(DP-SGD)算法,能保证训练过程中训练数据的隐私安全,但会增加计算开销,并降低大模型的训练效率;此外,采用联邦学习技术,可避免原始数据的集中存储,减少数据泄露风险。在模型推理阶段,对模型生成内容进行实时PII检测与脱敏处理,可有效降低信息泄露风险。

同样,当前的防御技术大多基于小规模模型验证,而LLMs的长上下文记忆和高参数规模的特性,可能会削弱现有防御方法的效果。所以,未来需重点探索高效数据脱敏、可验证隐私训练及后训练遗忘机制,以针对性应对LLM特有的隐私安全挑战。

3.3 LLMs隐私全流程防御

为系统性提升LLMs安全性,结合典型攻击防御研究现状,LLMs隐私防御需要数据治理、训练优化和推理防护三阶段协同的防御体系。

1)数据清洗阶段

一是数据去重与过滤,核心在于消除重复及低质量数据,既能减少模型对隐私信息的记忆风险,还能保障语料的多样性。二是PII识别与脱敏,通过人工审核与命名实体识别等技术,精准检测数据中的敏感信息并进行脱敏处理。三是数据校准,重点检测并修正数据中的偏见内容,确保模型输出结果符合伦理规范要求。

2)监督微调阶段

一是安全指令微调,通过高质量人工标注数据增强模型的指令跟随能力,同时嵌入安全响应模式,确保模型在执行指令时遵循安全准则。二是通过对抗训练提升安全性,如引入对抗样本进行微调,增强模型对恶意输入的鲁棒性。三是鲁棒性优化,如采用关键参数微调技术(如Low-Rank Adaptation,LoRA),降低模型过拟合风险,平衡性能与安全性。

3)推理阶段

该阶段防护可划分为两个层面。首先是输入检测层面,包括通过语义分析识别恶意指令,采用防御性提示(如“拒绝有害请求”)直接阻断攻击,以及基于统计特征或机器学习模型对可疑查询实时进行筛查,实现对异常输入的有效检测与拦截。其次是输出控制层面,包括对模型生成结果进行PII脱敏处理及有害内容拦截,确保模型输出安全并对推理过程关键节点信息进行记录,以便事后溯源分析。

4 结论及展望

本文系统研究了LLMs在隐私保护领域的双重作用:一方面基于我国网络空间治理的法律框架,探讨LLMs作为智能工具在隐私保护中的合规性应用情况;另一方面分析针对LLMs的典型隐私攻击以及现有的技术防御措施,并从“数据—训练—推理”全生命周期视角,探讨LLMs全流程防护能力的建设路径。研究发现,当前多种LLMs隐私防御技术与可用性、效能之间存在固有矛盾,因此理想的防御方案需实现大模型效能与安全的动态平衡。建议未来重点从两方面推进技术探索,针对LLMs隐私防御方案效能和安全之间的平衡展开技术展望。

一是探索适合大模型的隐私保护技术。传统的隐私计算方法包括联邦学习、差分隐私以及同态加密等,均在算法层面实现隐私保护,但LLMs参数量巨大,且技术特点与传统系统相比差异显著,对传统隐私计算方法(如计算量)提出了巨大挑战。后续需侧重各种技术路线在大模型领域的可用性研究,包括探索各种技术路线的融合应用,找到技术适配与大模型性能的平衡点。

二是探索使用AI来解决大模型的隐私保护问题。基于深度神经网络架构的大模型,本质上是黑盒模式,给隐私保护带来了大挑战。而可解释AI(Explainable AI,XAI)增强了AI的可解释性、可信度以及知识理解能力,增强了大模型的透明度,使大模型更值得信赖,因此探索采用XAI强化LLMs的隐私保护将是一个较有价值的研究方向。

2025年新修订的《中华人民共和国网络安全法》新增条款,明确完善AI伦理规范、加强风险监测评估与安全监管,为遏制AI滥用引发的隐私泄露等问题提供法治依据,凸显了隐私保护对AI健康发展及网络安全的关键意义。随着LLMs在多领域深度应用,仅靠技术优化难以实现全面防护,还需建立“能力—风险—成本”的协同优化机制:技术层面研究适配LLMs的隐私保护算法,标准层面制定针对性的安全评估规范,治理层面构建多方协同的监管框架。通过技术创新与制度设计的双重突破,实现大模型可用、安全、发展的有机统一。

声明:本文来自世界科技研究与发展,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。