作者简介

徐明

中国电科太极计算机股份有限公司数字政府集团业务发展事业部资深项目经理,高级工程师,主要从事数字政府以及人工智能在政府数字化转型方面的研究工作。

论文引用格式:

徐明. 生成式人工智能大模型的安全挑战与治理路径研究[J]. 信息通信技术与政策, 2025, 51(1): 10-19.

生成式人工智能大模型的安全挑战与治理路径研究

徐明

(中国电科太极计算机股份有限公司,北京 100012)

摘要:生成式人工智能(Generative Artificial Intelligence,GAI)大模型深刻地影响着信息传播、内容创作和社会互动等领域,也带来数据隐私泄露、虚假内容生成和知识产权保护等一系列安全挑战。通过探究GAI在当前阶段的安全风险和相应的治理策略,以期为该技术的持续健康发展提供借鉴。首先分析了GAI技术发展引致的各种安全挑战。其次探讨了GAI典型安全问题,包括数据安全和隐私、模型滥用、算法稳定性以及GAI技术在文本生成、图像识别等方面存在可被恶意攻击的成因。最后探讨建立多层次的GAI安全治理框架,包括技术层、组织层和社会层以及安全可控可靠的治理策略和具体的治理路径,通过政府监管部门、人工智能企业、学术界以及公众等多方协同治理,提高全社会对GAI安全的认知和应对能力。

关键词:生成式人工智能;数据隐私;虚假内容监管;技术治理路径;安全评价体系

0 引言

人工智能(Artificial Intelligence,AI)技术的发展已经成为当前科技领域备受关注的热点之一,其中生成式人工智能(Generative AI,GAI)大模型以其强大的学习和生成能力引发了广泛关注。然而,伴随着大模型能力的提升,其在安全和伦理方面所面临的挑战也日益凸显。有研究指出,生成式大模型存在着数据滥用、算法稳定性不足、易受对抗攻击等诸多安全隐患[1-2]。例如,GPT-3等大模型在预训练阶段需要海量的数据,一旦这些数据被恶意篡改或污染,将直接影响模型的输出结果,产生严重的安全隐患。此外,研究表明当前主流的GAI模型对于对抗性样本的鲁棒性普遍较差,极易受到恶意攻击而产生错误或有害的输出[1,3]。这些安全挑战不仅危及模型本身的可靠性,更可能对社会安全稳定构成严重威胁。

面对AI大模型所带来的安全风险,亟需从技术创新、伦理规范、法律法规等多个层面开展治理。目前,欧盟委员会提出了《人工智能白皮书》,经济合作与发展组织(Organization for Economic Cooperation and Development,OECD)发布《人工智能原则》等[4],旨在开展AI治理框架和标准工作。我国也先后推出《互联网信息服务算法推荐管理规定》和《互联网信息服务深度合成管理规定》,目标是加强算法科研治理,规范智能技术供给,健全算法推荐机制、算法安全体系和促进深度合成技术安全可信发展,推进算法综合治理、深度合成治理、净化网络空间;新版《网络安全审查办法》《生成式人工智能服务管理暂行办法》和《网络暴力信息治理规定》,目标是探索AI治理法治路径、以安全助发展和以治理促创新,形成面向AI时代的数据治理新生态,以良法善治为清朗网络空间构建法治屏障。这些治理举措形成以下共识:强调要加强对AI系统的风险管控,建立健全的安全评估机制,确保AI沿着有利于人类社会的方向发展。技术层面要加强对GAI大模型的可解释性研究,开发可供审计的模型机制,提升模型对恶意数据和对抗攻击的鲁棒性,同时还应加强跨学科交叉融合,切实保障模型训练数据的安全和隐私。法律法规方面应加快建立适应AI时代特点的法律体系,明确划定AI系统的权责边界,严厉打击利用AI从事危害社会的违法犯罪行为。伦理规范方面要加强AI伦理研究,确立以人为本、安全可控的基本原则,并纳入到AI系统的设计开发全过程。

综上所述,对GAI大模型安全风险问题的有效治理和规范管理要与其发展前景同步进行。本文从技术创新角度探讨GAI典型的数据安全和隐私、模型滥用、算法稳定性、抵御攻击等方面的风险,以及通过技术创新与制度设计并重的多层次治理框架,多方协同共治策略和路径,包括技术防御、法治建设、公众教育、国际合作等多方面内容。确保AI朝着安全可控的方向不断发展,更好地造福人类社会。

1 AI大模型概述

1.1 GAI模型的发展

GAI近年来发展迅速,以ChatGPT、Stable Diffusion、Sora、LLaMA、文心一言等大型语言模型和多模态模型为代表,生成能力不断提升。这些模型通过海量数据的训练,能够生成高质量的文本、图像、视频等内容,在内容创作、对话交互、知识问答、文生图等领域展现出巨大的应用潜力[3,5-6]。以GPT-3为例,其参数量高达1 750亿[7],在标准测试中展现出类人水平的语言理解和生成能力;而DALL-E 2则能根据文本提示生成逼真的图像,其分辨率可达1 024×1 024像素。然而随着GAI模型能力的增强,其安全风险也日益凸显。由于这些模型大多采用无监督学习方式进行训练,很难对其生成内容进行有效约束和控制,模型可能生成有害、违法或不道德的内容,如仇恨言论、暴力血腥画面等[1-2]。同时,模型训练所需的海量数据也可能引发隐私泄露问题。此外,模型的生成能力还可能被滥用于制造假新闻以及深度伪造等,对社会安全稳定构成威胁[1,8]

针对这些安全挑战,学术界和产业界开始探索相应的应对措施。DeepMind公司提出了“可控生成”(Controlled Generation)的概念,通过对模型施加额外的约束条件,使其生成内容符合特定要求。微软研究院则提出了一种基于强化学习的方法,通过惩罚模型生成有害内容的行为,引导其学习生成安全合规的内容。这些技术探索为解决生成式模型的安全问题提供了新的思路。

目前GAI模型的安全问题表现为以下几点。首先,现有的技术方案还不够成熟,很难完全消除模型产生有害内容的可能性。其次,李飞飞[5]认为GAI技术仍旧处于“前牛顿”时代,该技术还会持续突破和涌现,因此随之的安全问题和种类也会持续出现。最后,GAI模型的安全问题还涉及伦理、法律等诸多方面,单靠技术手段难以全面应对。未来还需要在技术创新、伦理规范、法律法规等多个维度协同发力,建立多方参与的治理机制,促进AI健康可持续发展。

1.2 文献综述

本文分别从风险识别和治理路径两方面总结国内外学者的研究成果。

1.2.1 GAI风险识别综述

大模型实施过程:首先是风险评估。随着GAI数据容量的快速积累,其在数据、算法安全等方面存在质量风险[9-10],表现为标注数据质量差异、语料库无代表性、敏感信息泄露等[11],可能导致模型生成毒害内容、虚假信息传播、用户数据泄露等挑战[9-13]。此外,算法不透明[14]导致的模型不可解释、算法操控[13]、人机关系中的伦理风险等,可能导致风险快速传递和削弱网络空间的凝聚力等[14-15]。其次是风险识别。在数据采集、存储等6个阶段[16-17]上识别GAI数据安全风险,建立静态和动态风险认知体系[18],从风险议题等3个维度分析[19]这些风险,区分出在数据主权、网络安全、内容安全治理领域等方面是否存在威胁[17,20]。最后是风险根源。分析算法和数据是否对AI安全产生影响,以及AI对隐私、伦理道德等方面产生影响的根源[1],尤其是否加剧“技术霸权”与“数据污染”[13]等现实危机。

典型领域应用:首先,教育领域的GAI教育应用悖论会形成伦理、教育失范、“社会-物理-信息”空间交互异化等风险[21],以英国罗素大学集团为案例从“数据陷阱冲击教育管理系统”“算法支配损害教师主体权威”和“智能依赖造成学生学习畸化”3个方面讨论伦理风险[22]。另外,相关风险可划分为直接风险、早期风险等,反映创新与传统、教师与人工智能等矛盾[21]。其次,AI可能带来涉及国家网络主权的安全风险[23],会影响该技术的健康与可持续发展[24],可从技术嵌入逻辑等维度来分析AI诱发安全风险的原因进行分析[23]。最后,GAI在国家安全治理[25]和政府治理[26]领域的运用会带来网络稳固性威胁等安全风险[25-26],具体表现为网络攻击、安全漏洞等[25],严重挑战公共伦理和社会秩序[26]

1.2.2 GAI治理路径综述

治理方法论维度:由18个国家和地区共同倡议的“全球合作人工智能网络”提出全球安全观,推进风险治理体系建设[10],推动AI技术的负责任发展与利用[4]。以多方参与性、时间敏感性等为核心的敏捷治理模式主要应对AI的不确定性和提升治理能力[27]。欧盟和美国采用政府主导多方参与的大模型治理体系[28],我国AI治理路径兼顾国家安全和国际安全[29],我国发布的《数据出境安全评估办法》和《促进和规范数据跨境流动规定》持续优化我国数据出境制度,通过大模型数据分类监管路径,探索包容审慎监管的创新监管机制[18],以“善治”谋求“善智”[5]。以“价值维”等4个维度提出科技安全工程框架[30],建立底线式科技安全治理体系和AI治理底线[31]。要平衡发展与安全,治理与激励相容[2],从而探索GAI“有限开放”发展的道路,确保GAI发展可信、可靠、可控[32]

GAI实施过程的安全风险,分别从技术、应用和监管(主要是法律和伦理准则[24])层面,明确政府、社会和个体的责任义务[20],确保GAI技术的健康与可持续发展[24]。首先,在技术层面,引入敏捷的数据共治体系[16],针对语料库、算法等恶意操作和非法控制风险革新GAI数据安全治理范式[17]。而数据治理监管工具[9]以数据解释机制为核心,加强对互联网生态的监控[15]。针对数据输入环节,从数据源头、内部运行到数据生成建立全链条风险防范机制,整合合规技术控制等数据治理路径[11],开展可解释性、AI安全控制技术研究等[1]。其次,从应用层面,GAI教育应用悖论治理应形成多元主体参与治理的协同联动机制[21-22]。在国家安全和政府治理效果中,系统构建适应GAI应用的具有韧性的公共安全风险治理体系[25-26]。从数字安全防御技术、社会安全响应制度等方面着力[33-34],具备“人机”双重把关的风险防控机制[23]。最后,从监管层面,研究者提出法律规范、协同治理等维度的GAI安全风险治理[19]。一方面制定综合性法律、探索监管和创新兼顾的治理制度[16],采用技术工具应对其潜在法律风险[35],健全GAI的标准化安全评估体系[12]。另一方面,在法治框架下建立健全完善科技伦理监督管理规范等,实现协同联动治理[13,16,33,36-37],强化个人信息自我保护能力等策略,全面提升AI时代个人信息安全治理能力[33]。此外,主张不能习惯性地将技术创新与新型技术风险等同[38]

综上所述,当前研究中对于风险识别主要是在实施技术层面和应用层面,而治理路径包括方法论层面和实施过程的技术、应用和监管路径。本文将在分析安全风险成因基础上探索治理策略和路径。

2 安全问题分类

进一步分析安全风险的成因主要来自应用层面挑战和算法层面挑战[30]

在应用层面,大模型的泛化能力和多功能性包含安全隐患。模型生成的内容可能包含有害信息导致负面影响;模型滥用导致违法犯罪活动和经济损失;模型的鲁棒性、隐私保护、知识产权和现有保护技术均面临严峻考验。

在算法层面,大模型算法存在内在的安全隐患。首先,GAI算法本质上是一种统计学习方法,其性能很大程度上依赖于海量数据(大规模语料库)。而海量的训练数据不可避免地包含噪声、偏差等问题,从而导致模型产生错误预测或有偏见的输出[1,39-40]。其次,针对大模型的攻击也会存在生成有害的敏感内容、虚假信息误导舆论、可能的辅助犯罪、数据隐私泄露和预训练数据中可能的版权侵犯等问题[3,39]。再次,模型的复杂性和不透明性也带来安全隐患。GAI大模型拥有庞大、复杂的网络结构,使得模型的内部机制成为一个“黑箱”,即便是模型开发者也难以完全理解其工作原理[1]。这不仅增加了模型被恶意利用的风险,也使得事后的审计、问责等治理措施难以实施。

综上,本文将在应用层面和算法层面描述安全问题。应用层面包括数据安全威胁与模型滥用,算法层面包括算法稳定性与对抗性攻击。

2.1 数据安全威胁与模型滥用

GAI大模型在带来技术革新的同时在应用层面也带来两类典型安全挑战:数据安全和模型滥用。数据安全涉及到版权保护、数据质量、隐私安全,而隐私安全可进一步分为脱敏算法保护效果有限、模型记忆和模仿生成隐私数据、未遵守隐私政策、模型推理过程的服务漏洞。

首先是版权保护问题,Gershgorn等统计,目前主流的大模型训练数据集中有5%~10%的内容来自版权保护的网页,平均每个数据集涉及约130万个网站的版权内容,这给相关企业和机构带来了巨大的法律风险[2,4,33,40-41]。其次是数据质量问题,当前主流的GAI大模型所使用的数据往往存在质量不一、分布不均衡,也就是包含各种噪声与偏差等问题,可能导致模型学习到错误、有害或带有偏见的信息[40]。再次是隐私安全问题,大规模语料库中往往包含大量的个人隐私信息,如姓名、地址、身份证号码等。

尽管AI企业声称已经对数据进行了脱敏处理,但Simon-Gabriel等[1]发现,当前主流的脱敏算法对于大规模预训练模型的隐私保护效果有限,模型输出中仍有可能出现原始数据中的隐私信息[1,39]。谷歌近期研究成果表明,GAI会记住原始数据中的训练图像并模仿生成,会导致隐私、敏感信息泄露[3]。近期研究表明,仅需2 000条训练样本,就能以78.5%的成功率还原出用户的敏感信息[42],因此也导致有关个人隐私泄露的法律诉讼事件时有发生。OpenAI公司使用其用户的个人信息训练大模型,是否遵守隐私政策或者有效识别并剔除训练数据集中的个人信息,有学者[3]指出这可能是法律诉讼的焦点。隐私泄露事件也引起公众对应用大模型的推理技术以及大模型的安全可信的担忧,例如,来自开源库的漏洞可能让使用ChatGPT服务的部分用户看到了其他用户的聊天记录标题。

除了数据隐私和版权问题之外,预训练大模型还可能被滥用于生成虚假信息、色情内容等有害信息。Buchanan等[2,8]分析了GPT-3等主流生成式大模型的输出内容,发现其中含有大量的误导信息、暴力和色情内容,同时模型还可能被恶意利用实施网络攻击等违法犯罪活动[36]。现有的水印技术和访问控制机制还难以从根本上遏制[32,43]日益频发的模型窃取和滥用事件。这些滥用行为不仅损害了模型的社会声誉,也给相关企业和机构带来了信任危机。例如2021年,某公司的开源对话模型产生大量误导信息,该模型不得不被暂停[1]。因此确保大模型生成符合人类价值观和法律政策监管的安全输出是防止模型滥用和保障安全落地的一项主要任务[3]

2.2 算法稳定性与抵御攻击的挑战

AI算法的稳定性和可靠性是确保AI系统安全运行的关键。GAI大模型所依赖的神经网络学习算法本身也存在容易受到对抗性攻击、鲁棒性不足等缺陷[3,6]

对抗样本攻击是当前AI算法面临的主要威胁之一。Goodfellow等[44]首次提出了对抗样本的概念,通过在原始样本上叠加难以察觉的扰动,可以使得深度神经网络模型产生错误的分类结果。如GPT-3在标准测试集上的准确率可达97.3%,但在对抗性样本测试中的准确率骤降至43.7%[45]。Carlini等[34]提出了一种更加强大的对抗攻击方法,称为C&W攻击,具有100%攻击成功率,可生成高质量的对抗样本。此外,对抗样本具有较强的迁移性,在某个模型上生成的对抗样本可以有效地迷惑其他模型,这进一步加剧了对抗攻击的威胁。如文本分类模型中针对词语层面的对抗样本攻击,通过篡改输入文本中的词语从而改变分类模型的输出结果,同时采用逃避核查机制,将引发对公众的误导及虚假信息传播,甚至带有暴力事件等,无论是使用这些算法的学术界,还是只关注结果的社交媒体和新闻界以及一些在线社区等都不能幸免[3]

算法稳定性的另一个重要挑战是模型鲁棒性不足。He等[40-41]发现,通过向输入数据中注入经过精心设计的扰动即可降低模型性能,以语言模型为例,研究发现仅需在训练集中掺入0.3%的恶意数据,便可使模型生成具有负面情绪倾向的文本,准确率高达97.6%[31,46]。再以图像分类为例,仅仅通过在输入图像中加入高斯噪声、模糊、JPEG压缩等常见的图像变换,攻击者可以误导模型作出错误判断,显著降低深度神经网络的分类准确率。据估计,当前主流的图像分类模型准确率可被降低30%以上[2,47]。这表明,当前的深度学习模型对于输入扰动的鲁棒性还有待提高。在实际应用中,环境噪声、成像质量下降等因素都可能导致模型性能的大幅下降,影响系统的可靠性。

3 治理策略与建议

通过以上从应用到算法的分析,GAI大模型的泛化性和全面性面临前所未有的安全挑战,也带来了众多的隐私、伦理和法律问题[3]。这些挑战不仅威胁到模型的健康发展,更可能危及社会公众的切身利益。因此,亟需从技术创新与风险管控并重、立法规制与行业自律并进、伦理规范与哲学基础并举等多个层面开展协同治理。

3.1 治理理论基础与原则

GAI的治理理论基础主要源于信息伦理学、技术哲学和风险管理理论。信息伦理学提供了处理数字环境中道德难题的框架,强调信息的完整性、可用性和隐私保护。技术哲学则关注技术发展对人类社会的影响,为理解GAI与人类的关系提供了思考维度。风险管理理论为评估和应对GAI带来的潜在风险提供了系统化方法。

基于这些理论基础,可以提炼出GAI治理的核心原则:安全性、透明度、问责制、公平性和隐私保护。安全性原则要求GAI系统在设计和运行中都必须优先考虑安全因素,包括技术安全和社会安全。透明度原则强调GAI决策过程应当可解释、可追溯,以增强公众信任。问责制原则确保GAI系统的开发者和使用者对其行为负责。公平性原则要求GAI系统不得有意或无意地歧视特定群体。隐私保护原则强调在利用数据的同时,必须尊重和保护个人隐私权。

为了更好地实施这些原则,本文提出了一个多层次的治理框架,包括技术层、组织层和社会层。在技术层面,强调采用随GAI技术发展不断演化的各种安全学习算法技术来增强数据安全性和隐私保护。在组织层面,强调建立GAI安全和法律伦理社会组织和风险评估机制,由权威专家共同体依据伦理、法律、安全标准,采用科学的风险评估方法对重大决策进行伦理、法律和安全审查。在社会层面,提倡建立多方利益相关者参与的治理机制,包括政府、企业、学术界和公民社会组织,通过定期举行圆桌学术会议、畅通公众咨询渠道和安全伦理技术发布会等方式,传播和强化GAI使用的安全和伦理风险防范。

3.2 技术层治理:技术创新

为有效应对GAI大模型在生成自然语言、图像、视频等领域带来的安全性和稳定性方面的诸多风险与挑战,亟需在技术创新层面采取有效的技术治理措施。

3.2.1 数据安全威胁与模型滥用的技术治理

针对数据质量问题要加强对数据来源的审查和过滤以及加强对数据敏感信息的筛选和清洗,确保训练数据的合规性和代表性,主要针对预训练数据的质量问题,而安全评估与审查主要针对GAI大模型输出进行过滤,最大限度降低大模型学习到不良信息的概率。

关于隐私保护要在保护技术上不断创新。针对脱敏算法保护效果有限,联合学习(Federated Learning)和差分隐私(Differential Privacy)技术可以用来增强数据安全性和隐私保护。联合学习允许在不共享原始数据的情况下进行模型训练,有效降低了数据泄露风险;而差分隐私技术通过向数据中添加随机噪声来保护个人隐私,同时可以保持数据分析结果有效性,然而其复杂度特征不适合应用在GAI模型中。

针对由脱敏算法保护效果有限、模型记忆和模仿生成隐私数据、未遵守隐私政策以及模型推理过程的服务漏洞引致敏感数据的隐私泄露,可以考虑GAI大模型敏感数据遗忘技术,其原理是在大模型的预训练数据所在的后台数据库中直接删除认定的个人敏感信息、版权保护内容,因此在保护用户个人数据隐私、移除受版权保护的内容、避免生成误导性信息或歧视性内容方面起到重要作用,可以在满足隐私保护相关政策要求的同时,增强用户对大模型的信任。然而此项技术中的移除算法需要很高的计算代价,导致时间成本增加,同时由于大模型的“黑盒”性质导致模型权重和数据之间的关系不明确,因此提高大模型敏感数据遗忘技术的执行效率是关键挑战。Pawelczyk等[48]提出了一种结合提示词技术实现的遗忘算法,既不访问大模型的参数,同时能满足安全性与效率的需求,还可实现敏感数据的遗忘且能够保持大模型的性能水平。此外,遗忘算法会随着应用场景的扩大和深入不断更新和改进,与其他隐私保护技术融合发展,以及配合制定严格的隐私保护法律法规,在实践中也有很好的发展前景。

针对模型推理过程的服务漏洞,由开源库的漏洞导致的部分用户标题泄露可归结为用户数据在推理过程中的泄露,可采用大模型安全推理技术来防护,例如CipherGPT采用两方隐私GPT推理技术,对于推理模型中的线性层,CipherGPT采用大规模矩阵运算的批量预处理[6]优化运算效率;对于非线性层,CipherGPT通过分段查表技术实现高效而精确的计算,这些协议优化了整体的安全推理过程[3]

针对用户对大模型安全可信的担忧,可以将安全技术结合基础大模型和多模态大模型的相关技术,构建各种垂直领域的安全大模型,如专用于安全可信领域的大模型将重塑安全可信体系,从而增强用户对大模型本身的安全可行的认可度。由此,不断增强的大模型安全性能和用户可信程度有助于形成完整的可信大模型安全保障体系。

针对模型滥用的技术原因,可以归结为数据质量问题、脱敏算法保护失效、模型记忆和模仿生成隐私数据、模型推理过程的服务漏洞,可以相应采用上述技术措施来防止。

3.2.2 对算法稳定性与抵御攻击构成挑战的技术治理

算法层面的持续优化算法用来增强模型的鲁棒性、可解释性以及公平性,提高其抵御恶意攻击的能力。

针对C&W攻击,在预训练数据集中引入对抗性样本可以提高模型的鲁棒性,或者通过检查手段把检测出来的对抗性样本予以排除来削弱攻击性,或者在预训练数据集中加入从平滑分布中采样的随机噪声,这样对于包含随机扰动的测试集模型仍旧可以作出与原始类别一致的判断,这被称为随机平滑技术。然而上述几种方法的缺陷是明显的:只能适应指定的对抗性攻击或者攻击距离加大后随机平滑技术可能会失效。Zhang等[49]提出了基于随机平滑框架的改进算法,其原理是利用词向量空间分析词语之间的关联,针对词语数据集的4种基本对抗操作:同义词替换、词语重排序、插入和删除,转化为一些变换的组合,根据不同对抗操作选择合适的噪声平滑分布用于预训练,该模型算法有优良的安全性和鲁棒性。

针对数据注入扰动、环境噪声干扰等引起的模型判断错误和性能下降,Madry等[50]提出的对抗性训练方法可将模型的鲁棒准确率从3%提高到45%以上。Liu等[51]提出了Minimax Unlearning算法用于提升数据遗忘技术的性能,该算法被称为完全牛顿步遗忘更新算法,具有两组参数的学习变量,利用全海森矩阵形式并结合使用差分隐私算法中的高斯机制,针对数据注入扰动的攻击,用随机扰动来近似达到删除目标数据后的剩余数据上重新训练的效果,从而实现在两组学习变量的大模型删除敏感数据的需求。

3.3 组织层治理:法律和伦理指导、风险管控

建立GAI安全和法律伦理社会组织和风险评估机制,其中GAI安全和法律伦理社会组织应由多学科专家组成,负责制定GAI开发和使用的伦理、法律和安全规则和准则,并对重大决策进行伦理、法律和安全审查。风险评估机制应采用定量和定性相结合的方法,全面评估GAI系统的潜在风险。

GAI的安全隐私治理需要法律与伦理的双重指导。现有法律框架对AI应用的规制存在不足,亟需制定专门的法律法规。《中华人民共和国个人信息保护法》虽为个人信息保护提供了基本框架,但由于GAI技术的爆发式发展,现有法律框架滞后,因此对GAI的特殊性考虑不足。因此在现行的《生成式人工智能服务管理暂行办法》和《网络暴力信息治理规定》实践基础上进行总结,与时俱进地明确GAI的法律地位、开发者责任、数据处理规则等。明确GAI系统必须具备可解释性,并要求开发者提供算法审计接口,接受第三方审核。同时由GAI安全和法律伦理社会组织监督执行。

在数据使用方面,应采取数据最小化原则。GAI训练数据集中的个人信息应进行去标识化处理,删除直接识别个人身份的信息。对于不可避免涉及的敏感信息(如医疗数据),可考虑遗忘技术进行脱敏,在保护隐私与保留数据有用性之间取得平衡。此外,可利用可信区块链技术建立数据溯源机制,记录训练数据来源与处理过程,便于追责。

对于生成内容的管控,应建立多层次审核机制。首先,GAI系统应内置敏感词库与违禁内容识别模型,对生成内容进行初步过滤。其次,平台方应建立人工审核团队,对GAI生成内容进行抽检。再次,鼓励用户举报不当内容,建立快速响应机制。对于涉及国家安全、公共安全等重要领域的应用,应实行强制性的第三方安全评估制度。评估内容包括数据安全、算法公平性、输出合规性等,评估结果向社会公开。

在伦理层面,应遵循“以人为本”原则,确保GAI发展方向符合人类共同价值观。欧盟发布的《可信赖人工智能伦理准则》、我国发布的《互联网信息服务深度合成管理规定》和新版《网络安全审查办法》,都在尝试建立GAI的伦理规范。要涵盖尊重人的自主权、公平性、可解释性、隐私与数据治理等方面的伦理规范。具体而言,GAI系统应具备人机交互界面,清晰告知用户正在与GAI系统对话,避免用户产生误解。系统应提供输出内容选项,允许用户选择不使用GAI生成内容。对于可能产生重大影响的决策,如医疗诊断、司法裁决等,应保留“人在回路”机制,即最终决策权仍由人类把控。

为保障伦理准则的有效落实,可采用“伦理设计”方法,将伦理要求融入GAI系统开发全周期。在需求分析阶段,应进行伦理风险评估,识别潜在的伦理问题。在系统设计阶段,应将伦理准则转化为具体的技术要求,如设置偏见检测模块、隐私保护机制等。在测试阶段,应进行伦理合规性测试,验证系统是否符合伦理要求。此外,应建立伦理审核制度,重大GAI项目必须通过伦理审查后方可实施。

法律与伦理指导应与技术发展相适应,保持动态更新。建议建立GAI安全隐私治理联席会议制度,由政府部门、企业代表、学界专家等多方参与,定期评估治理成效,及时调整政策措施。通过法律规制与伦理引导相结合,技术手段与制度保障并重,构建全方位、多层次的生成式AI治理体系,促进AI技术健康发展,最大化其社会价值。

此外还需要建立健全的GAI应用风险评估机制,对大模型的应用设置必要的限制与边界。例如,在涉及高风险领域如医疗、金融、司法等的关键任务中,应严格评估模型的可靠性和适用性,避免全面替代人类决策;同时加强人机协同,通过人工审核等方式及时发现和纠正错误[1]。此外,还应加强全社会的AI素养教育,提高公众对AI的认知和判断能力,避免盲目迷信,共同营造安全、有序的AI发展环境。最后,倡导利用目标导向的分析法,也就是将“目标-需求-系统”[31]相互结合构建三维一体的风险评估分析框架。充分利用科技安全工程学的基本知识框架[30]从“价值维”“理论维”“方法维”“技术维”4个维度构建风险底线思维,从而着力防范化解重大风险。

3.4 社会层治理:跨界合作与共治机制

政府、企业、科研机构和社会公众应加强跨界合作,协同推动GAI大模型安全治理。政府需建立跨部门的联动机制,制定AI安全风险监管政策,加强标准规范的统一管理。同时要积极开展国际合作,在国际AI伦理规则、技术标准制定等方面争取更大话语权[36]。企业需提高社会责任意识,加大技术投入,加大应对算法偏差、训练数据污染等安全风险的检测和防御技术等研发,并积极配合政府监管。科研机构要开展前瞻性、系统性研究,构建AI安全风险评估指标体系,研发模型鲁棒性增强、可解释性提升等关键技术,为政府监管和企业规避风险提供理论支撑和技术支持[46-47]

社会公众作为AI应用的直接受众,要参与到安全共治中来。政府及企业应搭建AI技术问题的公共舆情反馈平台,鼓励公众对涉及个人权益侵犯等问题进行监督和举报,并针对有价值的数据及时处理,将真正的公意纳入AI治理考量[45,52]。高校和科研院所要主动开展AI伦理和安全方面的科普宣传,提高公众对AI潜在风险的认知,引导形成理性、客观看待AI的社会共识。同时,要积极开展国际学术交流合作,借鉴发达国家AI治理经验,提升我国AI全球治理的制度性话语权[5]

各主体通力合作,才能促进AI大模型安全治理体系的完善。在机制层面,可考虑成立国家AI安全治理委员会,由政府牵头,吸纳企业、科研机构、公众等多方代表参与,统筹规划和指导AI安全治理工作。同时探索建立企业、科研机构和公众的常态化沟通对话机制,推动政企、产学、官民互动,形成工作合力[33]。此外,要完善AI事故的法律责任认定和纠纷解决机制,明确各参与主体的权利义务边界,依法平衡创新与安全的关系。AI安全问题错综复杂,涉及技术、伦理、法律等诸多层面,任何单一主体都无法独立应对,必须协同各方力量,共建共享、多元共治,才能将AI的创新活力与安全底线有机统一起来。

4 结束语

GAI大模型的突飞猛进带来了多方面潜在风险和挑战,本文重点讨论两大类挑战:数据安全威胁与模型滥用、算法稳定性与抵御攻击的挑战,并提出了一个多层次的治理框架,包括技术层、组织层和社会层。从技术角度看,亟待提高大模型的安全性、鲁棒性和可控性。通过加强数据审查、清洗敏感信息、安全评估、联合学习和差分隐私技术为敏感数据建模和隐私保护提供了可行性;通过大模型敏感数据遗忘技术、安全推理技术和安全领域的可信大模型技术来应对GAI模型导致的隐私问题、数据安全、模型滥用问题和建立大模型安全可信信念。通过在目标函数中引入梯度裁剪、对抗训练等技术、改进的随机平滑框架算法,来提高GAI模型面对恶意攻击时的稳定性和抗干扰能力。组织层面上,呼吁以负责、透明、可控的方式开发GAI系统,强调制定AI伦理准则,建设健全的GAI大模型安全法律法规体系建设并严格实施。社会层面上政府法律法规、行业自律与他律密切配合,学术界重视安全可信策略和AI伦理研究,公众自觉遵守和积极维护安全伦理,这样多方携手共建GAI安全良性生态圈,以负责任的态度把握GAI发展方向,方能为大模型健康发展提供坚实保障。

Research on security challenges and governance path of generative artificial intelligence big model

XU Ming

(CETC Taiji Computer Co., Ltd., Beijing 100012, China)

Abstract: The Generative Artificial Intelligence (GAI) model profoundly affects fields such as information dissemination, content creation, and social interaction, but also brings a series of security challenges such as data privacy breaches, false content generation, and intellectual property protection. By exploring the security risks and corresponding governance strategies of GAI at the current stage, this paper hopes to provide reference for the sustainable and healthy development of this technology. Firstly, this paper analyzes various security challenges caused by the development of GAI technology. Secondly, this paper discusses typical security issues of GAI, including data security and privacy, model abuse, algorithm stability, and the reasons why GAI technology can be maliciously attacked in text generation, image recognition, and other areas. Finally, this paper explores the establishment of a multi-level GAI security governance framework, including technical, organizational, and social layers, as well as secure, controllable, and reliable governance strategies and specific governance paths. Through collaborative governance by artificial intelligence enterprises, academia, government regulatory departments, and the public, this paper aims to enhance the overall society’s awareness and response capabilities to GAI security.

Keywords: generative artificial intelligence; data privacy; false content regulation; technological governance approaches; security assessment framework

本文刊于《信息通信技术与政策》2025年 第1期

声明:本文来自信息通信技术与政策,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。