导语:在科技飞速发展的当下,人工智能凭借强大的技术潜力,成为推动医疗、教育、科学研究等领域变革的核心力量,为社会发展注入新动能。然而,人工智能的快速发展也带来了不容忽视的安全风险。尤其是“前沿人工智能模型”这类具有高度通用能力的基础模型,其潜在的“危险能力”如同一把双刃剑,在创造价值的同时,也可能被恶意利用,对社会稳定和人类安全构成严重威胁。因此,深入探讨前沿人工智能模型带来的监管挑战,并构建有效的监管框架和安全标准,成为当前亟待解决的重要课题。

一、前沿人工智能模型的定义

前沿人工智能模型被定义为“具有高度能力的基础模型,同时可能具备对公共安全构成严重威胁的危险能力”。例如生成高度个性化的虚假信息,干扰公众认知,影响舆论走向,甚至破坏选举公正性;逃避人类控制,使模型脱离开发者和使用者的掌控,按照不可预知的方式运行,引发不可控的后果。

二、前沿人工智能模型的监管挑战

(一)模型能力难以预测的问题

前沿人工智能模型可能具备制造安全风险的“危险能力”。这些能力具有极强的隐蔽性和突发性。在模型的测试阶段,开发者往往只能基于有限的场景和数据进行测试,无法全面覆盖所有可能的情况。因此,可能会有一些“危险能力”潜藏在模型中,未能被及时察觉。当模型被部署到实际应用场景后,随着数据输入的变化、使用方式的调整,这些“危险能力”可能会突然显现。模型的微调过程原本是为了让模型更好地适应特定任务,但在这一过程中,也可能意外激活新的“危险能力”。当模型与其他工具结合使用,实现功能增强时,同样可能产生不可控的能力变化,给监管带来巨大挑战,因为监管者很难提前预判这些潜在的风险。

(二)模型被恶意使用的安全问题

在实际应用中,要完全控制前沿人工智能模型的行为几乎是不可能的。即使开发者在模型设计阶段采取了多种安全措施,如内容过滤,试图阻止模型生成有害内容,但这些措施并非无懈可击。攻击者可以通过对抗性攻击,精心设计特殊的输入指令,绕过安全防护,诱导模型产生恶意输出。

以内容过滤为例,攻击者可能使用隐晦的语言、变形的文本格式,或者利用模型的理解偏差,突破过滤机制,使模型生成虚假信息、攻击性言论,甚至用于网络攻击的代码,而现有的安全技术手段在对抗这类攻击时,往往处于被动应对的局面,难以从根本上解决部署安全问题。

(三)开源模型快速扩散而难以管控的

安全问题

前沿人工智能模型的快速扩散特性,让监管工作变得更加复杂和棘手。开源模式虽然促进了技术的共享和创新,但也使得模型的传播失去了有效控制。一旦模型开源,任何人都可以获取其代码和权重,进行二次开发和使用,其中不乏别有用心之人。

技术复制的低成本和便捷性,以及可能存在的窃取行为,进一步加速了模型的扩散。Meta的LLaMA的源代码与模型权重泄露事件就是典型案例,该事件不仅导致模型在未经授权的情况下被广泛使用,还衍生出一系列基于该模型的恶意应用,使得监管机构难以追踪和管控,严重削弱了监管的有效性。

三、监管框架的核心要素

(一)制定安全标准

面对前沿人工智能模型带来的复杂风险,制定科学合理的安全标准是监管的基础。这需要政府、企业、学术界、社会组织等多利益相关方共同参与,发挥各自的专业优势。政府可以提供政策指导和法律支持,企业熟悉技术应用场景和实际需求,学术界具备深厚的理论研究能力,社会组织则能反映公众的利益诉求。

通过多方合作,共同研究和制定开发与部署前沿人工智能模型的安全标准。并且由于人工智能技术发展日新月异,安全标准不能一成不变,必须建立动态更新机制,及时根据技术的演进和新出现的风险,调整和完善标准内容,确保其始终具有针对性和有效性。

(二)增强监管透明度

为了实现对前沿人工智能模型的有效监管,增强监管透明度至关重要。这要求企业向监管机构全面披露模型的开发过程,包括数据来源、训练算法、参数设置等关键信息;提供详细的能力评估结果,明确模型在不同任务和场景下的能力表现;阐述具体的风险控制措施,说明如何防范和应对可能出现的安全风险。

建立第三方审计机制,由独立的专业机构对企业披露的信息进行审核验证,确保信息的真实性和准确性。同时,设立举报人保护机制,鼓励企业内部人员或其他知情者在发现安全隐患或违规行为时,能够放心地向监管机构举报,从而形成全方位的监督体系。

(三)确保合规执行

确保企业遵守监管规定,需要多种手段相结合。一方面,鼓励企业开展自愿认证与自我监管,通过行业自律组织,制定行业规范和标准,引导企业自觉落实安全要求。企业通过自我评估和改进,不仅可以提升自身的安全管理水平,还能在市场竞争中树立良好的形象。另一方面,赋予监管机构强制执法权力,对违规企业进行严厉处罚。对于违反安全标准、存在安全隐患的企业,监管机构可以采取罚款、吊销许可证、市场禁入等措施,以起到威慑作用,确保企业不敢轻易违规。

针对高风险的前沿人工智能模型,实施许可证管理,类似于医药或航空行业的严格审批制度。企业在开发和部署这类模型前,必须向监管机构申请许可证,经过严格的审查和评估,符合安全要求的才能获得许可,从而从源头上控制高风险模型的应用。

四、初步安全标准建议

(一)全面的风险评估

在前沿人工智能模型的训练和部署前,要进行全面的风险评估。评估内容主要包括模型的危险能力和可控性两个方面。针对危险能力,要重点评估模型是否具备设计生化武器、生成恶意信息等潜在危害能力;对于可控性,则要考察模型抵抗对抗性攻击的能力、对有害指令的识别和拒绝能力等。

采用标准化的测试方法,确保评估过程的科学性和公正性,使不同模型的评估结果具有可比性。同时,定期更新评估流程,根据技术发展和新出现的风险类型,不断完善评估指标和方法,保证风险评估能够准确反映模型的实际安全状况。

(二)引入外部专家审查

为了更全面、深入地发现前沿人工智能模型的潜在风险,引入外部专家审查机制十分必要。由独立的第三方机构组织计算机科学家、安全专家、伦理学家等多领域的专业人士,对模型进行安全审计和“红队测试”。

安全审计主要检查模型的设计架构、代码质量、安全措施等方面是否存在漏洞;“红队测试”则模拟真实的攻击场景,通过各种手段尝试诱导模型产生恶意输出,从而发现模型在安全防护方面的薄弱环节。这些外部专家凭借其专业知识和丰富经验,能够发现企业自身难以察觉的潜在风险,为模型的安全优化提供重要参考。

(三)分级部署协议

根据风险评估的结果,对前沿人工智能模型实施分级部署协议,实现差异化管理。对于经过评估确定无风险的模型,可以允许自由部署,充分发挥其技术价值,促进人工智能技术的广泛应用。

对于存在部分风险的模型,要限制其使用场景,例如禁止进行微调,防止在微调过程中激活新的危险能力;对模型的使用范围、用户群体进行限制,降低风险发生的概率。而对于高风险的模型,应严格禁止部署,并要求企业对模型进行销毁,从根本上消除安全隐患,确保公共安全不受威胁。

(四)持续监控与响应

模型部署后,监管工作并非结束,而是进入持续监控与响应阶段。建立完善的监控体系,跟踪模型的使用情况,收集用户的反馈信息,分析模型的输出内容,及时发现异常行为和潜在风险。

根据监控结果,动态调整模型的风险等级。如果发现模型出现新的危险能力或安全漏洞,要迅速采取相应的安全措施,如暂停服务、进行紧急修复、重新评估风险等级等,确保能够及时应对各种突发情况,保障模型的安全稳定运行。

五、监管的不确定性与挑战

(一)定义难题

在对前沿人工智能模型进行监管时,首先面临的难题就是如何精确界定“前沿人工智能模型”和“危险能力”。随着人工智能技术的不断发展,模型的类型和功能日益复杂多样,难以用简单的标准进行区分。同样,“危险能力”的边界也十分模糊,一些能力在特定场景下可能是有益的,但在其他情况下却可能带来危害,如何准确划分其界限,是监管工作面临的重要挑战,需要进一步深入研究和探讨。

(二)创新与安全的平衡

监管的目的是保障公共安全,但过度监管可能会对技术创新产生抑制作用。对于小企业和学术研究机构来说,过于严格的监管要求可能会增加其研发成本和合规负担,阻碍创新的步伐。因此,在制定监管政策和措施时,需要找到创新与安全的平衡点,既要确保人工智能技术的应用安全可控,又要为企业和科研机构留出足够的创新空间,促进人工智能技术的健康发展。

(三)国际合作需求

人工智能技术的发展和应用具有全球性特点,单一国家的监管难以应对技术外流带来的风险。如果某个国家对前沿人工智能模型实施严格监管,而其他国家监管宽松,那么技术就可能流向监管薄弱地区,导致监管失效。因此,推动国际合作,制定全球性的监管标准和规则至关重要。各国应加强沟通与协作,分享监管经验,共同应对前沿人工智能模型带来的公共安全挑战,构建全球统一的人工智能治理体系。

六、展望

前沿人工智能模型的监管是一项复杂而艰巨的任务,它关乎技术创新与公共安全的平衡。通过建立动态的安全标准、增强监管透明度和严格执行合规机制,政府与企业能够形成合力,共同降低前沿人工智能模型带来的风险。然而,当前的监管工作仍面临诸多挑战,未来需要进一步细化监管定义,明确监管边界;加强国际合作,建立全球协同的监管体系;持续优化评估方法,提高监管的科学性和有效性。只有这样,才能确保人工智能技术在安全的轨道上发展,真正造福人类社会。

(本文内容系“启元洞见”公众号原创编译,转载时请务必标明来源及作者)

参考来源:arXiv

参考题目:Frontier AI Regulation: Managing Emerging Risks to Public Safety

参考链接:https://arxiv.org/abs/2307.03718

免责声明:文章内容系作者个人观点,如有任何异议,欢迎联系我们!图片来源于网络,如有侵权请联系删除。

编辑 | 任侠

审校 | 流景

声明:本文来自启元洞见,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。