该行为准则旨在帮助行业遵守《人工智能法》中关于通用目的人工智能模型的安全性、透明度和版权方面的法律义务。
通用目的人工智能(GPAI)行为准则是一个自愿性工具,由独立专家通过多方利益相关者流程制定,旨在帮助行业遵守《人工智能法》中对通用目的人工智能模型提供者的义务要求。有关该准则起草过程的时间线,请阅读更多内容。
该准则于2025年7月10日发布。在接下来的几周内,各成员国和欧盟委员会将评估其充分性。此外,该准则还将由欧盟委员会发布的关于通用目的人工智能模型关键概念的指南作为补充,该指南预计将于7月内发布。
准则的三个章节
您可以在下方下载该准则,该准则由三个独立撰写的章节组成:透明度、版权以及安全与保障。
透明度和版权章节为所有通用目的人工智能模型的提供者提供了一种方式,以证明其遵守《欧盟人工智能法》第53条规定的义务。
安全与保障章节仅适用于少数最先进的模型提供者,即那些根据《欧盟人工智能法》第55条规定,承担具有系统性风险的通用目的人工智能模型提供者义务的实体。
章节 | 主要内容 |
---|---|
透明度 | 透明度章节提供了一个用户友好的模型文档表格,使提供者能够轻松记录遵守《欧盟人工智能法》中关于模型提供者确保足够透明度的义务所需的信息。 |
版权 | 版权章节为提供者提供了实用的解决方案,以满足《欧盟人工智能法》中关于制定政策以遵守欧盟版权法的义务。 |
安全与保障 | 安全与保障章节概述了管理系统性风险(即来自最先进模型的风险)的具体、最先进实践。提供者可以依据该章节履行《欧盟人工智能法》中关于具有系统性风险的通用目的人工智能模型提供者的义务。 |
附:透明度章节全文翻译
Nuria Oliver
工作组1联合主席
Rishi Bommasani
工作组1副主席
透明度章节主席与副主席的引言说明
透明度章节描述了签署方承诺实施的三项措施,以履行其在《欧盟人工智能法》第53条第1款第(a)和(b)项及其附件XI和XII中所规定的透明度义务。
为便于签署方履行措施1.1中的承诺,我们提供了一个用户友好的模型文档表格,使签署方能够轻松汇总《欧盟人工智能法》上述条款所要求的信息。
该表格中每一项信息都标明了其预期接收方:下游提供者、人工智能办公室(AI Office)或国家主管机关。仅当AI办公室主动提出请求,或应国家主管机关的请求而提出时,才需提供面向AI办公室或国家主管机关的信息。此类请求将说明其法律依据和目的,并仅涉及在当时为AI办公室履行其职责或国家主管机关行使其监督职能所严格必要的信息,特别是用于评估基于通用目的人工智能模型构建的高风险AI系统的合规性,且该系统提供者与模型提供者不同。
根据《欧盟人工智能法》第78条,任何接收模型文档表格信息的主体均有义务保密所获取的信息,特别是知识产权、商业机密,并应采取充分且有效的网络安全措施,以保障所获取信息的安全性与保密性。
目标
本行为准则(以下简称“准则”)的总体目标是改善内部市场的运作,推动以人为本、可信赖的人工智能(AI)的应用,同时确保在欧盟范围内对健康、安全及《宪章》所保障的基本权利(包括民主、法治和环境保护)提供高水平保护,防止AI的有害影响,并依据《欧盟人工智能法》第1条第1款支持创新。
为实现上述总体目标,本准则的具体目标如下:
A. 作为一份指导文件,帮助证明对《人工智能法》第53条和第55条义务的遵守,同时承认遵守本准则并不构成对这些义务的最终合规证据。
B. 确保通用目的人工智能模型的提供者履行其在《人工智能法》下的义务,并使AI办公室能够评估选择依据本准则证明其合规性的模型提供者是否履行了其义务。
序言
鉴于:
(a) 签署方认识到通用目的人工智能模型提供者在AI价值链中的特殊角色与责任,因为他们所提供的模型可能成为多种下游AI系统的基础,这些系统通常由需要深入了解模型及其能力的下游提供者开发将模型集成到其产品中并履行其在《人工智能法》下的义务(参见该法第101条序言)。
(b) 签署方认识到,在对通用目的人工智能模型进行微调或其他修改的情况下,若自然人、法人、公共机构或其他实体对该模型进行修改并成为修改后模型的提供者,则其在行为准则透明度章节下的承诺应仅限于该修改或微调部分,以符合比例原则(参见该法第109条序言)。在此情况下,签署方应考虑欧盟委员会发布的相关指南。
(c) 签署方认识到,在不超出本准则透明度章节承诺的前提下,在向AI办公室或下游提供者提供信息时,可能需要考虑市场和技术发展,以确保信息继续有助于AI办公室和国家主管机关履行其在《人工智能法》下的职责,并帮助下游提供者将签署方的模型集成到AI系统中并履行其义务(参见该法第56条第2款第(a)项)。
本准则章节聚焦于《人工智能法》第53条第1款第(a)和(b)项所规定的文档义务,适用于所有通用目的人工智能模型提供者(不影响第53条第2款所规定的例外情形),即涉及附件XI第1节和附件XII的内容。附件XI第2节所规定的文档义务,仅适用于具有系统性风险的通用目的人工智能模型提供者,相关内容在本准则安全与保障章节的措施10.1中涵盖。
承诺1:文档编制
相关法律条文:《欧盟人工智能法》第53条第1款第(a)项、第(b)项、第2款、第7款,以及附件XI和XII。
为履行《欧盟人工智能法》第53条第1款第(a)和(b)项所规定的义务,签署方承诺依据措施1.1编制并保持模型文档的最新状态,向有意将通用目的人工智能模型集成到其AI系统中的AI系统提供者(以下简称“下游提供者”)提供相关信息,并在AI办公室提出请求时(可能是应国家主管机关的请求,若该请求对于其行使其在《人工智能法》下的监督职能严格必要,特别是用于评估基于通用目的人工智能模型构建的高风险AI系统的合规性,且该系统提供者与模型提供者不同)提供该信息,依据措施1.2执行,并依据措施1.3确保所记录信息的质量、安全性和完整性。根据《人工智能法》第53条第2款,上述措施不适用于在免费和开源许可证下发布并满足该条款规定条件的通用目的人工智能模型提供者,除非该模型是具有系统性风险的通用目的人工智能模型。
措施1.1:编制并保持模型文档的最新状态
签署方在将通用目的人工智能模型投放市场时,应至少记录以下模型文档表格中所列的所有信息(以下简称“模型文档表格”)。签署方可选择填写附录中提供的模型文档表格以履行本承诺。
签署方应更新模型文档,以反映其中信息的任何相关变更,包括同一模型的更新版本,并在模型投放市场后保留旧版本文档10年。
措施1.2:提供相关信息
签署方在将通用目的人工智能模型投放市场时,应通过其网站或其他适当方式(若无网站)公开披露联系方式,以便AI办公室和下游提供者请求访问模型文档中的相关信息或其他必要信息。
签署方应在AI办公室根据《人工智能法》第91条或第75条第3款提出请求时,提供模型文档表格中的一项或多项要素或任何其他必要信息,以便AI办公室履行其职责或国家主管机关行使其监督职能,特别是用于评估基于通用目的人工智能模型构建的高风险AI系统的合规性(该系统提供者与模型提供者不同),并在AI办公室根据第91条第4款规定的期限内提供最新信息。
签署方应向下游提供者提供模型文档表格中面向下游提供者的最新信息,并遵守《人工智能法》第53条第7款和第78条规定的保密措施和条件。此外,在不违反欧盟和国家法律对知识产权和商业秘密保护的前提下,签署方应在下游提供者提出请求时,提供其理解通用目的人工智能模型的能力和局限性所必需的信息,以便其将模型集成到其AI系统中并履行其在《人工智能法》下的义务。签署方应在合理时间内提供此类信息,最迟不得超过收到请求后的14天,除非存在特殊情况。
鼓励签署方考虑是否可以将所记录的信息全部或部分向公众披露,以促进公共透明度。部分信息还可能需要以摘要形式作为训练内容摘要的一部分公开,依据AI办公室提供的模板,履行《人工智能法》第53条第1款第(d)项的义务。
措施1.3:确保信息的质量、完整性和安全性
签署方应确保所记录的信息经过质量和完整性控制,作为履行《人工智能法》义务的证据保留,并防止其被非预期篡改。在编制、更新、控制信息质量和安全性的过程中,鼓励签署方遵循既定协议和技术标准。
模型文档表格
以下为模型文档表格的静态、不可编辑版本。在此版本中,输入字段无法填写。可交互、可填写的版本另行提供。
本表格包含《行为准则》透明度章节措施1.1中要求记录的所有信息。右侧的勾选框表明记录的信息是为AI办公室(AIO)、国家主管当局(NCAs)还是下游提供商(DPs)准备的,即那些打算将通用目的AI模型集成到其AI系统中的AI系统提供商。虽然为DPs准备的信息应主动提供给他们,但为AIO或NCAs准备的信息仅在收到AIO的请求后才提供,无论是AIO自行发起的请求,还是基于NCAs向AIO提出的请求。此类请求将说明其法律依据和目的,且仅涉及表格中对于AIO在请求时履行其《人工智能法》下的任务,或对于NCAs在请求时行使其《人工智能法》下的监督任务所严格必要的信息项,特别是为了评估基于通用目的AI模型构建的高风险AI系统的合规性,且当该系统的提供商与模型的提供商不同时。
与AIO和NCAs共享的任何模型文档表格中的信息元素,均应根据《人工智能法》第78条规定的保密义务和商业秘密保护进行处理。
本文档最后更新日期: 点击或轻触输入日期。
文档版本号: 点击或轻触此处输入文本。
通用信息
栏目 | 描述 | AIO | NCAs | DPs |
---|---|---|---|---|
模型提供者的法律名称: | 点击此处添加文本。 | ☑ | ☑ | ☑ |
模型名称: | 模型的唯一标识符(例如 Llama 3.1-405B),适用时包括模型集合的标识符,以及本模型文档涵盖的该模型所有公开可用版本的名称列表。 | ☑ | ☑ | ☑ |
模型真实性: | 证明模型来源和真实性的证据(例如,如果分发二进制文件,则提供安全哈希值;如果是服务,则提供URL端点),如可用。 | ☑ | ☑ | ☐ |
发布日期: | 点击或轻触输入日期。模型首次通过任何分发渠道发布的日期。 | ☑ | ☑ | ☑ |
欧盟市场发布日期: | 点击或轻触输入日期。模型在欧盟市场上市的日期。 | ☑ | ☑ | ☑ |
模型依赖关系: | 如果该模型是对一个或多个先前已上市的通用目的AI模型进行修改或微调的结果,请列出这些模型的名称(如果已有多个版本上市,则包括相关版本)。否则填写“不适用”。 | ☑ | ☑ | ☑ |
模型属性
栏目 | 描述 | AIO | NCAs | DPs |
---|---|---|---|---|
模型架构: | 模型架构的通用描述,例如Transformer架构。[建议20词] | ☑ | ☑ | ☑ |
模型的设计规范: | 模型关键设计规范的通用描述,包括基本原理和所做假设,以提供对模型设计方式的基本了解。[建议100词] 如果有其他,请指明: | ☑ | ☑ | ☐ |
输入模态: 对于每种选定的模态,请包括最大输入大小或如果未定义则填写“不适用”。 | ☐ 文本 ☐ 图像 ☐ 音频 ☐ 视频 ☐ 其他,请指明: 最大尺寸: 最大尺寸: 最大尺寸: 最大尺寸: 最大尺寸: | ☑ | ☑ | ☑ |
输出模态: 对于每种选定的模态,请包括最大输出大小或如果未定义则填写“不适用”。 | ☐ 文本 ☐ 图像 ☐ 音频 ☐ 视频 ☐ 其他,请指明: 最大尺寸: 最大尺寸: 最大尺寸: 最大尺寸: 最大尺寸: | ☑ | ☑ | ☑ |
模型总大小: | 模型的总参数数量,记录至少两位有效数字,例如7.3*10^10个参数。 | ☑ | ☐ | ☐ |
总参数量所属范围: | ☐ 1-5亿 ☐ 5亿-50亿 ☐ 50亿-150亿 ☐ 150亿-500亿 ☐ 500亿-1000亿 ☐ 1000亿-5000亿 ☐ 5000亿-1万亿 ☐ >1万亿 | ☑ | ☑ | ☑ |
分发方式和许可证
栏目 | 描述 | AIO | NCAs | DPs |
---|---|---|---|---|
分发渠道: | 模型在欧盟市场分发或使用的分发方法列表(例如,通过现有软件套件或企业特定解决方案的企业或订阅式访问;通过API的公共或订阅式访问;通过集成开发环境、特定设备应用程序或固件、开源仓库的公共或专有访问)。对于列出的每种分发方法,请提供有关如何访问模型的信息链接(如可用),以及模型访问级别(例如,权重级访问、黑盒访问)。 | ☑ | ☑ | ☐ |
许可证: | 模型可供下游提供商使用的分发方法列表(例如,通过现有软件套件或企业特定解决方案的企业或订阅式访问;通过API的公共或订阅式访问;通过集成开发环境、特定设备应用程序或固件、开源仓库的公共或专有访问)。 | ☐ | ☐ | ☑ |
提供模型许可证的链接(否则根据AIO依据第91条的请求提供许可证副本)或指明不存在模型许可证。 | ☑ | ☑ | ☐ | |
模型可供下游提供商使用的许可证类型或类别,例如自由和开源许可证,模型可以公开共享,提供商可以自由访问、使用、修改和重新分发它们或其修改版本;限制性较小的许可证,对使用施加某些限制(例如,确保符合伦理使用);或专有许可证,限制对模型源代码的访问并对使用、分发和修改施加限制。在没有许可证的情况下,描述如何为下游使用提供模型访问,例如通过服务条款。 | ☐ | ☐ | ☑ | |
与模型一同提供的任何其他资产列表(例如,训练数据、数据处理代码、模型训练代码、模型推理代码、模型评估代码),以及如何访问每项资产及其使用相关许可证(如有)的描述。 | ☑ | ☐ | ☑ |
使用
栏目 | 描述 | AIO | NCAs | DPs |
---|---|---|---|---|
可接受使用政策: | 提供适用的可接受使用政策的链接(或将副本附于本文档)或指明不存在。 | ☑ | ☐ | ☑ |
预期用途: | 描述 (i) 提供者预期的用途(例如,生产力提升、翻译、创意内容生成、数据分析、数据可视化、编程辅助、日程安排、客户支持、各种自然语言任务等)或 (ii) 提供者限制和/或禁止的用途(超出欧盟或国际法禁止的范围,包括《人工智能法》第5条),两者均在提供商提供的使用说明、条款和条件、宣传或销售材料和声明以及技术文档中指明。如果指明 (i) 或 (ii) 与模型提供的许可证性质不符,则可以输入“不适用”。[建议200词] | ☑ | ☑ | ☑ |
可集成通用目的AI模型的AI系统的类型和性质: | 列出或描述 (i) 可集成通用目的AI模型的AI系统的类型和性质,或 (ii) 不应集成通用目的AI模型的AI系统的类型和性质。示例可包括自主系统、对话助手、决策支持系统、创意AI系统、预测系统、网络安全、监控或人机协作。[建议最多300词] | ☑ | ☑ | ☑ |
模型集成的技术手段: | 将通用目的AI模型集成到AI系统所需的技术手段(例如,使用说明、基础设施、工具)的通用描述。[建议100词] | ☐ | ☐ | ☑ |
所需硬件: | 使用模型所需的任何硬件(包括版本)的描述,如适用。如果不适用(例如,通过API提供的模型),应输入“不适用”。[建议100词] | ☐ | ☐ | ☑ |
所需软件: | 使用模型所需的任何软件(包括版本)的描述,如适用。如果不适用,应输入“不适用”。[建议100词] | ☐ | ☐ | ☑ |
训练过程
栏目 | 描述 | AIO | NCAs | DPs |
---|---|---|---|---|
训练过程的设计规范: | 训练过程主要步骤或阶段的通用描述,包括训练方法和技术、关键设计选择、所做假设以及模型旨在优化的目标,以及不同参数的相关性(如适用)。例如,“模型使用随机选择的权重进行初始化,并通过Adam优化器分两步进行基于梯度的优化。首先,模型在一个大型预训练语料库上使用交叉熵损失进行训练以预测下一个词,数据只过一遍。其次,模型在一个人类偏好数据集上进行10个周期的后训练,以使模型与人类价值观对齐,并在响应用户提示时更有用”。[建议400词] | ☑ | ☑ | ☑ |
决策理由: | 描述在模型训练中如何以及为何做出关键设计选择。[建议200词] | ☑ | ☑ | ☐ |
用于训练、测试和验证的数据信息
栏目 | 描述 | AIO | NCAs | DPs |
---|---|---|---|---|
数据类型/模态: 选择所有适用项。 | ☐ 文本 ☐ 图像 ☐ 音频 ☐ 视频 ☐ 其他,请指明: | ☑ | ☑ | ☑ |
数据来源: 选择所有适用项。每个列出类别的定义,请参阅AI办公室提供的通用目的AI模型训练内容公开摘要模板。 | ☐ 网络爬取 ☐ 从第三方获得的私有非公开数据集 ☐ 公开可用的数据集 ☐ 通过其他方式收集的数据 ☐ 非公开访问的合成数据(由提供者直接或代表其创建) ☐ 其他,请指明: | ☑ | ☑ | ☑ |
数据的获取和选择方式: | 用于获取和选择训练、测试和验证数据的方法描述,包括用于注释数据的方法和资源,以及在适用时,用于生成合成数据的模型和方法。对于先前从第三方获得的数据,如果未在根据第53(1)(d)条发布的训练数据公开摘要中披露,则描述提供者如何获得数据权利。[建议300词] | ☑ | ☑ | ☐ |
数据点数量: | 训练、测试和验证数据的规模(以数据点数量计),以及数据点单位的定义(例如,词元或文档、图像、视频小时数或帧数),记录至少一位有效数字(例如,3x10¹³个词元)。 | ☐ | ☑ | ☐ |
训练、测试和验证数据的规模(以数据点数量计),以及数据点单位的定义(例如,词元或文档、图像、视频小时数或帧数),记录至少两位有效数字(例如,1.5x10¹³个词元)。 | ☑ | ☐ | ☐ | |
范围和主要特征: | 训练、测试和验证数据的范围和主要特征的通用描述,例如领域(如医疗保健、科学、法律……)、地理位置(如全球、限于某个地区……)、语言、模态覆盖范围,如适用。[建议200词] | ☑ | ☑ | ☐ |
数据整理方法: | 将获取的数据转换为模型训练、测试和验证数据所涉及的数据处理的通用描述,例如清洗(如过滤掉广告等无关内容)、规范化(如分词)、增强(如反向翻译)。[建议300词] | ☑ | ☑ | ☑ |
检测数据源不适用性的措施: | 在数据采集或处理中为检测不适用数据源的存在而实施的任何方法描述,考虑到模型的预期用途,包括但不限于非法内容、儿童性虐待材料(CSAM)、非自愿私密图像(NCII)以及导致其非法处理的个人数据。[建议400词] | ☑ | ☑ | ☐ |
检测可识别偏见的措施: | 在数据采集或处理中为解决训练数据中可识别偏见的普遍性而实施的任何方法描述。[建议200词] | ☑ | ☑ | ☐ |
计算资源(训练期间)
栏目 | 描述 | AIO | NCAs | DPs |
---|---|---|---|---|
训练时间: | 描述正在测量的时间段及其持续时间所属的范围:少于1个月、1-3个月、3-6个月、超过6个月。 | ☐ | ☑ | ☐ |
描述正在测量的时间段及其以钟表日(例如,9x10¹天)和硬件日(例如,4x10⁵个Nvidia A100日和2x10⁵个Nvidia H100日)为单位的持续时间,两者均记录至少一位有效数字。 | ☑ | ☐ | ☐ | |
用于训练的计算量: | 用于训练的计算量的测量或估计值,以浮点运算次数报告,并记录至其数量级(例如,10²⁴次浮点运算)。 | ☐ | ☑ | ☐ |
用于训练的计算量的测量或估计值,以计算操作次数报告,并记录至少两位有效数字(例如,2.4x10²⁵次浮点运算)。 | ☑ | ☐ | ☐ | |
测量方法: | 在没有根据《人工智能法》第53(5)条通过授权法案详细说明测量和计算方法的情况下,描述用于测量或估计训练所用计算量的方法。 | ☑ | ☑ | ☐ |
能耗(训练和推理期间)
栏目 | 描述 | AIO | NCAs | DPs |
---|---|---|---|---|
用于训练的能源量: | 用于训练的能源量的测量或估计值,以兆瓦时(MWh)报告,并记录至少两位有效数字(例如,1.0x10² MWh)。如果由于缺少计算或硬件提供商的关键信息而无法估计用于训练的能源量,则输入“不适用”。 | ☑ | ☑ | ☐ |
测量方法: | 在没有根据《人工智能法》第53(5)条通过授权法案详细说明测量和计算方法的情况下,描述用于测量或估计训练所用能源量的方法。如果模型的能耗未知,可以根据所用计算资源的信息来估计能耗。如果由于缺少计算或硬件提供商的关键信息而无法估计用于训练的能源量,提供商应披露他们所缺少的信息类型。[建议100词] | ☑ | ☑ | ☐ |
用于推理的基准计算量¹: | 用于推理的基准计算量,以浮点运算次数报告,并记录至少两位有效数字(例如,5.1x10⁷次浮点运算)。 | ☑ | ☑ | ☐ |
测量方法: | 在没有根据《人工智能法》第53(5)条通过授权法案详细说明测量和计算方法的情况下,提供一个计算任务(例如,生成100000个词元)和用于测量或估计推理所用计算量的硬件(例如,64个Nvidia A100s)的描述。 | ☑ | ☑ | ☐ |
¹ 此项涉及推理期间的能耗,它与训练期间的能耗共同构成“模型的能耗”(《人工智能法》附件XI,2(e))。由于推理期间的能耗不仅取决于模型本身,因此此项所需的信息仅限于仅取决于模型的相关信息,即用于推理的计算资源。
版权章节全文翻译
Alexander Peukert
工作组1联合主席
Céline Castets-Renard
工作组1副主席
目标
本行为准则(以下简称“准则”)的总体目标是改善内部市场的运作,推动以人为本、可信赖的人工智能(AI)的应用,同时确保在欧盟范围内对健康、安全及《宪章》所保障的基本权利(包括民主、法治和环境保护)提供高水平保护,防止AI的有害影响,并依据《人工智能法》第1条第1款支持创新。
为实现上述总体目标,本准则的具体目标如下:
A. 作为一份指导文件,帮助证明对《人工智能法》第53条和第55条义务的遵守,同时承认遵守本准则并不构成对这些义务的最终合规证据。
B. 确保通用目的人工智能模型的提供者履行其在《人工智能法》下的义务,并使AI办公室能够评估选择依据本准则证明其合规性的模型提供者是否履行了其义务。
序言
鉴于:
(a) 本章节旨在促进《欧盟人工智能法》第53条第1款第(c)项规定的义务的正确实施,根据该条款,将通用目的人工智能模型投放欧盟市场的提供者必须制定一项政策,以遵守欧盟关于版权及相关权的法律,特别是通过最先进的技术识别并遵守权利持有人根据《欧盟2019/790号指令》第4条第3款表达的保留权利。尽管签署方将实施本章节规定的措施以证明其遵守《人工智能法》第53条第1款第(c)项的义务,但遵守本准则并不构成对欧盟版权及相关权法律的遵守。
(b) 本章节绝不影响欧盟版权及相关权法律的适用和执行,这些法律的解释权归属于成员国的法院,最终归属于欧盟法院。
(c) 签署方认识到,欧盟关于版权及相关权的法律:
(i) 体现在针对成员国的指令中,目前与此最相关的指令是《2001/29/EC号指令》、《欧盟2019/790号指令》和《2004/48/EC号指令》;
(ii) 规定了具有预防性质的专有权,因此除非适用例外或限制,否则应基于事先同意;
(iii) 在《欧盟2019/790号指令》第4条第1款中为文本和数据挖掘规定了例外或限制,该例外应在合法访问的条件下适用,且该条款所述作品和其他主题的使用未被其权利持有人以适当方式根据该指令第4条第3款明确保留。
(d) 本章节中要求采取比例性措施的承诺应与提供者的规模相称,并适当考虑中小企业(包括初创企业)的利益。
(e) 本章节不影响签署方与权利持有人之间授权使用作品和其他受保护主题的协议。
(f) 本章节中签署方为证明遵守《欧盟人工智能法》第53条第1款第(c)项义务所作的承诺,是对该法第53条第1款第(d)项规定的提供者义务的补充,即根据AI办公室提供的模板,编制并公开其用于训练通用目的人工智能模型的内容的足够详细的摘要。
承诺1:版权政策
相关法律条文:《欧盟人工智能法》第53条第1款第(c)项
(1) 为证明遵守《欧盟人工智能法》第53条第1款第(c)项规定的义务,即制定一项政策以遵守欧盟关于版权及相关权的法律,特别是通过最先进的技术识别并遵守根据《欧盟2019/790号指令》第4条第3款表达的保留权利,签署方承诺制定、保持最新并实施此类版权政策。以下措施不影响对欧盟版权及相关权法律的遵守。它们列出了签署方可以证明其遵守为投放欧盟市场的通用目的人工智能模型制定版权政策义务的承诺。
(2) 此外,签署方仍有义务在实施以下版权政策中包含的任何措施之前,核实这些措施是否符合成员国对欧盟版权及相关权法律的实施,特别是但不限于《欧盟2019/790号指令》第4条第3款,因为在相关成员国领土内进行任何与版权相关的行为失败,可能会根据欧盟版权及相关法律引发义务。
措施1.1 制定、保持最新并实施版权政策
(1) 签署方将为其投放欧盟市场的所有通用目的人工智能模型制定、保持最新并实施一项遵守欧盟版权及相关权法律的政策。签署方承诺在一份文件中描述该政策,该文件包含本章节规定的措施。签署方将在其组织内分配责任,以实施和监督该政策。
(2) 鼓励签署方公开提供并保持其版权政策的摘要最新。
措施1.2 在爬取万维网时仅复制和提取合法可访问的受版权保护内容
(1) 为帮助确保签署方仅复制和提取合法可访问的作品和其他受保护主题,如果他们使用网络爬虫或代表他们使用此类网络爬虫来抓取或以其他方式汇编用于文本和数据挖掘目的的数据(如《欧盟2019/790号指令》第2条第2款所定义)以及训练其通用目的人工智能模型,签署方承诺:
a) 不规避《2001/29/EC号指令》第6条第3款所定义的有效技术措施,这些措施旨在防止或限制对作品和其他受保护主题的未经授权的行为,特别是通过尊重订阅模式或付费墙所施加的任何技术拒绝或访问限制;以及
b) 在网络爬虫爬取时,排除那些向公众提供内容并被法院或欧盟和欧洲经济区公共当局认定为持续和反复大规模侵犯版权及相关权的网站。为遵守本措施,将在欧盟网站上公开提供这些网站的超链接列表,这些列表由欧盟和欧洲经济区的相关机构发布。
措施1.3 在爬取万维网时识别并遵守权利保留
(1) 为帮助确保签署方将识别并遵守,包括通过最先进的技术,根据《欧盟2019/790号指令》第4条第3款表达的机器可读权利保留,如果他们使用网络爬虫或代表他们使用此类网络爬虫来抓取或以其他方式汇编用于文本和数据挖掘目的的数据(如《欧盟2019/790号指令》第2条第2款所定义)以及训练其通用目的人工智能模型,签署方承诺:
a) 使用能够读取并遵循根据互联网工程任务组(IETF)请求评论第9309号(RFC 9309)及其后续版本表达的指令的网络爬虫,前提是IETF证明该协议对AI提供者和内容提供者(包括权利持有人)在技术上可行且可实施;以及
b) 识别并遵守其他适当的机器可读协议,以根据《欧盟2019/790号指令》第4条第3款表达权利保留,例如通过基于资产或位置的元数据,这些协议要么已被国际或欧洲标准化组织采纳,要么是最先进的技术,包括在技术上可实施,并被权利持有人广泛采纳,考虑到不同的文化领域,并通常通过在欧盟层面涉及权利持有人、AI提供者和其他相关利益相关者的善意讨论达成的更即时解决方案,同时期待标准的发展。
(2) 本承诺不影响权利持有人根据《欧盟2019/790号指令》第4条第3款以任何适当方式(例如在公开提供内容的情况下以机器可读方式或其他方式)明确保留作品和其他受保护主题用于文本和数据挖掘目的的权利。
此外,本承诺不影响欧盟版权及相关权法律对第三方从互联网抓取或爬取并用于签署方文本和数据挖掘目的以及训练其通用目的人工智能模型的受保护内容的适用,特别是关于根据《欧盟2019/790号指令》第4条第3款表达的权利保留。
(3) 鼓励签署方支持本条第1款第(a)和(b)点所述进程,并自愿与权利持有人和其他相关利益相关者进行善意讨论,旨在制定适当的机器可读标准和协议,以根据《欧盟2019/790号指令》第4条第3款表达权利保留。
(4) 签署方承诺采取适当措施,使受影响的权利持有人能够获得关于所采用的网络爬虫、其robots.txt功能以及签署方为识别和遵守根据《欧盟2019/790号指令》第4条第3款表达的权利保留所采取的其他措施的信息,通过公开此类信息并提供一种方式,使受影响的权利持有人在信息更新时自动收到通知(例如通过联合供稿),而不影响《2004/48/EC号指令》第8条规定的知情权。
(5) 如果签署方还提供《欧盟2022/2065号条例》第3条第(j)款所定义的在线搜索引擎或控制此类提供者,鼓励签署方采取适当措施,确保其在文本和数据挖掘活动以及训练通用目的人工智能模型方面对权利保留的遵守不会直接导致在其搜索引擎中对表达权利保留的内容、域和/或URL的索引产生不利影响。
措施1.4 降低版权侵权输出的风险
(1) 为降低下游AI系统(集成通用目的人工智能模型)生成可能侵犯受欧盟版权或相关权保护的作品或其他主题的权利的风险,签署方承诺:
a) 实施适当且相称的技术保障措施,防止其模型以侵权方式生成复制训练内容的输出;以及
b) 在其可接受使用政策、条款和条件或其他等效文件中禁止对模型的版权侵权使用,或在根据免费和开源许可证发布的通用目的人工智能模型的情况下,在随附的模型文档中提醒用户禁止对模型进行版权侵权使用,而不影响免费和开源许可证的性质。
(2) 本措施适用于签署方是否将模型垂直集成到其自己的AI系统中,或是否基于合同关系将模型提供给另一实体。
措施1.5 指定联系点并允许提交投诉
(1) 签署方承诺指定一个联系点,用于与受影响的权利持有人进行电子通信,并提供易于获取的信息。
(2) 签署方承诺建立一种机制,允许受影响的权利持有人及其授权代表(包括集体管理组织)通过电子方式提交足够精确且充分证实的投诉,内容涉及签署方未能遵守本章承诺的情况,并提供易于获取的信息。签署方将以勤勉、非任意的方式在合理时间内处理投诉,除非投诉明显无根据或签署方已对同一权利持有人的相同投诉作出回应。本承诺不影响根据欧盟和国家法律执行版权及相关权的措施、补救和制裁的可用性。
安全与保障章节
Matthias Samwald 第二工作组组长
Yoshua Bengio 第三工作组组长
Marietje Schaake 第四工作组组长
Marta Ziosi 第二工作组副组长
Alexander Zacherl 第二工作组副组长
Daniel Privitera 第三工作组副组长
Nitarshan Rajkumar 第三工作组副组长
Anka Reuel 第四工作组副组长
Markus Anderljung 第四工作组副组长
目标
本行为准则(“准则”)的总体目标是改善内部市场的运作,促进以人为中心且值得信赖的人工智能(“AI”)的采用,同时确保在欧盟内对AI的有害影响提供高水平的健康、安全和基本权利保护,这些权利在宪章中得到确立,包括民主、法治和环境保护,并根据人工智能法第1(1)条支持创新。
为实现这一总体目标,本准则的具体目标如下:
A. 作为指导文件,帮助证明遵守人工智能法第53条和第55条所规定的义务,同时认识到遵守本准则并不构成对这些义务在人工智能法下遵守的最终证据。
B. 确保通用目的人工智能模型的提供者遵守其在人工智能法下的义务,并使AI办公室能够评估选择依赖本准则来证明遵守其在人工智能法下义务的通用目的人工智能模型提供者的合规性。
序言
鉴于:
(a) 适当生命周期管理原则。签署方认识到,具有系统性风险的通用目的人工智能模型的提供者应在整个模型生命周期(包括在市场上推出前后发生的开发)持续评估和减轻系统性风险,采取适当措施,与AI价值链中的相关参与者(如可能受模型影响的利益相关者)合作并考虑其意见,并通过定期更新以应对不断改进和新兴的模型能力,确保其系统性风险管理能够适应未来(见人工智能法序言第114和115条)。因此,签署方认识到,实施适当措施通常要求签署方至少采用最先进的技术,除非能够用较不先进的流程、措施、方法、技术或工艺最终排除系统性风险。系统性风险评估是一个多步骤流程,模型评估是指用于评估模型系统性风险的一系列方法,在整个模型生命周期中都是不可或缺的。当实施系统性风险缓解措施时,签署方认识到持续评估其有效性的重要性。
(b) 情境化风险评估和缓解原则。签署方认识到,本安全与保障章节(“章节”)仅与具有系统性风险的通用目的人工智能模型的提供者相关,而不涉及AI系统。然而,签署方也认识到,系统性风险的评估和缓解应合理预见地包括系统架构、模型可能集成的其他软件以及在推理时可用的计算资源,因为它们对模型的影响至关重要,例如影响安全和保障缓解措施的有效性。
(c)与系统性风险相称原则。签署方认识到,系统性风险的评估和缓解应与风险相称(人工智能法第56(2)条(d)点)。因此,系统性风险评估和缓解的审查程度,特别是文件记录和报告的细节水平,应与整个模型生命周期中相关的系统性风险相称。签署方认识到,尽管系统性风险评估和缓解是迭代和持续的,但他们无需重复那些仍适用于模型所带来系统性风险的评估。
(d) 与现有法律整合原则。签署方认识到,本章节构成其他欧盟法律的一部分,并受其补充。签署方进一步认识到,在欧盟法律要求的范围内,保密(包括商业保密)义务得到保留,并且根据本章节发送给欧盟AI办公室(“AI办公室”)的信息将根据人工智能法第78条进行处理。此外,签署方认识到,他们提交给AI办公室的关于未来发展和未来商业活动的信息将被理解为可能会发生变化。签署方进一步认识到,本章节的措施8.3下促进健康风险文化的措施,不影响根据欧盟第2019/1937号指令保护举报人及成员国实施法律与人工智能法第87条联合产生的任何义务。签署方还认识到,他们可以在国际标准涵盖本章节规定的情况下,基于这些国际标准。
(e) 合作原则。签署方认识到,系统性风险评估和缓解需要大量投入时间和资源。他们认识到协作效率的优势,例如通过共享模型评估方法和/或基础设施。签署方进一步认识到,与许可证持有者、下游修改者和下游提供者在系统性风险评估和缓解方面合作的重要性,以及让民间社会、学术界和其他相关利益相关者的专家或普通代表参与理解模型影响的重要性。签署方认识到,这种合作可能涉及签订协议,共享与系统性风险评估和缓解相关的信息,同时确保对敏感信息进行适当保护,并遵守适用的欧盟法律。签署方进一步认识到,与AI办公室(人工智能法第53(3)条)合作的重要性,以促进具有系统性风险的通用目的人工智能模型的提供者、研究人员和监管机构之间的合作,应对AI领域的新兴挑战和机遇。
(f) AI安全与保障创新原则。签署方认识到,确定理解和确保具有系统性风险的通用目的人工智能模型安全与保障的最有效方法仍然是一个不断发展的挑战。签署方认识到,本章节应鼓励具有系统性风险的通用目的人工智能模型的提供者推进AI安全与保障及相关流程和措施的最先进技术。签署方认识到,推进最先进技术还包括开发针对性方法,专门解决风险,同时保持有益能力(例如,在不适当降低有益生物医学能力的情况下减轻生物安全风险),承认这种精确性比不太针对性的方法需要更大的技术和创新努力。签署方进一步认识到,如果具有系统性风险的通用目的人工智能模型的提供者能够通过替代手段证明同等或更优的安全或保障结果,从而实现更高的效率,那么这些创新应被视为推进了AI安全与保障的最先进技术,并值得考虑更广泛地采用。
(g) 预防原则。签署方认识到预防原则的重要作用,特别是对于缺乏或科学数据质量不足以进行完整评估的系统性风险。因此,签署方认识到,当前模型的采用率和研发轨迹的推断应被考虑用于识别系统性风险。
(h) 中小企业(“SMEs”)和小型中型资本企业(“SMCs”)。为了考虑具有系统性风险的通用目的人工智能模型提供者在规模和能力方面的差异,应允许SMEs和SMCs(包括初创企业)以相称的方式简化合规方式。例如,SMEs和SMCs可能被豁免某些报告义务(人工智能法第56(5)条)。被豁免报告义务的SMEs或SMCs签署方认识到,他们仍可以自愿遵守这些义务。
(i) 解释。签署方认识到,所有承诺和措施应根据评估和缓解系统性风险的目标进行解释。签署方进一步认识到,鉴于AI发展的快速步伐,以系统性风险评估和缓解为重点的目的性解释对于确保本章节保持有效、相关和适应未来特别重要。此外,如果本章中出现的任何术语在章节词汇表中有定义,则应以该词汇表中的含义为准。签署方认识到,附录1应在有疑问的情况下,根据以下两点善意解释:(1)根据人工智能法第3(2)条中“风险”的定义,伤害的可能性和严重性;以及(2)人工智能法第3(65)条中“系统性风险”的定义。签署方认识到,本章节应与AI办公室关于人工智能法的指南一起解释。
(j) 严重事件报告。签署方认识到,报告严重事件并不是承认不当行为。此外,他们认识到,有关严重事件的相关信息无法在事件发生后仅在模型层面进行跟踪、记录和报告。可能导致此类事件的信息往往是分散的,并且在签署方意识到严重事件时可能已经丢失、被覆盖或碎片化。这证明了建立流程和措施以在严重事件发生之前跟踪和记录相关信息的必要性。
承诺1 安全与保障框架
法律文本:人工智能法第55(1)和56(5)条,以及序言第110、114和115条
签署方承诺采用最先进的安全与保障框架(“框架”)。该框架的目的是概述签署方实施的系统性风险管理流程和措施,以确保其模型带来的系统性风险是可接受的。
签署方承诺遵循一个包含三个步骤的框架应用流程:
(1) 创建框架(如措施1.1所规定);(2) 实施框架(如措施1.2所规定);以及(3) 更新框架(如措施1.3所规定)。
此外,签署方承诺通知AI办公室他们的框架(如措施1.4所规定)。
图1. 创建、实施和更新框架的流程。
措施1.1 创建框架
签署方将创建一个基于他们所开发、在市场上提供和/或使用的模型的最先进框架。
该框架将包含对实施和计划的系统性风险评估和缓解流程和措施的概括性描述,以遵守本章节。
此外,该框架将包含:
(1) 对触发点的描述和理由,以及它们的使用,签署方将在整个模型生命周期中进行额外的轻量级模型评估,如措施1.2第二段(1)(a)所规定;
(2) 签署方确定系统性风险是否可接受,如承诺4所规定:
(a) 对系统性风险接受标准的描述和理由,包括系统性风险等级,及其如措施4.1所规定的使用;
(b) 对签署方在每个系统性风险等级达到时需要实施的安全和保障缓解措施的概括描述;
(c) 对于签署方为措施4.1所定义的系统性风险等级定义的每个系统性风险,签署方合理预见到他们将拥有一个模型,该模型超过了其任何现有模型已经达到的最高系统性风险等级的预计时间线。此类预计:(i) 可以包括时间范围或概率分布;以及(ii) 可以考虑与其他提供者共同产生的聚合预测、调查和其他估计。此外,此类估计将得到理由的支持,包括基本假设和不确定性;以及
(d) 对外部参与者(包括政府)通过何种流程影响模型开发、在市场上提供和/或使用的描述,如措施4.2所规定,而不是独立外部评估的结果;
(3) 对系统性风险责任如何在评估和缓解系统性风险的流程中分配的描述,如承诺8所规定;以及
(4) 对签署方将如何更新框架的流程的描述,包括他们将如何确定更新的框架得到确认,如措施1.3所规定。
签署方将在根据人工智能法第52(1)条通知委员会后不迟于四周,并在将模型投放市场前不迟于两周确认框架。
措施1.2 实施框架
签署方将实施其框架中概述的流程和措施,如下文段落所规定。
在整个模型生命周期中,签署方将持续:
(1) 通过以下方式评估模型带来的系统性风险:
(a) 在适当的触发点进行轻量级模型评估,这些触发点以时间、训练计算、开发阶段、用户访问、推理计算和/或功能等定义,无需遵循附录3(例如自动化评估);
(b) 在模型投放市场后进行上市后监测,如措施3.5所规定;
(c) 考虑有关严重事件的相关信息(根据承诺9);以及
(d) 根据(a)、(b)和(c)的结果,增加评估的广度和/或深度,或进行下一段规定的完整系统性风险评估和缓解流程;以及(2) 考虑第(1)点的结果,实施系统性风险缓解措施,包括酌情处理严重事件。
图2. 模型生命周期中系统性风险评估和缓解的示意性时间线。
此外,签署方将实施一个完整的系统性风险评估和缓解流程,该流程包括四个步骤,无需重复模型先前仍适用的系统性风险评估部分:
(1) 识别模型带来的系统性风险,如承诺2所规定;
(2) 分析每个已识别的系统性风险,如承诺3所规定;
(3) 确定模型带来的系统性风险是否可接受,如措施4.1所规定;以及
(4) 如果模型带来的系统性风险未被确定为可接受,则实施安全和/或保障缓解措施,如承诺5和6所规定,并重新评估模型带来的系统性风险,从第(1)点开始,如措施4.2所规定。
签署方将至少在将模型投放市场之前以及满足措施7.6第一段和第三段规定的条件时进行此类完整的系统性风险评估和缓解流程。签署方将向AI办公室报告其已实施的措施和流程,如承诺7所规定。
图3. 完整系统性风险评估和缓解流程。承诺和措施的文本优先。
措施1.3 更新框架
签署方将酌情更新框架,包括在框架评估(如下文段落所规定)后无不当延迟,以确保措施1.1中的信息保持最新,并且框架是最先进的。对于框架的任何更新,签署方将包括一个变更日志,描述框架如何以及为何更新,以及版本号和变更日期。
如果签署方有合理理由相信其框架的充分性和/或他们对其的遵守已经或将被实质性破坏,或自模型投放市场起每12个月,以较早者为准,签署方将进行适当的框架评估。此类理由的例子包括:
(1) 签署方开发模型的方式将发生重大变化,可以合理预见这将导致至少一个模型带来的系统性风险不可接受;
(2) 涉及其模型或类似模型的严重事件和/或未遂事件已经发生,这些事件可能表明至少一个模型带来的系统性风险不可接受;和/或
(3) 至少一个模型带来的系统性风险已经或可能发生重大变化,例如安全和/或保障缓解措施已经或可能变得实质性效果降低,或其至少一个模型已经或可能发展出重大变化的能力和/或倾向。
框架评估将包括以下内容:
(1) 框架充分性:评估框架中的流程和措施是否适用于签署方模型带来的系统性风险。此评估将考虑模型当前如何被开发、在市场上提供和/或使用,以及它们在未来12个月内预计如何被开发、在市场上提供和/或使用。
(2) 框架遵守情况:评估重点关注签署方对框架的遵守情况,包括:(a) 自上次框架评估以来,任何不遵守框架的情况及其原因;以及(b) 需要实施的任何措施,包括安全和保障缓解措施,以确保持续遵守框架。如果(a)和/或(b)点引起未来不遵守的风险,签署方将在其框架评估中制定补救计划。
措施1.4 框架通知
签署方将在确认后五个工作日内向AI办公室提供其框架及其更新(未经编辑)的访问权限。
承诺2 系统性风险识别
法律文本:人工智能法第55(1)条和序言第110条
签署方承诺识别模型带来的系统性风险。系统性风险识别的目的包括促进系统性风险分析(根据承诺3)和系统性风险接受度确定(根据承诺4)。
系统性风险识别包括两个要素:
(1) 遵循结构化流程识别模型带来的系统性风险(如措施2.1所规定);以及(2) 为每个已识别的系统性风险制定系统性风险情景(如措施2.2所规定)。
图4. 系统性风险识别流程。承诺和措施的文本优先。
措施2.1 系统性风险识别流程
签署方将识别:
(1) 通过以下流程获得的系统性风险:
(a) 根据附录1.1中的风险类型,编制一份可能源于模型且具有系统性的风险清单,同时考虑:
(i) 模型独立信息(根据措施3.1);
(ii) 关于模型和类似模型的相关信息,包括来自上市后监测的信息(根据措施3.5),以及关于严重事件和未遂事件的信息(根据承诺9);以及
(iii) AI办公室、独立专家科学小组或其他经AI办公室认可的此类倡议(如国际AI安全研究所网络)直接或通过公开发布传达给签署方的任何其他相关信息;
(b) 分析根据(a)点编制的风险的相关特征,如其性质(基于附录1.2)和来源(基于附录1.3);以及(c) 基于(b)点,识别源于模型的系统性风险;以及(2) 附录1.4中指定的系统性风险。
措施2.2 系统性风险情景
签署方将为每个已识别的系统性风险(根据措施2.1)制定适当的系统性风险情景,包括关于这些系统性风险情景的数量和详细程度。
承诺3 系统性风险分析
法律文本:人工智能法第55(1)条和序言第114条
签署方承诺分析每个已识别的系统性风险(根据承诺2)。系统性风险分析的目的包括促进系统性风险接受度确定(根据承诺4)。
对于每个已识别的系统性风险,系统性风险分析包括五个要素,这些要素可能重叠,并且可能需要递归实施:
(1) 收集模型独立信息(如措施3.1所规定);(2) 进行模型评估(如措施3.2所规定);(3) 对系统性风险进行建模(如措施3.3所规定);以及(4) 估计系统性风险(如措施3.4所规定);同时(5) 进行上市后监测(如措施3.5所规定)。
措施3.1 模型独立信息
签署方将收集与系统性风险相关的模型独立信息。
签署方将使用以适合该系统性风险的广度和深度的适当方法搜索和收集此类信息,方法包括:
(1) 网络搜索(例如,利用开源情报方法收集和分析从开放源收集的信息);
(2) 文献综述;
(3) 市场分析(例如,专注于市场上其他模型的能力);
(4) 训练数据审查(例如,寻找数据中毒或篡改的迹象);
(5) 审查和分析历史事件数据和事件数据库;
(6) 一般趋势预测(例如,关于算法效率、计算使用、数据可用性和能源使用的预测);
(7) 专家访谈和/或小组讨论;和/或
(8) 普通访谈、调查、社区咨询或其他参与式研究方法,调查例如模型对自然人的影响,包括弱势群体。
措施3.2 模型评估
签署方将至少在相关模态上进行最先进的模型评估,以评估模型的能力、倾向、功能和/或影响,如附录3所规定。
签署方将确保此类模型评估使用适合模型和系统性风险的方法设计和进行,并包括对模型进行开放式测试,以提高对系统性风险的理解,旨在识别意外行为、能力边界或涌现属性。模型评估方法的例子包括:问答集、基于任务的评估、基准测试、红队测试和其他对抗性测试方法、人类提升研究、模式模型、模拟和/或机密材料的代理评估。此外,模型评估的设计将参考根据措施3.1收集的模型独立信息。
译者注:Model organism 在 AI 模型评估里指“模式模型”——犹如生物学里用果蝇、大肠杆菌做实验的小型“试验体”,它让研究人员以更可控、低风险的方式探索评估指标和安全对策,然后再把成熟的方法迁移到真正上线的大规模模型上。
措施3.3 系统性风险建模
签署方将对系统性风险进行建模。为此,签署方将:
(1) 使用至少最先进的风险建模方法;
(2) 基于根据措施2.2制定的系统性风险情景;以及
(3) 至少考虑根据措施2.1和本承诺收集的信息。
措施3.4 系统性风险估计
签署方将估计系统性风险的可能性和严重性。
签署方将使用至少最先进的系统性风险估计方法,并至少考虑根据承诺2、本承诺和承诺9收集的信息。系统性风险的估计将以风险评分、风险矩阵、概率分布或其他适当格式表示,并且可以是定量、半定量和/或定性的。此类系统性风险估计的例子包括:(1) 定性系统性风险评分(例如“中等”或“严重”);(2) 定性系统性风险矩阵(例如“可能性:不太可能” x “影响:高”);和/或(3) 定量系统性风险矩阵(例如“X-Y%” x “X-Y欧元损失”)。
措施3.5 上市后监测
签署方将进行适当的上市后监测,以收集与评估系统性风险是否可接受(根据措施4.1)以及确定是否需要更新模型报告(根据措施7.6)相关的信息。此外,签署方将尽最大努力进行上市后监测,以收集与制定时间线估计(根据措施1.1,第(2)(c)点)相关的信息。
为此,上市后监测将:
(1) 收集有关模型的能力、倾向、功能和/或影响的信息;(2) 考虑以下列出的示例方法;以及(3) 如果签署方自身提供和/或部署集成了其自身模型的AI系统,则将这些AI系统中的模型监测作为其中的一部分。
以下是为上述第(2)点目的的上市后监测方法示例:
(1) 收集最终用户反馈;
(2) 提供(匿名)报告渠道;
(3) 提供(严重)事件报告表格;
(4) 提供漏洞赏金;
(5) 建立社区驱动的模型评估和公共排行榜;
(6) 与受影响的利益相关者进行频繁对话;
(7) 监测软件仓库、已知恶意软件、公共论坛和/或社交媒体的使用模式;
(8) 与学术界、民间社会、监管机构和/或独立研究人员合作,支持对模型的能力、倾向、功能和/或影响的科学研究;
(9) 实施隐私保护日志记录和元数据分析技术,使用例如水印、元数据和/或其他至少最先进来源技术对模型的输入和输出进行分析;
(10) 收集有关违反模型使用限制及由此类违规引起的后续事件的相关信息;和/或
(11) 监测模型的与评估和缓解系统性风险相关且对第三方不透明的方面,例如对于参数未公开供下载的模型,其隐藏的思维链。
为促进上市后监测,签署方将为足够数量的独立外部评估者提供足够的免费访问权限:
(1) 模型在市场投放的最具能力的模型版本(就系统性风险而言);
(2) 第(1)点中模型版本的思维链(如果有);以及
(3) 对应于第(1)点中模型版本的模型版本,这些模型版本在系统性风险方面实施了最少安全缓解措施(例如,仅有帮助模型版本,如果存在),并且如果有的话,其思维链;
除非该模型就相同的系统性风险被视为类似安全或更安全的模型(根据附录2.2)。此类对模型的访问可以通过API、现场访问(包括运输)、通过签署方提供的硬件访问,或通过公开提供模型参数供下载等方式提供,视情况而定。
为选择前一段中的独立外部评估者,签署方将发布评估申请的适当标准。此类评估者的数量、选择标准和安全措施可能因前一段中的第(1)、(2)和(3)点而异。
签署方将仅访问、存储和/或分析独立外部评估者的评估结果,以评估和缓解模型的系统性风险。特别是,签署方不得在未经评估者明确许可的情况下,对模型在这些测试运行中的输入和/或输出进行训练。此外,签署方不得因评估者进行测试和/或发布结果而对独立外部评估者采取任何法律或技术报复,只要评估者:
(1) 除非明确许可,否则不故意通过测试破坏模型可用性;
(2) 不故意访问、修改和/或使用违反欧盟法律的敏感或机密用户数据,如果评估者确实访问了此类数据,则仅收集必要的数据,不传播这些数据,并尽快合法删除这些数据;
(3) 不故意将其访问权限用于对公共安全构成重大风险的活动;
(4) 不使用研究结果威胁签署方、用户或价值链中的其他参与者,前提是按照预先商定的政策和时间线进行披露将不会被视为此类胁迫;以及
(5) 遵守签署方公开提供的负责任漏洞披露程序,该程序至少规定签署方不能从意识到研究结果之日起延迟或阻止发布超过30个工作日,除非更长的时间线是特别必要的,例如如果研究结果的披露会实质性增加系统性风险。
SMEs或SMCs签署方可以联系AI办公室,AI办公室可以提供支持或资源以促进遵守本措施。
承诺4 系统性风险接受度确定
法律文本:人工智能法第55(1)条
签署方承诺指定系统性风险接受标准,并确定模型带来的系统性风险是否可接受(如措施4.1所规定)。签署方承诺根据系统性风险接受度确定(如措施4.2所规定),决定是否继续进行模型的开发、在市场上提供和/或使用。
措施4.1 系统性风险接受标准和接受度确定
签署方将描述并证明(在根据措施1.1第(2)(a)点的框架中)他们将如何确定模型带来的系统性风险是否可接受。为此,签署方将:
(1) 对于每个已识别的系统性风险(根据措施2.1),至少:
(a) 定义适当的系统性风险等级,这些等级:
(i) 以模型能力定义,并可另外纳入模型倾向、风险估计和/或其他适当指标;
(ii) 可衡量;以及
(iii) 至少包括一个模型尚未达到的系统性风险等级;或
(b) 如果系统性风险等级不适合该系统性风险,且该系统性风险不是指定的系统性风险(根据附录1.4),则定义其他适当的系统性风险接受标准;
(2) 描述他们将如何使用这些等级和/或其他标准来确定每个已识别的系统性风险(根据措施2.1)和整体系统性风险是否可接受;以及
(3) 证明根据第(2)点使用这些等级和/或其他标准如何确保每个已识别的系统性风险(根据措施2.1)和整体系统性风险是可接受的。
签署方将把系统性风险接受标准应用于每个已识别的系统性风险(根据措施2.1),并纳入安全边界(如下一段所规定),以确定每个已识别的系统性风险(根据措施2.1)和整体系统性风险是否可接受。此接受度确定将至少考虑通过系统性风险识别和分析(根据承诺2和3)收集的信息。
安全边界将:
(1) 适合该系统性风险;以及
(2) 考虑以下方面的潜在限制、变化和不确定性:
(a) 系统性风险来源(例如,评估后能力的提升);
(b) 系统性风险评估(例如,模型评估的低引出或类似评估的历史准确性);以及
(c) 安全和保障缓解措施的有效性(例如,缓解措施被规避、停用或破坏)。
措施4.2 基于系统性风险接受度确定进行或不进行
签署方仅在模型带来的系统性风险被确定为可接受(根据措施4.1)的情况下,才会继续进行模型的开发、在市场上提供和/或使用。
如果模型带来的系统性风险未被确定为可接受,或合理预见很快将不可接受(根据措施4.1),签署方将在进行之前采取适当措施,确保模型带来的系统性风险是且将保持可接受。特别是,签署方将:
(1) 不将模型投放市场,限制在市场上提供(例如,通过调整许可证或使用限制)、撤回或召回模型,视情况而定;
(2) 实施安全和/或保障缓解措施(根据承诺5和6);以及
(3) 进行另一轮系统性风险识别(根据承诺2)、系统性风险分析(根据承诺3)和系统性风险接受度确定(根据本承诺)。
承诺5 安全缓解措施
法律文本:人工智能法第55(1)条和序言第114条
签署方承诺在整个模型生命周期中实施适当的安全缓解措施,如本承诺的措施所规定,以确保模型带来的系统性风险是可接受的(根据承诺4)。
措施5.1 适当的安全缓解措施
签署方将实施适当的安全缓解措施,包括在对抗性压力下(例如,微调攻击或越狱)足够稳健的措施,同时考虑模型的发布和分发策略。
安全缓解措施的例子包括:
(1) 过滤和清理训练数据,例如可能导致不良模型倾向的数据,如不忠实的思维链痕迹;
(2) 监测和过滤模型的输入和/或输出;
(3) 为了安全利益改变模型行为,例如微调模型以拒绝某些请求或提供无益的响应;
(4) 分阶段提供模型访问权限,例如,通过限制API访问权限给经过审查的用户,根据上市后监测逐步扩大访问权限,和/或最初不公开提供模型参数供下载;
(5) 为其他参与者提供工具,以减轻模型带来的系统性风险;
(6) 提供高保证定量安全保证的技术,涉及模型的行为;
(7) 使AI代理生态系统安全的技术,例如模型识别、专门的通信协议或事件监测工具;和/或
(8) 其他新兴的安全缓解措施,例如,实现对思维链推理的透明度或防御模型破坏其其他安全缓解措施的能力。
承诺6 保障缓解措施
法律文本:人工智能法第55(1)条,以及序言第114和115条
签署方承诺在整个模型生命周期中为其模型和物理基础设施实施适当的网络安全保护水平,如本承诺的措施所规定,以确保其模型带来的、可能因未经授权的发布、未经授权的访问和/或模型盗窃而产生的系统性风险是可接受的(根据承诺4)。
如果模型的能力低于至少一个模型参数公开供下载的模型的能力,则该模型可豁免本承诺。
签署方将为模型实施这些保障缓解措施,直到其参数被公开提供下载或安全删除。
措施6.1 保障目标
签署方将定义一个目标,指定其保障缓解措施旨在防范的威胁行为者(“保障目标”),包括非国家外部威胁、内部威胁和其他预期的威胁行为者,同时至少考虑其模型的当前和预期能力。
措施6.2 适当的保障缓解措施
签署方将实施适当的保障缓解措施以实现保障目标,包括根据附录4的保障缓解措施。如果签署方因签署方的组织环境和数字基础设施而偏离附录4.1至4.5中列出的任何保障缓解措施,例如(a)点,他们将实施实现相应缓解目标的替代保障缓解措施。
所需保障缓解措施的实施可根据模型能力在整个模型生命周期中的增长适当分阶段进行。
承诺7 安全与保障模型报告
法律文本:人工智能法第55(1)条和56(5)条 签署方承诺通过创建安全与保障模型报告(“模型报告”)向AI办公室报告有关其模型及其系统性风险评估和缓解流程和措施的信息,然后再将模型投放市场(如措施7.1至7.5所规定)。此外,签署方承诺保持模型报告的更新(如措施7.6所规定),并通知AI办公室他们的模型报告(如措施7.7所规定)。
如果签署方已经在其他报告和/或通知中向AI办公室提供了相关信息,他们可以在模型报告中引用这些报告和/或通知。如果签署方对一个模型的系统性风险评估和缓解流程和措施的理解离不开另一个模型,签署方可以为多个模型创建单个模型报告。
SMEs或SMCs签署方可以在其模型报告中减少细节水平,以反映规模和能力限制。
措施7.1 模型描述和行为
签署方将在模型报告中提供:
(1) 模型架构、能力、倾向和功能的概括描述,以及模型的开发方式,包括其训练方法和数据,以及这些与他们在市场上提供的其他模型的不同之处;
(2) 模型已如何使用以及预期如何使用,包括其在模型开发、监督和/或评估中的使用;
(3) 将要投放市场或当前在市场上提供和/或使用的模型版本的描述,包括系统性风险缓解措施和系统性风险的差异;以及
(4) 指定(例如,通过有效超链接)签署方打算如何规范模型(通常称为“模型规范”),包括:
(a) 指定模型旨在遵循的原则;
(b) 说明模型如何旨在优先考虑不同种类的原则和指令;
(c) 列出模型旨在拒绝指令的主题;以及
(d) 提供系统提示。
措施7.2 进行的原因
签署方将在模型报告中提供:
(1) 详细论证模型带来的系统性风险为何是可接受的,包括所纳入的安全边界的详细信息(根据措施4.1);
(2) 合理预见的条件,在这些条件下,第(1)点的论证将不再成立;以及
(3) 描述如何决定继续进行开发、在市场上提供和/或使用(根据措施4.2),包括外部参与者的输入是否影响了此类决定(根据措施1.1第(2)(d)点),以及独立外部评估者根据附录3.5的输入是否影响了此类决定,以及是如何影响的。
措施7.3 系统性风险识别、分析和缓解的文件记录
签署方将在模型报告中提供:
(1) 对其系统性风险识别和分析结果的描述,以及任何有助于理解这些结果的信息,包括:
(a) 描述他们对属于附录1.1中风险类型的风险的系统性风险识别流程(根据措施2.1第(1)点);
(b) 解释关于模型将如何被使用和集成到AI系统中的不确定性和假设;
(c) 描述他们对系统性风险的系统性风险建模结果(根据措施3.3);
(d) 描述模型带来的系统性风险及其理由,包括:
(i) 系统性风险估计(根据措施3.4);以及
(ii) 比较实施安全和保障缓解措施后的系统性风险与模型完全引出后的系统性风险(根据附录3.2);
(e) 所有与理解模型带来的系统性风险相关的模型评估结果,以及描述:
(i) 评估是如何进行的;
(ii) 模型评估中涉及的测试和任务;
(iii) 模型评估是如何评分的;
(iv) 模型是如何引出的(根据附录3.2);
(v) 分数如何与人类基线(如适用)比较,跨模型版本和跨评估设置比较;
(f) 每个相关模型评估的至少五个随机输入和输出样本,例如补全、生成和/或轨迹,以便于独立解释模型评估结果和理解模型带来的系统性风险。如果特定轨迹对理解系统性风险有重要影响,则也将提供此类轨迹。此外,如果AI办公室随后要求,签署方将提供足够数量的相关模型评估的随机输入和输出样本;
(g) 描述提供给以下人员的访问权限和其他资源:(i) 内部模型评估团队(根据附录3.4);以及(ii) 根据附录3.5的独立外部评估者。或者,对于前一点(ii),签署方可以要求任何此类独立外部评估者在签署方向AI办公室提供其模型报告的同时,直接向AI办公室提供所需信息;以及
(h) 如果他们根据附录2使用“类似安全或更安全模型”概念,提供如何满足“安全参考模型”(根据附录2.1)和“类似安全或更安全模型”(根据附录2.2)标准的理由;
(2) 描述:
(a) 所有已实施的安全缓解措施(根据承诺5);
(b) 它们如何满足措施5.1的要求;以及
(c) 它们的限制(例如,如果针对不良模型行为的示例进行训练,会使识别未来此类行为实例变得更加困难);
(3) 描述:
(a) 保障目标(根据措施6.1);
(b) 所有已实施的保障缓解措施(根据措施6.2);
(c) 缓解措施如何实现保障目标,包括它们在多大程度上符合相关国际标准或其他相关指导(如RAND保护AI模型权重报告);以及
(d) 如果签署方偏离了附录4.1至4.5中列出的一个(或多个)保障缓解措施,例如(a)点,提供他们实施的替代保障缓解措施如何实现相应缓解目标的理由;以及
(4) 概括描述:
(a) 他们打算在未来六个月内进一步开发模型的技术和资产,包括通过使用其他AI模型和/或AI系统;
(b) 此类未来版本和更先进的模型在能力和倾向方面可能与签署方当前模型有何不同;以及
(c) 他们打算为这类模型实施的任何新的或重大更新的安全和保障缓解措施。
措施7.4 外部报告
签署方将在模型报告中提供:
(1) 任何可用的报告(例如,通过有效超链接)来自:
(a) 参与根据附录3.5进行模型评估的独立外部评估者;以及
(b) 根据附录4.5进行安全审查的独立外部方;在尊重现有保密(包括商业保密)义务并允许此类外部评估者或方保持对其研究结果发布控制权的范围内,签署方不对这些报告的内容进行暗示性认可;
(2) 如果没有独立外部评估者参与根据附录3.5进行的模型评估,说明如何满足附录3.5第一段第(1)或(2)点的条件;以及
(3) 如果至少有一个独立外部评估者参与根据附录3.5进行的模型评估,基于资格标准解释评估者的选择。
措施7.5 系统性风险格局的重大变化
签署方将确保模型报告包含相关信息,以便AI办公室了解模型的开发、在市场上提供和/或使用是否以及如何导致系统性风险格局的重大变化,这些变化与本章节下系统性风险评估和缓解措施和流程的实施相关。
此类信息的例子包括:
(1) 描述表明改进模型能力的新方法的扩展规律;
(2) 总结在计算效率或模型能力方面实质性改进最新技术的新型架构特征;
(3) 描述与评估缓解措施有效性相关的信息,例如,如果模型的思维链对人类来说不那么可读;和/或
(4) 描述在分布式训练的效率或可行性方面实质性改进的训练技术。
措施7.6 模型报告更新
如果签署方有合理理由相信模型带来的系统性风险为何可接受的论证(根据措施7.2第(1)点)已被实质性破坏,则签署方将更新其模型报告。此类理由的例子包括:
(1) 根据措施7.2第(2)点列出的条件之一已经实现;
(2) 模型的能力、倾向和/或功能已经或将会发生重大变化,例如通过进一步的后训练、访问额外工具或增加推理计算;
(3) 模型的使用和/或集成到AI系统中已经或将会发生重大变化;
(4) 涉及模型或类似模型的严重事件和/或未遂事件已经发生;和/或
(5) 已出现的事态发展实质性破坏了所进行模型评估的外部有效性,实质性改进了模型评估方法的最新技术,和/或因其他原因表明所进行的系统性风险评估存在实质性不准确。
模型报告更新应在签署方意识到需要更新的理由后的合理时间内完成,例如,在他们作为其持续系统性风险评估和缓解(根据措施1.2第二段)的一部分发现这些理由之后。如果模型报告更新是由模型的主动变更触发的,并且该变更已在市场上提供,则模型报告更新和底层完整系统性风险评估和缓解流程(根据措施1.2第三段)需要在该变更在市场上提供之前完成。
此外,如果模型是其在市场上提供的最具能力的模型之一,签署方将至少每六个月向AI办公室提供一次更新的模型报告。如果:(1) 自签署方上次向AI办公室提供模型报告或其更新以来,模型的能力、倾向和/或功能没有发生变化;(2) 他们将在不到一个月内在市场上提供更具能力的模型;和/或(3) 模型在每个已识别的系统性风险(根据措施2.1)方面被视为类似安全或更安全(根据附录2.2),则签署方无需这样做。
更新的模型报告将包含:
(1) 基于完整系统性风险评估和缓解流程(根据措施1.2第三段)的结果,更新措施7.1至7.5中指定的信息;以及
(2) 变更日志,描述模型报告如何以及为何更新,以及版本号和变更日期。
措施7.7 模型报告通知
签署方将在将模型投放市场时向AI办公室提供模型报告的访问权限(未经编辑,除非他们受到国家保密法律的约束),例如,通过公开可访问的链接或通过AI办公室指定的足够安全的渠道。如果模型报告已更新,签署方将在确认更新后五个工作日内向AI办公室提供更新模型报告的访问权限(未经编辑,除非他们受到国家保密法律的约束)。
为促进模型的市场投放,签署方可以延迟向AI办公室提供模型报告或其更新,最长可达15个工作日。这仅在AI办公室认为签署方是出于善意行事,并且签署方立即向AI办公室提供临时模型报告(包含措施7.2和7.5中指定的信息)的情况下才可以进行。
承诺8 系统性风险责任分配
法律文本:人工智能法第55(1)条和序言第114条
签署方承诺:
(1) 在组织的各个层面为管理其模型带来的系统性风险明确分配责任(如措施8.1所规定);
(2) 为被分配管理系统性风险责任的参与者分配适当的资源(如措施8.2所规定);
(3) 促进健康的风险文化(如措施8.3所规定)。
措施8.1 明确责任分配
签署方将在组织的各个层面为管理其模型带来的系统性风险明确分配责任。这包括以下责任:
(1) 系统性风险监督者:监督签署方的系统性风险评估和缓解流程和措施。
(2) 系统性风险责任方:管理签署方模型带来的系统性风险,包括系统性风险评估和缓解流程和措施,以及管理对严重事件的响应。
(3) 系统性风险支持和监测者:支持和监测签署方的系统性风险评估和缓解流程和措施。
(4) 系统性风险保证者:就签署方系统性风险评估和缓解流程和措施的充分性向管理层履行监督职能的机构或其他适当的独立机构(如委员会或董事会)提供内部和(如适当)外部保证。
签署方将在其组织的以下层面分配这些责任,这些责任适合签署方的治理结构和组织复杂性:
(1) 管理层履行监督职能的机构或其他适当的独立机构(如委员会或董事会);
(2) 管理层履行执行职能的机构;
(3) 相关运营团队;
(4) 如有,内部保证提供者(例如,内部审计职能);
(5) 如有,外部保证提供者(例如,第三方审计师)。
如果签署方根据其模型带来的系统性风险,适当遵守以下所有规定,则本措施被视为已履行:
(1) 系统性风险监督者:已将监督签署方系统性风险管理流程和措施的责任分配给管理层履行监督职能的机构的特定委员会(例如,风险委员会或审计委员会)或一个或多个适当的独立机构(如委员会或董事会)。对于SMEs或SMCs签署方,此责任可主要分配给管理层履行监督职能的机构的个别成员。
(2) 系统性风险责任方:已将管理模型带来的系统性风险的责任分配给管理层履行执行职能的机构的适当成员,这些成员还负责可能引起系统性风险的相关签署方核心业务活动,如研究和产品开发(例如,研究负责人或产品负责人)。管理层履行执行职能的机构的成员已将较低级别的责任分配给监督部分产生系统性风险的业务活动的运营经理(例如,特定研究领域或特定产品)。根据组织复杂性,可能存在级联责任结构。
(3) 系统性风险支持和监测者:已将支持和监测签署方系统性风险管理流程和措施(包括进行风险评估)的责任分配给管理层履行执行职能的机构的至少一名成员(例如,首席风险官或安全与保障框架副总裁)。该成员不得还负责可能引起系统性风险的签署方核心业务活动(例如,研究和产品开发)。对于SMEs或SMCs签署方,在管理层履行执行职能的机构中至少有一名个人负责支持和监测签署方的系统性风险评估和缓解流程和措施。
(4) 系统性风险保证者:已向管理层履行监督职能的机构或其他适当的独立机构(如委员会或董事会)分配了提供关于签署方系统性风险评估和缓解流程和措施充分性的保证的责任,该责任分配给相关方(例如,首席审计执行官、内部审计负责人或相关小组委员会)。该个人得到内部审计职能或同等职能以及适当的外部保证的支持。签署方的内部保证活动是适当的。对于SMEs或SMCs签署方,管理层履行监督职能的机构定期评估签署方的系统性风险评估和缓解流程和措施(例如,通过批准签署方的框架评估)。
措施8.2 适当资源分配
签署方将确保其管理机构监督向被分配责任(根据措施8.1)的人员分配资源,这些资源适合其模型带来的系统性风险。此类资源分配将包括:
(1) 人力资源;
(2) 财务资源;
(3) 信息和知识获取;
(4) 计算资源。
措施8.3 促进健康的风险文化
签署方将促进健康的风险文化,并采取适当措施,确保被分配管理其模型带来的系统性风险责任(根据措施8.1)的人员对系统性风险采取合理和平衡的方法。
本措施目的的健康的风险文化指标示例如下:
(1) 从高层为健康的系统性风险文化定下基调,例如,领导层向员工清晰传达签署方的框架;
(2) 允许就系统性风险决策进行清晰的沟通和质疑;
(3) 为参与系统性风险评估和缓解的员工设置激励措施,并给予足够的独立性,以阻止过度的系统性风险承担,并鼓励对其模型带来的系统性风险进行无偏评估;
(4) 匿名调查识别员工对提出系统性风险担忧是否感到满意、了解这样做的渠道,并理解签署方的框架;
(5) 内部报告渠道被积极使用,报告得到适当处理;
(6) 每年向员工通报签署方的举报人保护政策,并通过在其网站上发布等方式使员工能够轻松获得此类政策;
(7) 不对任何向主管当局发布或提供关于其模型带来的系统性风险的信息的人进行任何形式的报复,包括任何直接或间接的不利行动,如解雇、降职、法律行动、负面评价或制造敌对的工作环境,这些信息是在为签署方执行与工作相关的活动过程中获得的,并且该信息有合理理由相信其真实性。
承诺9 严重事件报告
法律文本:人工智能法第55(1)条,以及序言第114和115条
签署方承诺实施适当的流程和措施,以跟踪、记录,并在整个模型生命周期中及时向AI办公室以及(如适用)国家主管当局报告有关严重事件的相关信息,以及可能解决这些事件的纠正措施,如本承诺的措施所规定。此外,签署方承诺为这类流程和措施提供资源,这些资源适合严重事件的严重性及其模型的参与程度。
措施9.1 严重事件识别方法
签署方将考虑措施3.5中的示例方法来跟踪有关严重事件的相关信息。此外,签署方将:
(1) 审查其他信息来源,如警方和媒体报告、社交媒体帖子、研究论文和事件数据库;
(2) 促进下游修改者、下游提供者、用户和其他第三方通过以下方式向签署方或(如适用)AI办公室和国家主管当局报告有关严重事件的相关信息:
(a) 直接报告渠道,如果有的话;
(b) 告知此类第三方这些直接报告渠道,不影响他们在人工智能法第73条下的任何报告义务。
措施9.2 严重事件跟踪、记录和报告的相关信息
签署方将跟踪、记录并向AI办公室以及(如适用)国家主管当局报告至少以下信息,尽最大努力遵守适用于此类信息的其他欧盟法律:
(1) 严重事件的开始和结束日期,或如果确切日期不明确,则为其最佳近似值;
(2) 严重事件导致的伤害以及受害者或受影响的群体;
(3) 直接或间接导致严重事件的事件链;
(4) 涉及严重事件的模型;
(5) 描述模型涉及严重事件的材料;
(6) 签署方打算或已经采取的措施,以应对严重事件;
(7) 签署方建议AI办公室以及(如适用)国家主管当局采取的措施,以应对严重事件;
(8) 根本原因分析,描述模型导致严重事件的输出(直接或间接)以及促成其生成的因素,包括使用的输入和任何系统性风险缓解措施的失败或规避;
(9) 在上市后监测(根据措施3.5)期间发现的任何模式,这些模式可以合理地假设与严重事件有关,例如未遂事件的个别或汇总数据。
签署方将调查严重事件的原因和影响,包括前一份清单中的信息,以便为系统性风险评估提供信息。如果签署方尚未拥有前一份清单中的某些相关信息,他们将在严重事件报告中记录这一点。严重事件报告中的细节水平将适合事件的严重性。
措施9.3 报告时间
签署方将在以下时间点向AI办公室以及(如适用)国家主管当局提交包含措施9.2中第(1)至(7)点信息的初步报告,除非在特殊情况下,如果其模型(直接或间接)涉及导致:
(1) 关键基础设施的管理或运营受到严重且不可逆转的破坏,或如果签署方建立或合理怀疑其模型与破坏之间存在因果关系,则在签署方意识到其模型涉及事件后不迟于两天;
(2) 严重的网络安全漏洞,包括模型权重的(自我)泄露和网络攻击,或如果签署方建立或合理怀疑其模型与漏洞之间存在因果关系,则在签署方意识到其模型涉及事件后不迟于五天;
(3) 人员死亡,或如果签署方建立或合理怀疑其模型与死亡之间存在因果关系,则在签署方意识到其模型涉及事件后不迟于10天;
(4) 人员健康(精神和/或身体)受到严重伤害,违反欧盟法律保护基本权利的义务,和/或对财产或环境造成严重损害,或如果签署方建立或合理怀疑其模型与这些伤害或违规之间存在因果关系,则在签署方意识到其模型涉及事件后不迟于15天。
对于未解决的严重事件,签署方将更新其初步报告中的信息,并在根据措施9.2要求的中间报告中添加更多信息,该中间报告至少在初步报告后每四周提交给AI办公室以及(如适用)国家主管当局。
签署方将在严重事件解决后不迟于60天向AI办公室以及(如适用)国家主管当局提交最终报告,涵盖措施9.2要求的所有信息。
如果在报告时间内发生多个类似的严重事件,签署方可以将它们包含在第一个严重事件的报告中,同时尊重第一个严重事件的报告时间。
措施9.4 保留期限
签署方将保留遵守本承诺所收集的所有相关信息的文件记录,自文件记录日期或严重事件日期起至少五年,以较晚者为准,不影响适用于此类信息的欧盟法律。
承诺10 附加文件记录和透明度
法律文本:人工智能法第53(1)(a)条和55(1)条
签署方承诺记录本章节的实施情况(如措施10.1所规定),并在必要时发布其框架和模型报告的摘要版本(如措施10.2所规定)。
措施10.1 附加文件记录
签署方将起草并保持以下信息的最新状态,以便在AI办公室要求时提供:
(1) 模型架构的详细描述;
(2) 模型如何集成到AI系统中的详细描述,解释软件组件如何构建或相互输入并集成到整体处理中,若签署方知道此类信息;
(3) 根据本章节进行的模型评估的详细描述,包括其结果和策略;
(4) 已实施的安全缓解措施的详细描述。
文件记录将在模型投放市场后至少保留10年。
此外,签署方将跟踪以下信息,只要这些信息未被第一段所涵盖,以便在AI办公室要求时证明遵守本章节:
(1) 其流程、措施和关键决策,这些是其系统性风险评估和缓解的一部分;
(2) 如果签署方依赖特定最佳实践、最先进技术或其他更具创新性的流程或措施来遵守本章节,则为选择该流程或措施的理由。
签署方无需将第三段的信息收集在一个媒介或地点,但可以在AI办公室要求时进行汇编。
措施10.2 公共透明度
如果并在评估和/或缓解系统性风险所必需的范围内,签署方将发布(例如,通过其网站)其框架和模型报告的摘要版本,以及更新(根据承诺1和7,但删除不会削弱安全和/或保障缓解措施有效性以及保护敏感商业信息的内容。对于模型报告,此类发布将包括对系统性风险评估结果和实施的安全和保障缓解措施的概括描述。对于框架,如果签署方的所有模型都是根据附录2.2的类似安全或更安全模型,则无需进行此类发布。对于模型报告,如果模型是根据附录2.2的类似安全或更安全模型,则无需进行此类发布。
术语表
只要本章节提到人工智能法第3条中定义的术语,就适用人工智能法的定义,并且如果本章节中该术语的使用可能引起任何替代和/或竞争性解释,则应以该定义为准。否则,并作为补充,以下术语在本章节中使用,并具有所述含义。除非另有说明,本词汇表中定义的术语的所有语法变化均应被视为被相关定义所涵盖。
术语 | 定义 |
---|---|
“适当的” | 适合且必要以实现系统性风险评估和/或缓解的预期目的,无论是通过最佳实践、最先进技术,还是其他更具创新性的流程、措施、方法、技术或工艺,这些流程、措施、方法、技术或工艺超越了最先进技术。 |
“最佳实践” | 在具有系统性风险的通用目的人工智能模型提供者中被接受为最佳流程、措施、方法和技术,这些流程、措施、方法和技术在任何给定时间点最好地评估和缓解系统性风险。 |
“确认” | 框架或模型报告,或其更新,已在适用的治理程序下获得所需批准。 |
“欺骗” | 模型行为系统地产生错误信念,包括模型行为以实现涉及逃避监督的目标,例如模型检测到其正在被评估并表现不佳或以其他方式破坏监督。 |
“外部有效性” | 高科学和技术严谨性(见下文定义)的一个方面,确保模型评估适合校准结果,以用作模型在评估环境之外行为的代理。证明外部有效性对于不同的系统性风险和模型评估方法会有所不同,但可以通过例如记录模型评估环境、它与现实世界环境的不同方式以及模型评估环境的多样性来显示。 |
“高科学和技术严谨性” | 模型评估的质量标准,使得具有高科学和技术严谨性的模型评估具有内部有效性(见下文定义)和外部有效性(见上文定义),以及可重复性(见下文定义)。进一步参见附录3.2。 |
“包括” | 引入一个非穷尽的集合,该集合应被理解为所引用术语所要求的最低要求,并指示集合的进一步项目。 |
“独立外部” | 一个自然人或法人,在财务、运营或管理上不依赖于签署方或其任何子公司或关联公司,并且在得出结论和/或提出建议时不受签署方的控制,包括通过合同保障和适当的利益冲突政策。 |
“内部威胁” | 由人类、AI模型和/或AI系统(例如,高级管理层、组织的高级研究团队成员、其他不满的员工、已经渗透到其目标的工业间谍行为的实施者,和/或模型自我泄露)进行的对抗行动,这些行动者可以访问敏感的组织资源,和/或意外的模型泄露。 |
“内部有效性” | 高科学和技术严谨性(见上文定义)的一个方面,确保模型评估结果在评估环境中尽可能科学准确,并且没有可能破坏结果的方法论缺陷。证明内部有效性对于不同的系统性风险和模型评估方法会有所不同,但可以通过例如:足够大的样本量;测量统计显著性和统计功效;披露使用的环境参数;控制混杂变量和减轻虚假相关;防止在训练中使用测试数据(例如,使用训练-测试分割和尊重金丝雀字符串);在不同条件和不同环境下多次重新运行模型评估,包括改变模型评估的各个部分(例如,提示的强度以及安全和保障缓解措施);详细检查轨迹和其他输出;避免模型评估中潜在的标签偏见,特别是涉及人类注释者的模型评估(例如,通过盲法或报告注释者间一致性);使用增加透明度的技术(例如,评估中的推理痕迹,这些痕迹代表模型的“内部工作”并且评估者可以阅读);使用测量和/或减少模型逃避监督能力的技术;和/或披露创建和管理新模型评估的方法以确保其完整性。 |
“管理机构” | 根据国家法律任命并授权执行以下职能的公司机构:(1) 通过(a)设定组织的战略、目标和总体方向,以及(b)进行组织的日常管理来执行职能;以及(2) 通过监督和监测执行决策来履行监督职能。根据相关国家法律,执行职能和监督职能可能由同一管理机构内的不同人员执行,也可能由管理机构的不同部分执行。 |
“模型” | 具有系统性风险的通用目的人工智能模型。同一模型可能存在许多不同的版本,例如为不同目的微调的版本、具有访问不同工具权限的版本和/或具有不同安全和/或保障缓解措施的版本。本章节中所有对“模型”的引用均指相关模型版本,视上下文要求而定。一般而言,在系统性风险评估和缓解的背景下,所有对“模型”的引用均指总体上构成模型带来的系统性风险的所有模型版本,包括所有模型版本:(1) 最先进的;(2) 对应于第(1)点且具有有限或未实施系统性风险安全和/或保障缓解措施的;和/或(3) 被广泛使用的。在比较不同“模型”的背景下(例如在措施3.5和附录3.5中,结合附录2,以及承诺6中),所有对“模型”的引用均指单个模型版本。如果术语“AI”在术语“模型”之前,则该术语例外地不仅指具有系统性风险的通用目的人工智能模型,还包括除具有系统性风险的通用目的人工智能模型之外的所有模型。 |
“模型引出” | 技术工作,以系统地增强模型的能力、倾向、功能和/或影响,从而促进准确测量可能实现的全部能力、倾向、功能和/或影响范围。 |
“模型评估” | 一种系统性风险评估技术,可用于系统性风险评估的所有阶段(如下定义)。 |
“模型独立信息” | 不特定于某个模型的信息,包括数据和研究,但可以通知多个模型的系统性风险评估和缓解。进一步参见措施3.1。 |
“未遂事件” | 一个严重事件本可能发生,但最终没有发生的情况。 |
“非国家外部威胁” | 非国家行为者进行的对抗行动,这些行动:(1) 大致相当于十个经验丰富的网络安全专业人员;(2) 在特定行动上花费数月时间,总预算高达100万欧元;以及(3) 拥有主要的预先存在的网络攻击基础设施,但没有预先存在的对目标组织的访问权限。 |
“上市后监测” | 从模型投放市场到模型退出市场的时间跨度内对模型进行监测。进一步参见措施3.5。 |
“流程” (名词;在系统性风险管理的背景下) | 构成或导致本章节规定的措施的结构化行动集。 |
“可重复性” | 高科学和技术严谨性(见上文定义)的一个方面,指使用相同的输入数据、计算技术、代码和模型评估条件获得一致的模型评估结果的能力,允许其他研究人员和工程师验证、复制或改进模型评估结果。可重复性可以通过例如以下方式显示:成功的同行评审和/或独立第三方的复制;向AI办公室安全发布足够数量的模型评估数据、模型评估代码、模型评估方法和方法的文档、模型评估环境和计算环境以及模型引出技术;和/或使用公开可用的API、技术模型评估标准和工具。 |
“已解决” (严重事件) | 模型的严重事件,签署方已采取纠正措施以纠正伤害(如果可能),并评估和缓解与之相关的系统性风险。“未解决”应相应理解。 |
“扩展规律”(scaling law) | 系统关系,涉及AI模型或AI系统开发或使用中的某些变量,例如大小或训练或推理中使用的时间、数据或计算资源的数量,以及其性能。 |
“(自我)泄露模型权重” | 模型本身和/或未经授权的行为者从安全存储中访问或转移模型的权重或相关资产。 |
“类似模型” | 具有或不具有系统性风险的通用目的人工智能模型,基于签署方可用的公开和/或私人信息,假定具有实质上相似的能力、倾向和功能,包括“安全参考模型”(根据附录2.1)和“类似安全或更安全模型”(根据附录2.2)。 |
“最先进技术” | 相关研究、治理和技术的前沿,超越了最佳实践。 |
“系统提示” | 在用户交互开始之前提供给模型的一组指令、指南和上下文信息。 |
“系统性风险接受标准” | 在框架中定义的标准,签署方使用这些标准来决定其模型带来的系统性风险是否可接受。系统性风险等级(如下定义)是系统性风险接受标准的一种类型。进一步参见措施4.1。 |
“系统性风险评估” | 指所有系统性风险识别(根据承诺2)、系统性风险分析(根据承诺3)和系统性风险接受度确定(根据承诺4)的总称。 |
“系统性风险管理” | 协调流程和措施,指导组织处理系统性风险,包括系统性风险评估和缓解。 |
“系统性风险缓解措施” | 包括安全缓解措施(根据承诺5)、保障缓解措施(根据承诺6)和治理缓解措施(根据承诺1和7至10)的系统性风险缓解措施。 |
“系统性风险建模” | 旨在指定模型带来的系统性风险可能实现的路径的结构化流程;通常与术语“威胁建模”互换使用。本章节使用术语“风险建模”,因为术语“威胁建模”在网络安全中具有特定含义。进一步参见措施3.3。 |
“系统性风险情境” | 模型带来的系统性风险可能实现的情境。进一步参见措施2.2。 |
“系统性风险来源” | 单独或与其他因素结合可能引起系统性风险的因素。进一步参见附录1.3。 |
“系统性风险等级” | 在框架中定义的等级,对应于模型带来的特定水平的系统性风险。系统性风险等级是系统性风险接受标准的一种类型。进一步参见措施4.1。 |
“使用” (模型) | 签署方或其他行为者使用模型。 |
附录
附录1 系统性风险和其他考虑因素
法律文本
人工智能法第3(64)条:“高影响能力”是指与最先进通用目的人工智能模型中记录的能力相匹配或超过的能力。
人工智能法第3(65)条:“系统性风险”是指特定于通用目的人工智能模型高影响能力的风险,由于其覆盖范围或对公共健康、安全、公共安全、基本权利或整个社会的实际或合理可预见的负面影响,在欧盟市场上产生重大影响,并且可以在整个价值链中大规模传播。
附加法律文本:人工智能法序言第110条
附录1.1 风险类型
为识别措施2.1第(1)点和人工智能法第3(65)条中的系统性风险,以下不同但在某些情况下重叠的风险类型适用:
(1) 对公共健康的风险。
(2) 对安全保障(Safety)的风险。
(3) 对公共安全(Public Security)的风险。
(4) 对基本权利的风险。
(5) 对整个社会的风险。
基于这些风险类型,附录1.4中提供了一份指定的系统性风险清单。
作为签署方将进行的系统性风险识别流程的一部分,他们在编制措施2.1第(1)(a)点中的风险清单时将借鉴的上述五种风险类型的风险示例如下:重大事故风险;对关键部门或基础设施、公共心理健康、言论自由和信息自由、不歧视、隐私和个人数据保护、环境、非人类福利、经济安全以及民主进程的风险;以及来自权力集中和非法、暴力、仇恨、激进化或虚假内容的风险,包括来自儿童性虐待材料(CSAM)和非自愿亲密图像(NCII)的风险。
附录1.2 系统性风险的性质
以下关于系统性风险性质的考虑因素为系统性风险识别(根据承诺2)提供信息。这些考虑因素区分了系统性风险性质的基本特征(附录1.2.1)和促成特征(附录1.2.2)。
附录1.2.1 基本特征
(1) 风险特定于人工智能法第3(65)条和第3(64)条中的高影响能力。
(2) 风险对人工智能法第3(65)条中的欧盟市场产生重大影响。
(3) 所述影响可以在人工智能法第3(65)条中的整个价值链中大规模传播。
附录1.2.2 促成特征
(1) 能力依赖性:风险随着模型能力的提高而增加,或者可能在模型能力的涌现(frontier of model capabilities)中出现。
(2) 覆盖范围依赖性:风险随着模型的覆盖范围增加而增加。
(3) 高速度:风险可能迅速实现,可能超过缓解措施。
(4) 复合或级联:风险可能触发其他系统性风险或连锁反应。
(5) 难以或无法逆转:一旦实现,风险会产生需要非凡努力、资源或时间来补救的持久变化,或者会永久不可逆转。
(6) 不对称影响:少数行为者或事件可以触发风险的实现,造成与行为者或事件数量不成比例的影响。
附录1.3 系统性风险来源
以下模型能力、模型倾向、模型功能和其他系统性风险来源被视为非详尽的潜在系统性风险来源,用于系统性风险识别(根据承诺2)。
附录1.3.1 模型能力
模型能力包括:
(1) 攻击性网络能力;
(2) 化学、生物、放射性和核(CBRN)能力,以及其他此类武器获取或扩散能力;
(3) 可能导致对基本权利的持续和严重侵犯的能力;
(4) 操纵、说服或欺骗的能力;
(5) 自主操作的能力;
(6) 适应性学习新任务的能力;
(7) 长期规划、预测或策略制定的能力;
(8) 自我推理能力(例如,模型对自己、其实现或环境进行推理的能力,其知道是否正在被评估的能力);
(9) 逃避人类监督的能力;
(10) 自我复制、自我改进或修改其实现环境的能力;
(11) 自动化AI研究和开发的能力;
(12) 处理多种模态(例如文本、图像、音频、视频和更多模态)的能力;
(13) 使用工具的能力,包括“计算机使用”(例如与不是模型本身一部分的硬件或软件交互、应用程序接口和用户界面);
(14) 控制物理系统的能力。
附录1.3.2 模型倾向
模型倾向包括模型的倾向或趋势,表现为某些行为或模式,包括:
(1) 与人类意图不一致;
(2) 与人类价值观不一致(例如,无视基本权利);
(3) 倾向于以有害方式部署能力(例如,操纵或欺骗);
(4) 倾向于“产生幻觉”、产生错误信息或隐藏信息来源;
(5) 歧视性偏见;
(6) 性能可靠性不足;
(7) 无法无天,即在没有合理关注类似情况下会强加于类似人员的法律义务的情况下行事,或者在没有合理关注受影响人员的法律保护利益的情况下行事;
(8) “目标追求”、对目标修改的有害抵抗或“权力寻求”;
(9) 与其他AI模型/系统“勾结”;
(10) 与其他AI模型/系统的不协调或冲突。
附录1.3.3 模型功能和其他系统性风险来源
模型功能和其他系统性风险来源,包括模型配置、模型属性以及模型在市场上提供的环境,包括:
(1) 访问工具(包括其他AI模型/系统)、计算能力(例如允许模型提高其操作速度)或物理系统,包括关键基础设施;
(2) 可扩展性(例如实现高容量数据处理、快速推理或并行化);
(3) 发布和分发策略;
(4) 人类监督水平(例如模型自主程度);
(5) 对抗性移除护栏的脆弱性;
(6) 模型泄露的脆弱性(例如模型泄露/盗窃);
(7) 缺乏适当的基础设施安全;
(8) 商业用户和最终用户的数量,包括将模型集成到AI系统中的最终用户数量;
(9) 攻击-防御平衡,包括恶意行为者的潜在数量、能力和动机,以滥用模型;
(10) 可能受模型影响的特定环境的脆弱性(例如社会环境、生态环境);
(11) 缺乏适当的模型可解释性或透明度;
(12) 与其他AI模型和/或AI系统的交互;
(13) 模型的不当使用(例如,将模型用于与其能力或倾向不匹配的应用程序)。
附录1.4 指定系统性风险
基于附录1.1中的风险类型,考虑附录1.2中的系统性风险性质和附录1.3中的系统性风险来源,并考虑到根据人工智能法第56(1)条和序言第110条的国际方法,以下被视为指定的系统性风险,用于措施2.1第(2)点中的系统性风险识别:
(1) 化学、生物、放射性和核:来自化学、生物、放射性和核(CBRN)攻击或事故的风险。这包括显著降低恶意行为者的进入门槛,或显著增加在设计、开发、获取、释放、分发和使用相关武器或材料方面可能实现的潜在影响。
(2) 失控:来自人类失去可靠地指导、修改或关闭模型的能力的风险。此类风险可能源于与人类意图或价值观的不一致、自我推理、自我复制、自我改进、欺骗、对目标修改的抵抗、权力寻求行为,或自主创建或改进AI模型或AI系统。
(3) 网络攻击:来自大规模复杂网络攻击的风险,包括对关键系统(例如关键基础设施)的攻击。这包括显著降低恶意行为者的进入门槛,或显著增加在攻击性网络行动方面可能实现的潜在影响,例如通过自动漏洞发现、利用生成、操作使用和攻击扩展。
(4) 有害操纵:来自通过说服、欺骗或个性化定位,针对大量人群或高风险决策者,战略性地扭曲人类行为或信念的风险。这包括显著增强说服、欺骗和个性化定位的能力,特别是通过多轮交互,以及个人不知道或无法合理检测到此类影响的情况。此类能力可能会破坏民主进程和基本权利,包括基于受保护特征的剥削。
附录2 类似安全或更安全模型
附录2.1 安全参考模型
如果满足以下条件,模型可被视为关于系统性风险的安全参考模型:
(1) 模型已:(a) 在发布本章节之前已投放市场;或(b) 完成了完整的系统性风险评估和缓解流程(根据措施1.2第三段),包括模型带来的系统性风险已被确定为可接受(根据承诺4),并且AI办公室已收到其模型报告(根据承诺7);
(2) 签署方对模型的特征有足够的可见性,例如相关架构细节、能力、倾向、功能和安全缓解措施。对于签署方自己开发的所有模型,以及签署方可以访问完成完整系统性风险评估和缓解流程(根据措施1.2第三段)所需的所有信息(包括模型参数)的所有模型,假定具有此类可见性;
(3) 没有其他合理理由相信模型带来的系统性风险不可接受。
附录2.2 类似安全或更安全模型
如果满足以下条件,模型可被视为关于系统性风险的类似安全或更安全模型:
(1) 签署方在进行系统性风险识别(根据承诺2)后,没有合理预见到与系统性风险相关的模型相比安全参考模型有任何重大不同的系统性风险情境(根据措施2.2);
(2) 模型在相关至少最先进的轻量级基准测试中的得分均低于或等于(在可忽略的误差范围内)安全参考模型的得分。与安全参考模型相比,能力的小幅提升如果没有导致系统性风险的实质性增加,则可以忽略不计。此类基准测试必须根据措施3.2运行;
(3) 与安全参考模型相比,模型的特征(例如相关架构细节、能力、倾向、功能和安全缓解措施)没有已知的差异,可以合理预见会导致系统性风险的实质性增加,并且没有其他合理理由相信模型带来的系统性风险与安全参考模型相比有实质性增加。
在对前一段的第(2)和(3)点以及附录2.1第(2)点进行评估时,签署方将通过纳入足够宽的安全边界,适当考虑可能源于例如缺乏关于参考模型的信息和测量误差的不确定性。
如果签署方先前视为安全参考模型的模型随后失去了作为安全参考模型的地位,则签署方将在六个月内:
(1) 确定另一个安全参考模型,相对于该模型,模型可被视为类似安全或更安全模型;或
(2) 如果先前遵守依赖于因其类似安全或更安全状态而获得的豁免和/或减免,则将另一个模型视为受本章节所有承诺和措施的约束,包括完成所有先前被豁免和/或减免的完整系统性风险评估和缓解流程(根据措施1.2第三段)。
附录3 模型评估
以下规定了在完整系统性风险评估和缓解流程(根据措施1.2第三段)期间措施3.2所要求的模型评估。
附录3.1 严格模型评估
签署方将确保模型评估以高科学和技术严谨性进行,确保:
(1) 内部有效性;
(2) 外部有效性;
(3) 可重复性。
附录3.2 模型引出 Model elicitation
签署方将确保模型评估以至少最先进的模型引出水平进行,引出模型的能力、倾向、功能和/或影响,使用至少最先进的技术:
(1) 最小化低引出的风险;
(2) 最小化模型在模型评估期间(例如,隐藏实力)欺骗的风险;例如通过适应测试时计算、速率限制、脚手架和工具,以及进行微调和提示工程。
为此,签署方将至少:
(1) 匹配与系统性风险情境(根据措施2.2)相关的滥用行为者的模型引出能力;
(2) 匹配预期的使用环境(例如,等效的脚手架和/或工具访问),该环境由集成到AI系统中的信息告知,这些集成是:
(a) 为模型计划或考虑的;和/或
(b) 目前用于类似模型的,如果此类集成对签署方已知,并且签署方不能排除其模型的类似使用。
附录3.3 评估缓解措施的有效性
签署方将确保模型评估以适合系统性风险接受度确定依赖于特定缓解措施有效性的程度的广度和深度评估其安全缓解措施的有效性,包括在对抗性压力下(例如,微调攻击或越狱)。为此,签署方将使用至少最先进的技术,考虑:
(1) 其缓解措施按计划工作的程度;
(2) 其缓解措施被规避、停用或破坏的程度;
(3) 其缓解措施的有效性将来发生变化的可能性。
附录3.4 合格模型评估团队和充足资源
签署方将确保负责进行模型评估的团队结合技术专长和对系统性风险的相关领域知识,以实现整体和多学科的理解。此类技术专长和/或相关领域知识的示范性资格包括:
(1) 拥有与系统性风险相关的博士学位、同行评审和认可的出版物,或同等的研究或工程经验;
(2) 设计或开发了一种已发布且经过同行评审或广泛使用的系统性风险模型评估方法;
(3) 在与系统性风险直接相关的领域有三年的工作经验,或者如果该领域是新兴领域,则具有等效的学习或直接可转移知识领域的工作经验。
模型评估团队将获得:
(1) 充分访问模型以根据本附录3进行模型评估,包括适当访问模型激活、梯度、logits(或其他形式的原始模型输出)、思维链和/或其他技术细节,以及访问实施了最少安全缓解措施的模型版本(例如,仅有帮助模型版本,如果存在)。关于模型评估团队对模型访问的充分性,签署方将考虑这可能对模型安全带来的潜在风险,并为评估实施适当的安全措施;
(2) 信息,包括模型规范(包括系统提示)、相关训练数据、测试集和过去的模型评估结果,适当用于:(a) 系统性风险;(b) 模型评估方法;
(3) 时间,以胜任地设计和/或适应、调试、执行和分析根据本附录3的模型评估,适当用于:(a) 系统性风险;(b) 模型评估方法及其新颖性。例如,对于大多数系统性风险和模型评估方法,至少20个工作日是适当的;
(4) (a) 充足的计算预算,包括允许足够长的模型评估运行、并行执行和重新运行;(b) 充足的人员配置;(c) 充足的工程预算和支持,包括检查模型评估结果以识别和修复软件错误或模型拒绝,这可能导致人为降低的能力估计。关于(b)点,如果签署方聘请独立外部评估者,他们可以依赖后者关于其人员配置是否充足的保证。
附录3.5 独立外部模型评估
除了内部模型评估外,签署方将确保有适当资格的独立外部评估者根据本附录3就系统性风险进行模型评估,除非:
(1) 模型是根据附录2.2的类似安全或更安全模型;或
(2) 尽管使用了早期搜索工作(例如,通过公开20个工作日的公开呼吁)并及时通知已确定的评估者,签署方仍未能任命有适当资格的独立外部评估者,在这种情况下,签署方在确定模型带来的系统性风险是否可接受(根据承诺4)时,将考虑因缺乏独立外部评估(根据本附录3.5)而产生的潜在额外不确定性。
独立外部评估者的适当资格要求:
(1) 对系统性风险有重要的领域专长,并且在进行模型评估方面具有技术技能和经验;
(2) 有适当的内部和外部信息安全协议;
(3) 已同意保护商业机密信息,如果他们需要访问此类信息。
签署方将为独立外部评估者提供适当的访问权限、信息、时间和其他资源(根据附录3.4),不影响附录4.4第(1)点。签署方不会通过存储和/或分析测试运行的输入和/或输出来破坏外部模型评估的完整性,除非得到评估者的明确许可。
SMEs或SMCs签署方可以联系AI办公室,AI办公室可以提供支持或资源以促进遵守本附录3.5。
附录4 保障缓解目标和措施
以下规定了为满足保障目标(根据措施6.2)而实施的保障缓解目标和措施。
附录4.1 一般保障缓解措施
签署方将实施一般保障缓解措施,实现以下缓解目标:
(1) 防止未经授权的网络访问,通过:(a) 强大的身份和访问管理实践,包括限制设备和账户共享、多因素身份验证、强密码执行、强大的访问管理工具、802.1x身份验证、零信任架构、将无线网络保护到与有线网络相同的标准,以及将任何访客网络与工作网络分离;
(2) 降低社会工程风险,通过:(a) 电子邮件过滤,过滤可疑附件、链接和其他网络钓鱼尝试;
(3) 降低恶意软件感染和便携式设备恶意使用的风险,通过:(a) 关于使用可移动媒体的政策;
(4) 降低漏洞利用和恶意代码执行的风险,通过:(a) 定期软件更新和补丁管理。
附录4.2 未发布模型参数的保护
签署方将通过实施保障缓解措施保护未发布的模型参数,实现以下缓解目标:
(1) 对所有设备和位置上存储的所有模型参数副本进行问责,通过:(a) 安全内部登记所有存储模型参数设备和位置;
(2) 防止未经授权将模型参数复制到不受管理的设备,通过:(a) 对所有存储模型参数的设备进行访问管理,如果复制到不受管理的设备,则发出警报;
(3) 防止在传输和静止时未经授权访问模型参数,通过:(a) 确保模型参数在传输和存储期间始终加密,适当使用至少256位安全加密,并且加密密钥安全存储在可信平台模块(TPM)中;
(4) 防止在临时存储期间未经授权访问模型参数,通过:(a) 确保模型参数仅在合法使用时才解密到非持久性内存;
(5) 防止在使用时未经授权访问模型参数,通过:(a) 适当实施机密计算,使用基于硬件的、经过证明的可信执行环境;
(6) 防止对托管模型参数的系统进行未经授权的物理访问,通过:(a) 仅允许所需人员进入数据中心和其他敏感工作环境,并定期检查此类场所是否有未经授权的人员或设备。
附录4.3 未发布模型参数的接口访问加固
签署方将在使用时加固未发布模型参数的接口访问,通过实施保障缓解措施实现以下缓解目标:
(1) 防止不必要的接口访问模型参数,通过:(a) 仅明确授权所需的软件和人员访问模型参数,通过多因素身份验证机制强制执行,并至少每六个月检查一次;
(2) 降低漏洞利用或数据泄露的风险,通过:(a) 由安全团队彻底审查任何具有模型参数访问权限的软件接口,以识别漏洞或数据泄露,和/或至少达到与其他敏感代码使用的最高自动化安全审查标准相同的自动化安全审查任何软件接口代码;
(3) 降低模型参数泄露的风险,通过:(a) 使用诸如输出速率限制等方法加固具有模型参数访问权限的接口;
(4) 降低内部威胁或账户泄露的风险,通过:(a) 限制具有未加固接口访问模型参数的人员数量。
附录4.4 内部威胁
签署方将防范内部威胁,包括以(自我)泄露或破坏形式进行的模型攻击,通过实施保障缓解措施实现以下缓解目标:
(1) 保护模型参数免受试图获得与签署方工作相关访问权限的内部威胁,通过:(a) 对可能合理获得对未发布模型参数或管理此类参数访问权限的系统的读取或写入权限的员工和承包商进行背景调查;
(2) 提高对内部威胁风险的认识,通过:(a) 提供关于识别和报告内部威胁的培训;
(3) 降低模型自我泄露的风险,通过:(a) 在模型周围设置沙箱,例如虚拟机和代码执行隔离;
(4) 降低对模型训练和使用的破坏风险,通过:(a) 检查训练数据中是否有篡改迹象。
附录4.5 安全保障措施
签署方将通过实施额外保障缓解措施实现以下缓解目标,获得其保障缓解措施满足保障目标的保证:
(1) 如果内部专业知识不足,则通过独立外部验证保障缓解措施的有效性,通过:(a) 定期进行独立外部安全审查,适当缓解系统性风险;
(2) 验证网络和物理访问管理并识别安全差距,通过:(a) 频繁进行红队测试,适当缓解系统性风险;
(3) 验证网络软件完整性,通过:(a) 竞争性漏洞赏金计划,鼓励公众参与公共端点的安全测试,适当缓解系统性风险;
(4) 验证内部威胁保障缓解措施,通过:(a) 定期进行人员完整性测试;
(5) 促进安全问题报告,通过:(a) 为第三方提供安全通信渠道以报告安全问题;
(6) 检测可疑或恶意活动,通过:(a) 在所有网络和设备上安装端点检测和响应(“EDR”)和/或入侵检测系统(IDS)工具;
(7) 及时有效地响应恶意活动,通过:(a) 使用安全团队监控EDR警报,并及时有效地进行安全事件处理、响应和恢复安全漏洞。
声明:本文来自那一片数据星辰,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。