加拿大隐私专员办公室(OPC)于12月7日发布了《生成式人工智能技术的基本原则:负责任、可信和隐私保护》,是对生成式人工智能技术的规制,尤其是个人信息保护和隐私保护方面的回应。

译者对该基本原则进行了翻译,供各位参考。

导言

在人工智能技术不断进步的大背景下,有一种技术的发展尤为迅速,使用场景不断增多,应用也越来越广泛,这就是生成式人工智能。生成式 人工智能是机器学习的一个子集,系统在海量信息集(通常包括个人信息)上接受训练,根据用户提示生成文本、计算机代码、图像、视频或音频等内容。这些内容是概率性的,甚至在多次使用相同或类似的提示时也会有所不同。

全球多个领域的权威机构都认识到这项技术带来的潜在风险,包括2023年6月发布的G7发布关于生成式人工智能技术的联合声明,2023年11月发布的G7领导人声明,其中包括针对开发高级人工智能系统的组织的指导原则和行为准则,以及2023年10月全球隐私大会关于生成式人工智能系统的决议。加拿大隐私专员办公室(OPC)及其在不列颠哥伦比亚省、魁北克省和阿尔伯塔省的对应机构也对某项生成式人工智能服务进行了公开调查。世界各国的数据保护机构最近都呼吁各组织在抓取 "可公开访问 "的个人信息之前要非常谨慎,这些信息在大多数司法管辖区仍适用于数据保护法和隐私法。

在训练生成式人工智能系统时,这种抓取是常见的做法。数据保护机构也一直在与相关领域的同行--如人权专员--合作、呼吁建立强有力的保护机制,确保 人工智能系统安全、保护隐私、透明、负责任,并能维护人权。

虽然生成式 人工智能工具可能会给隐私带来新的风险,并对个人信息的收集、使用和披露提出新的问题和担忧,但它们并不在现行法律框架之外。开发、提供或使用生成式 人工智能的组织有义务确保其活动符合加拿大适用的隐私法律法规。各组织还应认识到,要建立和维护一个创新有益于社会、人类尊严得到保护的数字社会,则人工智能的开发和使用必须是负责任和可信的。

本文件的预期受众

本文件旨在帮助开发、提供或使用生成式人工智能的组织应用加拿大的主要隐私原则。在本文件中,我们使用以下术语:

开发者和提供者:开发(包括训练)基础模型或生成式人工智能系统,或将此类服务推向市场的个人或组织。简而言之,就是那些决定生成式人工智能系统如何运行、如何进行初始训练和测试以及如何使用的组织。

生成式人工智能的使用组织:使用生成式人工智能系统作为其活动一部分的组织(或代表组织行事的个人)。这可能包括面向公众的使用(如基于生成式人工智能的聊天机器人与客户互动)或私人使用(如使用生成式人工智能作为决策系统的一部分)。为特定目的完善基础模型的组织(如在组织专有的数据集上进一步训练模型)也包括在这一类别中。

一个组织可能会在多个角色之间转换或同时扮演多个角色。一个组织所开展的活动(包括收集、使用或披露个人信息)在每一个角色中也会有所不同。不过,将组织划分为 "开发者和提供者 "和 "使用者 "是一种有用的方法,可用于检查隐私原则在生成式人工智能的生态系统多个要素中的应用情况。

为明确起见,这些原则侧重于隐私立法和法规,以及它们如何适用于组织。但是,我们认识到,个人或组织可能根据其他法律、法规或政策承担进一步的义务、限制或责任。

特别考虑:对弱势群体的独特影响

在应用以下原则时,使用生成式人工智能的开发者、提供商和组织应特别考虑到他们在识别和预防弱势群体(包括儿童和历史上遭受过歧视或偏见的群体)风险方面的共同责任。

使用生成式人工智能系统的开发者、提供者和使用者都必须积极努力,确保这些系统的公平性。在开发生成式人工智能系统时,这意味着要对训练数据集进行评估,以确保它们不会复制、固化或放大历史或当前的偏见,或引入新的偏见。在部署此类系统时,这可能意味着对输出结果进行额外的监督和审查,或加强对潜在不利影响的监测。如果不采取这些步骤,使用生成式人工智能模型和应用程序就更有可能导致基于种族、性别、性取向、残疾或其他受保护特征的歧视性结果,特别是当它们被用作行政决策过程的一部分时(无论该过程是否完全自动化),或在医疗保健、就业、教育、警务、移民、刑事司法、住房或获得资金等具有高度影响的情况下。

儿童尤其极有可能受到人工智能技术,包括生成式人工智能的严重负面影响。与成年人相比,他们可能没有能力识别或质疑有偏见或不准确的信息,或者更容易受到基于受限世界观生成信息的人工智能的限制。儿童应该能够安全地从技术中受益,而不必担心他们可能成为攻击目标、被操纵或受到伤害。年轻人通常也不太能够理解和认识数据收集、使用和披露的长期影响,这就是为什么他们需要更多的隐私保护措施。

生成式人工智能的开发者、提供者和使用者应共同努力,确保降低弱势群体面临的风险,包括采取重要的保护措施,如隐私影响评估。

开发、提供和使用生成式人工智能的基本原则

(一)法律授权和同意

确保收集和使用个人信息的法律依据;当同意是法律依据时,它应是有效和有意义的。

所有各方都应:

-了解并记录在生成式人工智能系统的训练、开发、部署、运行或退役过程中收集、使用、披露和删除个人信息的法律授权。

-确保以同意作为收集、使用或披露个人信息的合法性基础时,同意是有效和有意义的。 同意应尽可能具体,并应避免欺骗性的设计模式。

-确保从第三方获取的个人信息是合法收集的,并有权共享。

-请注意,可识别个人的推断信息(例如生成式人工智能系统输出中包含关于个人的信息)将被视为收集个人信息,因此需要法律授权。

-在涉及敏感个人信息和同意(即使提供同意)可能不适当或不充分的情况下,如在医疗保健领域, 应建立一个单独的审查程序,该程序应考虑到拟使用信息的隐私和道德问题,并接受独立监督。

(二)适当目的

个人信息的收集、使用和披露只能用于适当的目的。

所有各方都应:

-确保与生成式人工智能系统相关的个人信息的任何收集、使用或披露都是基于适当的目的。在加拿大的许多司法管辖范围内,这意味着是理性人在当时场景下认为适当的目的。

-还要考虑与生成式人工智能系统有关的个人信息收集、使用和披露方式的合法性。这包括考虑生成式人工智能系统的使用是否适合于具体应用。

生成式人工智能系统的开发者和提供者应:

-不开发或投入使用违反 "禁区"的生成式人工智能系统,如可能导致不公平、不道德或歧视性待遇,或产生威胁基本权利和自由的输出。

-使用对抗性或蓝队(Red Team)14 测试流程来识别生成式人工智能系统的潜在的、非预期的不当使用。

-如发现潜在的、非预期的不当使用,应采取适当措施降低可能性或与此类使用相关的潜在风险。这可能包括制定技术措施防止不当使用,或制定适当的使用政策,使用生成式人工智能系统的个人或组织必须在使用前同意这些政策。

生成式人工智能系统的使用组织应:

-只使用尊重隐私法和最佳实践的生成式人工智能系统,包括在系统训练或运行时收集或使用的个人信息。

-避免促使生成式人工智能系统重新识别任何先前已去除身份识别的数据。

-监测并通知开发者或提供者未作为系统潜在限制披露的、潜在的不当使用或有偏差的结果。

-避免不恰当地使用生成式人工智能系统,包括 "禁区",如收集、使用或披露在其他方面属于非法的个人信息;可能导致违反人权法的不公平、不道德或歧视性待遇的特征分析或分类;出于已知或可能对个人或群体造成重大伤害的目的收集、使用或披露个人信息,或已知或可能威胁基本权利和自由的活动。

-如果识别到使用生成式人工智能系统侵犯了 "禁区",请停止活动。

可能出现的“禁区

加拿大联邦、省或地区隐私专员尚未就生成式人工智能禁区的政策立场发表意见。

然而,我们预计(在不对今后的调查、法律结论或政策立场产生约束力的情况下),这些禁区可能包括以下目的:

- 出于恶意目的创建人工智能内容(包括深度伪造),例如绕过身份验证系统或在未经本人同意的情况下生成可识别个人的私密图像;

- 使用会话机器人故意诱导个人泄露他们原本不会泄露的个人信息(尤其是敏感个人信息);或

- 生成和发布关于个人的虚假或诽谤信息。

(三)必要性和相称性

确定使用生成式人工智能和生成式人工智能系统中的个人信息来实现预期目的的必要性和相称性。

所有各方都应:

-使用匿名、合成或去标识的数据,而不是个人信息,如果后者不是实现已确定的适当目的所必需的。

生成式人工智能系统的使用组织应

-考虑使用生成式人工智能系统是否必要和适度,特别是当它可能对个人或群体产生重大影响时。这意味着该生成式人工智能应不仅仅是可能有用,而应该以证据为基础,并确定该工具在实现特定目的方面既有必要又可能有效。

-评估生成式人工智能系统对预期目的的有效性和可靠性。16在生成式人工智能的整个预期生命周期内,都必须准确无误,即使其所使用的场景是不同的。

-考虑是否有其他更能保护隐私的技术可用于实现同样的目的。

(四)开放性

在个人信息的收集、使用和披露以及个人隐私的潜在风险方面做到公开透明。

所有各方都应:

-在生成式人工智能系统生命周期的任何阶段(包括开发、训练和运行),告知个人收集、使用或披露个人信息的内容、方式、时间和原因。这包括说明这些收集、使用和披露的适当目的。确保可能对个人或群体产生重大影响的系统输出被有意义地识别为由生成式人工智能系统创建。

-确保生成式人工智能系统的所有信息都能为目标受众所理解,并在系统使用前、使用中和使用后随时提供。

生成式人工智能系统的开发者和提供者应:

- 告知使用生成式人工智能系统的组织和与之交互的人,其主要目的和次要目的,例如从提示中收集的个人信息用于进一步训练或改进人工智能模型。

- 确保使用生成式人工智能系统的组织了解与该系统相关的任何已知或可能的风险,包括任何已知或合理预期的故障情况(例如系统可能产生错误信息的输入或场景,特别是如果该系统将可预见地用于做出有关个人的决策)。

- 向使用生成式人工智能系统的组织通报可合理用于降低已识别隐私风险的任何已知政策和做法,如果开发者或提供者无法自行实施这些政策或做法。

-维护并发布有关用于开发或训练生成式人工智能的数据集的文档,包括数据集的来源、收集和使用数据集的法律依据、是否有任何许可协议或对数据集可接受用途的其他限制,以及对数据集进行的任何修改、过滤或其他整理实践。

生成式人工智能系统的使用组织应:

- 向任何受影响方明确说明是否将使用生成式人工智能系统作为决策过程的一部分,如果是,以何种身份使用,有哪些保障措施,受影响方有哪些选择或追索权(特别是在决策可能对个人产生重大影响的情况下)。这一解释还应包括对系统功能的一般说明,如何使用系统做出决定或采取行动,以及对潜在输出的概述。

- 请说明使用了哪些个人信息(如果有的话)来重新训练或改进生成式人工智能系统,以满足其特定用途。

- 如果生成式人工智能系统面向公众,应确保与该系统交互的个人知道他们正在与生成式人工智能系统交互,并确保他们了解隐私风险和任何可用的缓解措施(例如,除非必要,否则不要在提示中输入个人信息)。

(五)问责原则

建立遵守隐私立法和原则的问责制,并使人工智能具有可解释性。

所有各方都应:

-认识到自己有责任遵守隐私法规,并应能够证明自己遵守了法规。

-建立明确的隐私合规内部治理架构,包括明确的角色和责任、政策和实践,对隐私义务的合规性提出明确的要求。

-建立一种机制,使组织能够接收和回复与隐私相关的问题或投诉。

-进行评估,如 "隐私影响评估"(PIA)和/或 "算法影响评估"(AIA),以确定并减轻人工智能生成系统(或其拟议用途,如适用)可能对隐私和其他基本权利造成的潜在或已知影响。

-鉴于生成式人工智能系统和人工智能(AI)监管的不断发展,定期重新审视和评估问责措施(包括偏差测试和评估)。

生成式人工智能系统的开发者和提供者应:

-采取适当措施,使生成式人工智能系统的输出结果具有可追溯性和可解释性。概括地说,这包括系统如何工作的完整说明(可追溯性)以及如何得出输出结果的理由。如果开发者或提供者认为生成式人工智能系统的输出结果无法解释,则应向使用该人工智能系统的任何组织或与该系统互动的个人明确说明这一点,以便他们确定该该系统是否适合用于其预期目的。

-如果披露生成式人工智能的训练数据会影响个人隐私,则应确保对系统在数据提取方面的脆弱性以及可能向第三方披露训练数据的其他方法进行测试。

-进行独立审计,以评估系统的有效性和可靠性,确认是否符合隐私法规,测试输出结果是否存在不准确性和偏差,并建议采取有效的防护措施以降低潜在风险。还鼓励开发者和提供者允许独立研究人员、数据保护机构和其他相关监督机构对其生成式人工智能系统(或基础模型)的潜在风险和影响进行评估和审计。

生成式人工智能系统的使用组织应:

-应当理解决策的责任在于组织,而不是用于支持决策过程的任何自动化系统。

-确保向受影响的个人提供有效的质疑机制,以质疑对其做出的任何行政或其他重大决定。这包括保留并根据要求提供足够的信息,使个人能够了解决定是如何做出的,并允许他们有机会要求对决定进行人类审查和/或重新审议。

-如果生成式人工智能系统的输出结果无法进行有意义的解释,则应考虑所提议的用途是否合适。

(六)访问权

通过制定流程,使个人能够切实行使获取其个人信息的权利。

所有各方都应:

-确保制定流程,使个人能够访问和更正在使用系统过程中收集到的有关他们的任何信息。

- 制定流程,允许个人行使其访问或更正人工智能模型中包含的个人信息的能力,特别是在该信息可能包含在根据提示生成的输出中的情况下。

生成式人工智能系统的使用组织应:

-在决策过程中使用生成式人工智能系统时,应保留足够的记录,以便有意义地满足获取该决策相关信息的要求。

(七)限制收集、使用和披露

将个人信息的收集、使用和披露限制在仅为实现明确指定的适当目的所需的范围内。

所有各方都应:

- 确保用于训练生成式人工智能的个人信息的收集和使用仅限于必要的目的,并尽可能使用匿名或去标识化数据。这可以包括使用合成数据。

-避免功能蠕变,只将个人信息用于收集时确定的目的,或(在允许的情况下)用于与收集目的一致的目的。

- 避免基于对生成式人工智能系统潜在用途广泛性的结论而不加区分地收集个人信息。

-认识到公开可获取数据并不意味着可以任意收集或使用数据。在线获取的个人信息仍受加拿大法律或其他法律的约束--即使该信息被定义为 "可公开获取"。

-制定并遵守适当的个人信息保留时间表,包括(在适用情况下)训练数据、系统提示和输出中包含的信息。这些时间表应:(i) 限制保留不再需要的信息;(ii) 确保信息保留足够长的时间,以便个人行使获取信息的权利(特别是在已对其做出决定的情况下)。

生成式人工智能系统的开发者和提供者应:

-在可能和适当的情况下,在将数据集用于训练之前,使用过滤器或其他程序从数据集中删除个人信息。

-确保人工智能产品和服务的输出只披露实现提示要求所必需的个人信息。

生成式人工智能系统的使用组织应:

-确保对个人做出的任何推断都是为了特定和已披露的目的,并且其准确性可以得到合理的评估和验证。

-将所产生的关于可识别个人的任何推论视为个人信息。

-在可能和合理的情况下,在生成式人工智能系统的提示语中使用匿名或去标识化信息,而不是个人信息。

在必须将个人信息(尤其是敏感或机密信息)输入提示语时,只能在获得授权的情况下输入。

除非另有要求,否则不应保留提示语、将其用于第二目的或予以披露。

(八)准确性

个人信息必须准确、完整并及时更新,以满足使用目的的需要。

生成式人工智能系统的开发者和提供者应:

-确保用于训练生成式人工智能模型的任何个人信息的准确性达到目的所需的程度。这可能需要详细考虑;例如,通过修改数据集以解决已知偏差(如通过合成数据增强数据集)来引入 "不准确性",可能比使用原始 "准确 "数据集更可取。

-当生成式人工智能系统训练所依据的信息不准确或过时时,可以更新生成式人工智能系统(例如,通过完善或重新训练模型)。

-告知使用生成式人工智能的组织有关生成式人工智能输出准确性的任何已知问题或限制。这可能包括训练数据集有时间限制(即只包含截止到某一特定日期的信息);数据集来自单一的、非代表性的来源;或者有特定的使用用例或输入往往会导致不准确的输出。

生成式人工智能系统的使用组织应:

-只有对输入生成式人工智能系统的提示或用于训练定制的生成式人工智能模型的信息是必要的,则确保个人信息的准确性、完整性和时效性。

-评估生成式人工智能系统的提供者或开发商披露的任何准确性问题或限制对系统使用的影响,例如有时间限制或单一来源的训练数据。如果尚未披露或无法以其他方式获得,则应考虑系统的使用是否仍然适当和/或获得法律授权。

-采取合理措施,确保生成式人工智能系统的任何输出结果都准确无误,符合目的的需要,尤其是如果这些输出结果被用于做出或协助做出有关个人的决定,将被用于高风险场景,或将被公开发布。

-如果拟使用的生成式人工智能系统与特定群体有关,则应采取适当措施,确保该群体在系统的训练数据中得到充分、准确的体现。

-请注意,有关训练数据或输出结果准确性的问题可能会导致生成式人工智能系统不适合使用(无论是在一般情况下,还是在这种使用可能对个人产生重大影响的情况下)。

(九)保障措施

建立保护个人信息和降低潜在隐私风险的保障措施。

所有各方都应:

-在生成式人工智能系统的整个生命周期内,采取与信息敏感度相称的措施,保护所收集或使用的任何个人信息。

-在使用生成式人工智能时持续了解和防范特别值得关注的威胁,包括但不限于:提示注入攻击(精心制作的提示绕过过滤器或使模型执行非预期的操作);模型反转攻击(模型训练数据中包含的个人信息被暴露);越狱攻击(工具中的隐私或安全控制被覆盖)。

生成式人工智能系统的开发者和提供者应:

-设计产品和服务,防止不当使用其工具,限制或禁止创建非法或有害内容。这包括防止可能导致不公平、不道德或歧视性待遇以及威胁基本权利和自由的不当使用的保障措施和防护栏。

-监控生成式人工智能系统使用不当的情况,并修正或纠正系统以解决这些问题。

生成式人工智能系统的使用组织应:

-确认在准备、使用或部署生成式人工智能系统的过程中使用其控制的数据时,该数据的使用不会对模型保障措施产生负面影响,例如制造或加剧偏见,提高进行提示注入、模型反转或越狱的能力,或以其他方式导致未经授权的各方能够提取个人信息。

声明:本文来自那一片数据星辰,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。