人工智能开发者和用户面临着高质量数据的严重短缺。OECD于2025年2月发布了关于AI时代下增强数据获取与共享的建议(以下简称“建议”)通过制定一般原则和政策指导,帮助各国应对这一挑战,同时解决数据收集和共享相关的问题以及保护个人和组织权利,最大化数据获取与共享的利益

OECD于巴黎AI行动峰会上发布了AI时代下增强增强数据获取与共享的配套文件,给出了具体的政策条款样例,便于国家、组织等参考使用。

本文将结合在AI时代增强数据获取与共享的政策建议以及配套文件,为各位绘制OECD关于此问题的全貌理解。

AI时代数据获取与共享的问题是什么?

增强数据获取与共享(Enhancing access to and sharing of data,简称EASD)促进了私营和公共部门之间的合作,并推动了包括人工智能在内的数据驱动的科学发现和创新。特别是,EASD可以帮助:

  • 解决包括环境问题和全球紧急情况(包括自然灾害和大流行病)在内的社会挑战;

  • 促进可持续增长,提升社会福利和福祉;

  • 改善基于证据的政策制定以及公共服务的设计和交付;

  • 提高社会的透明度、问责制和信任;

  • 赋能数字商品和服务的用户,包括企业、工人、公民和消费者。

经合组织关于EASD的建议提出了如何在保护个人和组织权利的同时,最大化数据获取与共享安排的利益的一般原则和政策指导。该建议于2021年10月6日被经合组织理事会采纳,是首个国际上一致同意的原则,旨在最大化所有类型公共和私营部门数据的跨领域利益。

建议对数据采取全面且动态的视角,包括某些人工智能模型。它将数据定义为“以结构化或非结构化格式记录的信息,包括文本、图像、声音和视频”。在机器学习和人工智能的背景下,这包括用于训练人工智能系统的数据(人工智能输入)以及在训练过程中将信息编码到模型中的人工智能模型。此外,建议还概述了一个全面的数据价值周期,涵盖从数据创建和收集到增强、处理、分析,最终到删除的各个阶段。这种对数据的动态视角强调了获取互补资源的重要性,例如其他数字资源(例如算法、软件和计算)和人力资源(例如技能)。

建议提倡采用差异化的方法来获取和共享数据,具体可见下图“数据开放图谱”。这个图谱涵盖了各种开放程度不同的获取和共享安排,可以通过技术、组织和法律手段进行调整,以便数据以及某些人工智能模型尽可能开放,以最大化风险调整后的利益,并在必要时保持封闭,以保护合法的公共和私人利益。这些不同的开放程度包括:

  • 第1级:有条件的数据获取和共享安排,数据获取和共享基于差异性安排,例如,如果仅限于授权用户,并且数据使用有附加条件,包括数据使用的目的和数据访问控制机制的要求。

  • 第2级:非差异性数据获取和共享安排,数据可以收费获取和共享,但“基于与数据用户身份无关的条款”。

  • 第3级:开放数据(安排)作为数据开放的最广泛形式,是“非差异数据获取和共享安排,数据是机器可读的,可以免费获取和共享,并且可以由任何人用于任何目的,最多受到保留完整性、出处、归属和开放性的要求”。

大多数国家依靠其国家隐私和数据保护框架来保护与数据获取和共享相关的个人权利,同时考虑采用技术性和组织性方法来补充这些框架。其中最突出的是隐私增强技术(PETs),这些技术在不损害隐私和敏感信息的保密性的情况下,日益发挥着促进数据(以及人工智能模型)的协作开发和共享的关键作用。例如,多方计算(MPC)、联邦学习或合成数据等PETs可以实现输入或测试数据的保密收集,而可信执行环境(TEEs)等其他技术则可以实现输入数据的保密处理和人工智能模型的共享。

政府正在积极推动数据的可查找性、可访问性、可互操作性和可重用性(“FAIR”数据)以及数据质量,因为随着人工智能(包括生成式人工智能)的兴起,这些因素变得越来越重要。这一趋势在公共部门、卫生部门以及科学研究领域尤为明显,这些领域对机器可读的互操作性元数据的需求不断增长。在此背景下的政策措施包括建立专门的数据平台和存储库,以验证、整合和/或发布公共部门、卫生和/或研究数据。一些国家正在创建新的专注于FAIR数据的机构,或者扩大现有机构(如国家统计办公室)的角色,使其成为可信数据中介(TDIs)。以不同程度的开放性发布人工智能模型的趋势也引发了关于确保数据和人工智能模型的可查找性、可访问性、可互操作性和可重用性的问题。

建议为整体政府战略方法(whole-of-government)奠定了基础,特别关注如何:增强对数据生态系统的信任,刺激数据投资,并激励数据获取和共享,以及促进全社会数据的有效和负责任的获取、共享和使用。建议并非旨在解决是否以及何时监管数据获取(包括公共利益数据)的问题,尽管它确实呼吁各缔约方“寻求最大化增强数据获取和共享措施的利益”。建议的配套文件《在人工智能时代增强数据获取与共享》)提供了政策倡议的例子,这些倡议可以帮助确定政府在何种条件下监管数据的获取和共享。

一些国家根据其整体政府目标实施国家或部门数据战略,越来越多地与国家人工智能战略相辅相成。对国家案例的评估表明,部门数据战略,特别是公共部门数据和卫生数据战略最为常见。建立跨部门机构和工作组以协调政策措施,通常被用作无需实施国家数据战略即可实现全政府方法的手段。监管沙盒越来越被考虑用于实现技术中立和灵活的法律和监管环境。虽然这些方法正在逐步扩展以涵盖人工智能数据,但它们很少扩展到人工智能模型的共享。

为什么增强数据获取与共享很重要?

经合组织研究表明,增强公共和私营部门数据的获取与共享可以帮助释放显著的社会和经济效益,潜在贡献可达国内生产总值(GDP)的1%到2.5%。许多这些利益,基于数据在不同领域和部门之间的可重用性,例如,最初为行政目的创建的数据集被企业家、学者、科学家、记者、民间社会代表等不同主体重新使用,以创造最初创建数据时无法预见的服务。

然而,许多国家尚未实现这些利益,因为缺乏信任以及不同利益相关者之间的利益冲突。这些现有挑战也可能对可信人工智能的开发和采用构成重大障碍,特别是因为人工智能开发者越来越迫切需要足够的高质量数据。例如,生成式人工智能模型的开发者越来越面临数据稀缺的问题,尽管他们通过广泛且日益有争议的网络爬取行为来获取数据。这些挑战还延伸到对某些(“开源”)人工智能模型的获取和共享,进一步加剧了有效和可持续推进可信人工智能采用所需的协作努力的障碍。

此外,数据依赖型技术的传播速度较慢,对经合组织国家的生产力增长产生了不均衡的影响。尽管企业的数字技术采用率有所增加,但自2005年以来,劳动生产率增长速度放缓,尚未恢复,部分原因是这种不均衡的传播。实证研究表明,市场集中度上升、企业活力下降以及生产力差距扩大与无形资本(如软件和数据)的增加有关。这与中小企业(SMEs)和大企业之间大数据分析和人工智能的低水平和不均衡采用相一致(如下图)。2022年,只有大约14%的企业采用大数据分析,2023年只有8%采用人工智能(相比之下,大企业分别为35%和29%)。

AI时代下增强数据获取与共享的政策建议在整个数据治理中的位置

《AI时代下增强数据获取与共享的政策建议》是更广泛的数据治理法律文件体系中的基础构建模块。它满足了随着数据获取与共享越来越普遍地跨越部门和司法管辖区,对更加协调一致的数据治理框架的日益增长的需求。该建议为不同领域的数据治理提供了共同的参考点,例如研究、健康和数字政府,补充了现有的隐私和数据保护框架以及人工智能治理框架,如下图所示。

通过这样做,该建议:

(i)有助于避免可能导致数据治理政策和法规复杂性增加的冲突和/或重复要求;

(ii)为整体政府战略方法提供了基础,例如整合各种政策视角以增强数据获取与共享的国家数据战略。

AI时代下增强数据获取与共享的政策建议

该建议提出了关于政府如何在保护个人和组织权利的同时,兼顾其他合法利益和目标,最大化增强数据获取与共享安排的利益的一般原则和政策指导。该建议分为三个部分,涵盖七个主题,如下所示:

第一部分:“增强数据生态系统中的信任”

涉及以下内容:

  • 赋能并积极吸引所有相关利益相关者参与,同时通过更广泛的努力提高数据生态系统的可信度;

  • 采用整体政府战略方法来推动数据获取与共享;

  • 在保护个人和组织权利的同时,兼顾其他合法利益和目标,最大化数据获取与共享的利益,同时通过更广泛的努力促进和推动数据治理的责任文化;

建议条款:

三、建议各成员国及非成员国(以下简称“遵循者”)在制定和实施增强数据获取与共享政策措施之前及整个过程中,通过更广泛的努力增强数据生态系统的可信度,赋能并积极吸引所有相关利益相关者参与。具体而言,遵循者应:

a) 在设计、实施和监测与数据获取与共享相关的数据治理框架期间,促进包容性地代表并吸引数据生态系统中的相关利益相关者参与——包括弱势、代表性不足或边缘化群体——参与开放和包容的协商进程,以增强信任;

b) 鼓励竞争中立的数据共享合作伙伴关系,包括公私合作伙伴关系(PPP),在公共和私营部门之间共享数据可以为社会创造额外价值。在此过程中,遵循者应采取一切必要措施,避免利益冲突或削弱政府开放数据安排或公共利益;

c) 增强数据获取与共享安排的透明度,以鼓励在整个数据价值周期内采用负责任的数据治理实践,这些实践符合适用的、公认的、广泛接受的技术、组织和法律标准和义务,包括行为准则、伦理原则以及隐私和数据保护法规。如果涉及个人数据,遵循者应确保透明度,符合隐私和数据保护框架的要求,明确共享的个人数据是什么,与谁共享,共享的目的以及在何种条件下授予第三方访问权限;

d) 通过适当的机制和机构(如受信任的第三方)赋予个人、社会群体和组织权力,增强他们对其贡献的数据或与他们相关的数据的自主性和控制权,并使他们能够负责任和有效地识别和创造数据的价值。

四、建议遵循者采用整体政府战略方法来推动数据获取与共享,以确保数据获取与共享安排能够有效和高效地实现符合公共利益的具体社会、政策和法律目标。具体而言,遵循者应:

a) 优先考虑有助于实现这些目标的数据获取与共享安排,同时考虑适用的法律法规。在此过程中,遵循者应与关键利益相关者合作,明确这些安排的目的,并确定与这些目的相关的数据,同时考虑其利益、成本和可能的风险;

b) 采用并定期审查连贯、灵活且可扩展的数据治理框架——包括国家数据战略,整合跨经济、社会、文化、技术和法律治理问题——以促进社会、公共和私营部门以及司法管辖区之间的数据获取与共享;

c) 展现出强大的领导力,最好是在政府最高层,结合整体政府方法,实现多利益相关者的有效政策协调和这些框架的实施;

d) 采用技术中立且灵活的法律和监管环境,促进负责任的数据获取与共享,并促进监管创新,同时提供必要的法律确定性和保护,并与所有相关独立执法机构、监督机构和利益相关者群体进行互动。

五、建议遵循者在保护个人和组织权利的同时,兼顾其他合法利益和目标,努力最大化增强数据获取与共享措施的利益,并在整个数据价值周期内推动和实现数据治理的责任文化。在这方面,遵循者应:

a) 鼓励数据获取与共享安排,确保数据尽可能开放,以最大化其利益,并在必要时关闭,以保护合法的公共和私人利益,包括与国家安全、执法、隐私和个人数据保护、知识产权以及伦理价值观和规范相关的利益,例如公平性、人类尊严、自主性、自决权以及防止个人或社会群体之间的不正当偏见和歧视;

b) 采取必要且成比例的步骤,将保护这些合法公共和私人利益作为数据获取与共享的条件。在此过程中,遵循者应努力确保利益相关者充分了解其权利(包括其获取信息和获得补救的权利)、责任以及在违反隐私、知识产权、竞争法或其他权利和义务时的各自责任;

c) 确保利益相关者根据其角色对共享数据的质量负责,并对整个数据价值周期内的风险管理系统性实施负责,包括保护数据的保密性、完整性和可用性(数据安全)的措施。为此,遵循者应促进影响评估和审计的采用,以及组织内数据共享的负责任管理,以及适当的人力资源政策,明确分配角色和数据治理责任,建立协商机制,促进意识和信任文化的建立,并避免不必要的风险规避;

d) 促进采用有条件的数据获取与共享安排,采用技术和组织方法,包括数据访问控制机制和隐私增强技术,通过这些机制,数据可以在批准用户之间安全、安全地访问和共享,并结合具有法律约束力和可执行义务,以保护数据主体和其他利益相关者的权利和利益。

第二部分:“刺激数据投资并激励数据获取与共享”

关注以下内容:

  • 提供连贯的激励机制,促进可持续商业模式和市场的发展,以实现数据获取与共享;

建议条款

六、建议遵循者提供连贯的激励机制,并促进可持续商业模式和市场的发展,以实现数据获取与共享。具体而言,遵循者应:

a) 通过健全的竞争政策和法规,解决可能存在的市场主导地位的滥用等问题,促进数据市场的竞争,并通过包括执行和补救机制在内的适当措施,增加利益相关者对数据的自主性和控制权,确保消费者、知识产权和隐私及个人数据保护的适当水平;

b) 适当情况下,促进自我或共同监管机制——包括自愿性指导、行为准则和数据获取与共享协议模板——这些机制提供法律灵活性,同时确保所有相关利益相关者对适用法律和法规有明确的了解;

c) 支持对数据获取与共享安排的长期投资,以确保其可持续性,包括开放数据安排。遵循者应考虑在适当的情况下采用各种结构化的融资和收入模型来支持这些安排;

d) 促进适当的激励机制,使数据获取与共享安排的利益能够公平分配,并确保利益相关者能够被鼓励、被认可并获得奖励,以参与数据获取与共享安排;

e) 通过一系列创新政策支持新商业模式和数据获取与共享应用领域的开发和规模化,这些政策应考虑数据获取、共享和使用的背景以及数据生态系统中所有相关利益相关者的各种角色、责任和权利、技术以及商业模式。

第三部分:“促进社会中有效和负责任的数据获取、共享和使用”

涉及以下内容:

  • 进一步改善跨境数据获取与共享的信任条件;

  • 促进数据在组织之间的可查找性、可访问性、互操作性和可重用性,包括在公共和私营部门之间;

  • 增强所有利益相关者在数据价值周期内有效和负责任地使用数据的能力。

建议条款

七、建议遵循者进一步改善跨境数据获取与共享的信任条件。为此,遵循者应:

a) 评估并尽可能减少对跨境数据获取与共享的限制,特别是对于全球公共利益目的,同时考虑到确保尊重基本权利和重要利益的需要,包括隐私和知识产权的保护以及获取公共信息的权利;

b) 确保限制跨境数据获取与共享的措施是非歧视性的、透明的、必要的,并与风险水平成比例,考虑到数据的敏感性、数据获取、共享和使用的背景和目的,以及在何种程度上采取措施以确保无论数据存储在哪个司法管辖区,都能执行责任;

c) 促进持续的对话和国际合作,以促进跨境数据获取与共享——包括通过实施上述信任增强措施——以及数据获取与共享安排的互操作性和相互承认,同时考虑到适用的法律要求和全球标准。

八、建议遵循者在适当情况下促进数据在组织之间的可查找性、可访问性、互操作性和可重用性,包括在公共和私营部门之间。具体而言,遵循者应:

a) 力争确保数据与所需的元数据、文档、数据模型和算法一起透明且及时地提供,并通过适当的数据访问控制机制提供支持,包括应用程序接口(API);

b) 评估并尽可能促进开发和采用有效的数据访问、共享和使用的互操作性规范,包括数据格式和模型的共同标准以及开源实现。为此,遵循者应促进相关组织的开放、可访问、自愿和共识为基础的努力,并与相关利益相关者合作,包括标准制定组织,以提高对这些规范好处的认识。

九、建议遵循者采取措施,增强所有利益相关者在数据价值周期内有效和负责任地使用数据的能力。具体而言,遵循者应:

a) 通过与所有相关利益相关者群体和合作伙伴进行对话,提高对数据获取、共享和使用的好处和风险的认识,以鼓励在整个数据价值周期内实现负责任的数据治理。为此,遵循者应传播关于数据获取、共享和使用的良好实践,帮助解决负责任地获取和共享数据的障碍,并提高个人和组织管理、获取、共享和使用数据的能力;

b) 促进数据相关技能和能力的发展,包括工人和公务员,以在整个数据价值周期内利用数据获取、共享和使用的利益,这与上述数据获取与共享的战略方法一致。这应包括促进公众的数据素养,提高公民对相关数据治理问题的理解能力,并行使他们的权利;

c) 促进对可持续、开放、可扩展、安全和安全的基础性基础设施的访问和采用,这些基础设施是数据价值周期内所需的,包括用于连接、存储和计算的基础设施,通过在整个数据价值周期内促进数字安全风险管理实践,激励对这些基础设施的投资和采用,并在可行和适当的情况下利用公私合作伙伴关系。

除了建议直接针对的政府外,该建议还鼓励数据持有者、数据生产者、数据中介以及数据生态系统中的其他相关利益相关者根据其角色实施或支持和促进该建议的实施。

该建议涵盖了基于自愿和相互同意的商业或非商业条款(例如私营部门的开放数据倡议)的数据获取与共享安排,以及由法律规范或强制性的数据获取与共享安排(例如某些开放政府数据、数据可携带性和研究数据倡议)。该建议并非旨在解决是否以及何时规范数据获取(包括公共利益数据)的问题,因为答案取决于具体情况,因此将因个案而异。该建议而是提供了关于如何(例如自愿或强制)实施数据获取与共享安排的指导,以确保其预期利益最大化,同时保护个人和组织的权利。

该建议主要关注数字格式的数据,并且与人工智能(包括生成式人工智能)在构建(预部署)和使用(后部署)阶段的数据获取与共享背景相关。这包括获取和共享用于训练人工智能系统的数据(AI输入)以及人工智能模型,这些模型在训练过程中将来自AI输入的信息编码到其模型参数(例如权重)中。重点是通过机器学习技术构建的人工智能系统,因为其他方法(如符号或基于知识的人工智能系统)可能较少依赖于大数据的收集和使用。

声明:本文来自那一片数据星辰,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。