图片来源:https://huggingface.co/blog/model-cards

【编者按】

2023年11月,法德意就人工智能监管发布了联合文件。该份文件中提出,以模型卡方式对基础模型开展监管。模型卡的内容必须包含模型的功能和缺陷。根据文件示例,具体有模型参数量、预期用途、潜在限制、偏见测试结果以及红队安全评估结果等。“模型卡”到底是什么?其在人工智能治理与监管实践中的具体功用是什么?本公众号组织编译了与模型卡相关的英文学术论文,以期对模型卡的原理、机制和功用进行初步梳理。以下为文章摘要:

训练有素的机器学习模型越来越多地被用于执法、医学、教育和就业等具有广泛影响力的任务中。为了明确机器学习模型的预期使用场景,并尽量减少在其不擅长的情景中使用模型,本文作者建议发布的模型应附带详细说明其性能特性的文档。在这篇论文中,作者提出了一个称之为“模型卡”的框架,旨在推动模型报告成为提高模型透明度的重要工具。模型卡是附随着训练有素的机器学习模型发布的简短文档,它提供了模型在各种情景下的基准测试结果,如不同的文化、人口统计学情境,或单一表型组(如种族,地理位置,性别,Fitzpatrick皮肤类型)和交叉组(如年龄和种族,或性别和Fitzpatrick皮肤类型)等适用于预期应用领域的各种情况。模型卡还揭示了模型的预期使用场景,提供模型评估过程的详细信息。虽然本文作者主要关注应用在计算机视觉和自然语言处理领域的、以人为本的机器学习模型,但“模型卡”框架可以用于报告任何人工智能模型的性能。为更好地说明该概念,本文为两个监督模型提供了模型卡示例:一个用于在图像中检测笑脸,另一个用于在文本中检测恶评。模型卡框架的提出有利于人工智能技术进一步迈向负责任的、以人为本的人工智能,提高了人工智能技术工作效果的透明度。作者希望这项工作能鼓励那些发布训练有素的机器学习模型的群体能够在发布模型时,附带类似的详细评估数据和其他相关文档。全文共计9819字,预计阅读时间15分钟。

1.简介

目前,还没有标准化的文件说明训练有素的机器学习(ML)和人工智能(AI)模型的性能特性。在模型被用于如医疗保健、就业、教育和执法等对人们生活有重大影响的应用场景时,标准化说明文件的缺失会导致严重的问题。

研究人员发现,用于面部识别和跟踪、属性检测、刑事司法、恶评检测等场景的商业机器学习模型存在系统偏见。然而,只有在这些模型被投入使用,且受其影响的用户披露其使用体验后,这些系统偏见才会暴露。例如,MIT媒体实验室研究生Joy Buolamwini发现商业面部识别系统无法识别她的脸,她与其他研究人员合作研究发现计算机视觉系统在识别边缘化群体时(如黑人女性),错误率明显偏高。诚然,报告偏见可能会产生潜在的负面影响,附随训练有素的机器学习模型共同发布的文档(很多模型发布时并未提供该文档)提供的关于模型性能特征、预期用例、潜在风险或其他信息的信息很少,无法帮助用户评估这些系统对其应用场景的适用性。这凸显了附随模型发布记载其详细信息文本的需求,包括捕获偏差、公平性和包容性等因素的指标。

为了实现该目标,作者建议发布机器学习模型应附带“模型卡”这一简单文档。模型卡(用于模型报告)是对“数据集列表”和最近提出的类似文档范式的补充,这些范式报告了用于训练和测试机器学习模型的数据集的细节。模型卡也类似于医学领域的TRIPOD声明,即临床预测模型报告规范。本文第五部分提供了两个模型卡的示例:一个在CelebA数据集上训练的微笑识别模型(图2),和一个用于检验公开的恶意留言的模型(图3)。数据集列表关注的是输入模型的数据的特性,而模型卡关注的是训练模型的特性,如模型类型、预期用例、模型性能影响因素的信息,以及模型性能的衡量指标。

我们主张使用模型性能评估方法,该方法根据不同的文化、人口统计或表型类别、与领域相关的因素以及融合多元群体和条件的交叉分析来分解定量评估结果。除了模型评估结果,模型卡应详述选择性能指标背后的动机、群体以及其他相关因素。每张模型卡都可以附带数据集列表(Datasheets)、数字营养标签(Nutrition Label)、数据声明(Data Statements)或者事实表(Factsheets),描述模型被训练和评估的数据集。模型卡为用户提供了一种方式来了解机器学习系统能做什么、不能做什么,模型所犯的错误类型,以及可采取的步骤使这项技术更公平地创造包容性的结果。

2.背景

许多成熟行业已经发展出了在不同条件下对各种系统进行标准化测试的方法。例如,智能硬件行业提供的数据表详细描述了各组件在不同测试条件下的性能。相比之下,尽管机器学习模型具有广泛的影响,但目前还没有系统的标准压力测试要求,也没有标准化的文本格式来报告这些测试的结果。最近,研究人员提出了对机器学习中使用的数据集通信特征进行标准化标注,以帮助用户理解数据集的使用情境。本文关注机器学习模型本身,提出了一种互补任务,对单一和交叉的群体(如文化、人口统计学或表型人口群体)分别采用标准化的方法来评估以人为本的模型的性能。“模型卡”(Model Cards)框架可以提供这样的评估,并补充其他考虑因素(如预期用途)对模型性能的影响。

除机器学习之外,本文建议的基于人口统计学的结果报告的需求已经变得越来越强烈。例如,在车辆碰撞测试中,只有在研究人员发现女性比男性更容易在现实的侧面碰撞中遭受严重的头部损伤后,才引入具有女性特征的假人进行碰撞试验。又例,基于纯男性参与者的临床试验结果开发的药物会导致女性服用过量。1998年,美国食品和药物管理局(FDA)规定,临床试验结果必须按年龄、种族和性别等群体分类进行。

虽然可以为“男性”、“女性”和其他性少数群体等单一群体提供基于人口统计学的分析,但交叉分析也非常重要,例如同时考虑性别和年龄等两个或更多特征。交叉性分析与交叉性理论有关,批判性种族理论领域开创交叉研究先河的金伯利·洛伊尔·克伦肖曾以艾玛·德格拉夫里德的故事为例,描述了孤立的与种族或性别等特征相关的离散经验如何不能准确反映它们的相互作用。1976年,她参与了一场针对汽车公司的诉讼,指控该公司的招聘方式歧视黑人女性,但最终败诉。在他们的法庭意见中,法官们指出,由于通用汽车公司雇佣了很多女性担任秘书职位,也雇佣了很多黑人在工厂工作,他们不可能歧视黑人女性。然而,法院没有看到的是,只有白人女性被聘为秘书职位,只有黑人男性被聘为工厂职位。因此,像艾玛·德格拉夫里德这样的黑人女性没有机会在通用汽车公司工作。这个例子突出了强调种族、性别和年龄等各种人口统计类别之间相互作用的具有交叉型的实证分析非常重要。

在进一步讨论模型卡的细节之前,需要注意的是,到目前为止讨论的三个特征中,至少种族和性别这两个因素具有社会敏感性。虽然根据种族和性别分析模型可能会遵循交差性理论,但在数据集中应该如何标记“基础事实性”的种族或性别类别,以及数据集是否应该用这些类别进行标记,并不总是很清楚。性别和性别之间的复杂关系进一步混淆了这个问题。当使用种族和性别等文化认同类别进行细分分析时,根据数据集的使用情境,我们建议要么使用带有自我识别标签的数据集,要么使用明确指定为机器感知(而不是自我识别)的标签。当无法做到这一点时,可以使用具有已知公共身份标签的公众人物数据集。进一步研究扩展群体的定义方式非常必要的,例如,可能的研究方向包括以自动化方式发现评估数据集中具有相似性的群体。

3.研究动力

随着机器学习技术的使用迅速增加,人工智能报错的频次也越来越高。这些错误可能造成严重的后果,然而那些希望在特定环境中使用经过训练的机器学习模型的人,在事实上部署使用这些模型之前,是无法预见这些错误可能导致的系统性影响的。

“模型卡”框架旨在以标准化的方式评估模型的道德实践和报告,即允许利益相关者不仅在传统的评估指标上,而且在道德、包容性和公平性因素上,对已经发布的模型进行比较,以便部署。这比目前的各项方案更有利于帮助不同背景的利益相关者。例如,帮助政策制定者和监管机构了解应该对一个模型提出哪些方面的问题,以及关于模型在给定环境下的适用性的已知基准。

模型报告将对参与模型开发、部署和使用等不同周期的主体具有不同的含义。下面,我们为不同的利益相关者概述一些用例:

• 机器学习、人工智能从业者可以更好地理解模型在预期用例中的工作效果,并持续跟踪模型性能。

• 模型开发人员可以将模型的报告结果与同期其他模型进行比较,以便更好地训练自己的模型。

• 开发使用模型预测功能的产品的软件开发者可以获知设计和实现决策的所需信息。

• 政策制定者可以理解机器学习系统如何成功或失败地影响人类。

• 社会组织可以为采用包含机器学习的技术的决策提供信息。

• 了解机器学习的个人可以了解微调、模型组合或额外规则和限制的不同选项,以便在不需要技术专长的情况下为预期用例管理模型。

• 受影响的个人可以更好地理解它是如何工作的,或者使用名片中的信息来寻求救济。

“模型卡”不仅提高了利益相关者对模型的认识,并有助于利益相关者以标准化的方式制定决策,而且还推动了前瞻模型分析技术的发展。例如,根据人口结构学组群对不同群体分别进行评估分析,以突出可能存在的针对某些群体识别错误过多的问题,并符合数学上的公平性概念(在图2的示例模型卡中进一步讨论),将组群分析作为报告程序的一部分,使利益相关者准备开始衡量机器学习系统未来结果的公平性和包容性。因此,除了支持决策过程以确定机器学习模型在特定使用情境中的适用性外,模型报告有利于推动模型实践的负责性、透明度和可追责性。

此外,提供模型卡详细信息对模型开发者而言有很多益处,例如有助于模型的潜在用户更好地了解哪些模型最适合他们的特定目的。如果模型卡成为标准,潜在用户的知情权就得到了保障,便于其比较不同的模型。基于不同评估数据集得出的结果将为潜在用户提供更多信息,尽管适合分类评估的评估数据集还不常见。未来的研究可能包括为我们在这项工作中提倡的分类评估工具创建稳健的评估数据集和协议,例如,通过差异隐私机制,使测试集中的个体不能通过其特征被唯一识别。

4.模型卡

模型卡用于披露训练有素的机器学习模型的信息,包括模型是如何建立的,在其开发过程中做出哪些预设,不同文化、人口统计学或表型人群可能经历的模型行为类型,以及模型相对于这些群体的表现的评估。我们提出了一组模型卡应该包含的内容,以及可以告知第3节中列出的利益相关者的细节。图1提供了所有建议部分的摘要。

本文提供以下细节以供参考,但仍然不尽完整详尽,模型卡可以根据模型、使用情境和利益相关者定制。其他可以列入的细节包括可解释性方法(如显著性图、TCAV和路径集成梯度);利益相关者相关的解释(如,通过仔细考虑哲学、心理学和其他因素分析,在不同的应用情境下,对于利益相关者而言什么是好的解释);以及模型训练和服务中使用的隐私保护措施。

图1:模型卡部分的摘要和每个部分的建议提示

4.1 模型细节

本节应该用来回答关于模型版本、类型和其他细节的基本问题。

模型开发者:哪个人或组织开发了模型?利益相关者可使用该信息以推测模型的后续发展和潜在利益冲突。

模型开发期:模型是什么时候开发的?利益相关者可使用该信息进一步了解在模型开发期间可能可用的技术和数据源。

模型版本:该模型是哪个版本,它与以前的版本有什么不同?利益相关者可以此跟踪模型是否为最新版本,判断是否完成勘误,以及进行模型比较。

模型类型:这是何种类型的模型?这包括基本的模型架构细节,如该模型是否是朴素贝叶斯分类器或卷积神经网络等。软件和模型开发者以及了解机器学习的个人可以据此了解系统中做了哪些预设。

论文或其他资源以获取更多信息:在哪里可以找到获取更多信息的资源?

引用细节:应该如何引用该模型?

许可证:可以提供许可证信息。

关于模型的反馈:例如,人们可以获得哪些更多信息?

在某些情况下,这些信息可能具有敏感性。例如,公司选择披露的细节数量可能与学术研究团体不同。该节要求的披露不应被视为要求泄露私人信息或披露专有训练技术,而是公开关于模型的基本决策和事实,以便与更广泛的社群共享信息,进而更好地了解模型。

4.2 预期用例

本节应该可以让模型卡读者快速掌握模型应该、不应该用于什么,以及该模型的开发目的。本节还可以对模型卡其他部分所呈现的内容进行统计分析,对最初开发模型的用户、模型用例和使用情境进行简短描述。可能的信息包括:

主要预期用途:本节详细说明该模型是为一般任务还是特定任务而开发的(例如,全球或太平洋西北地区的植物识别),可以根据开发人员的意愿对用例进行广义或狭义的定义。例如,如果模型仅仅是为了标记图像而构建的,那么这个任务应该被指定为主要的预期用例。

主要目标用户:例如,模型是为娱乐目的开发的,还是为商事目的开发的?这有助于用户了解模型对不同类型输入的鲁棒性。

使用限制:模型卡应提出可能容易与该模型能力相混淆的其他技术,或者用户可以尝试应用模型的相关情境。在可能的情况下,为用户推荐相关或类似的模型,以更好地满足用户的特定需求。本节的设计灵感来自食品和玩具上的警告标签,以及电子数据表中提供的类似免责声明。示例包括“不得用于少于100通证的文本”或“仅用于黑白图像;请考虑本研究组研发的全彩色图像分类器”。

4.3 影响因素

理想情况下,模型卡应提供各种相关因素(包括群组、设备和环境)的模型性能摘要。我们简要地描述了这些因素及其相关性,并在模型卡中给出相应的提示。

4.3.1 群组

“群组”是指在评估数据实例中存在的具有相似特征的不同类别。对于以人为本的机器学习模型,“组群”是指具有一个或多个共同特征的人。以人为本的模型的交叉性模型分析受到了社会学交叉性概念的启发,交叉性概念探讨了个体的身份和经历是如何不仅仅由单一的个人特征塑造的(比如种族、性别、性取向或健康状况),而是由许多因素的综合影响而成。这些特征,包括但不限于文化、人口统计学和表型类别,在评估机器学习模型时是重要的考虑因素。确定将哪些因素包括在交叉分析中,需要考虑模型的预期用途以及可能部署模型的背景。根据具体情况,某些群体可能比其他群体更容易受到不公正或有偏见的待遇。

对于以人为本的计算机视觉模型,年龄、性别和Fitzpatrick皮肤分型等因素的视觉呈现可能与模型性能相关。然而,这必须与保护个人隐私的目标相平衡。因此,有必要与政策、隐私和法律专家合作,以保障系统负责任地推断个人属于某群体,以及应该如何存储和访问这些信息(例如,使用差异隐私机制)。

与组群相关的详细信息,包括训练和评估数据集的标注者、标注时的指示和补偿,以及标注者之间的协议,应作为数据集一部分一并提供。

4.3.2设备

除了组群之外,模型的性能可能会根据使用什么设备来捕获模型的输入而变化。例如,人脸识别模型可能会根据相机的硬件和软件(包括镜头、图像稳定、高动态范围技术和肖像模式的背景模糊)而表现不同。真实或模拟的情境下,传统相机设置(如光圈、快门速度和ISO)不同,性能也可能有所不同。同样,视频和音频输入将取决于录音仪器的选择及其参数设置。

4.3.3环境

影响模型性能的另一个因素是其部署的环境。例如,在低光照条件下或空气潮湿时,人脸识别系统的准确性往往较低。不同光照和湿度条件下的模型工作情况报告将帮助用户了解这些环境因素对模型性能的影响。

4.3.4名片提示

我们建议模型卡的因素部分扩展到两个提示:

相关因素:可能导致模型性能发生显著变化的因素有哪些,这些因素是如何确定的?

评价因素:报告了哪些因素,为什么选择这些因素?如果相关因素和评价因素不同,应说明理由。例如,虽然Fitzpatrick皮肤类型是人脸识别的一个相关因素,但在模型性能报告成为标准化实践之前,基于皮肤类型标注评估数据集可能无法使用。

4.4 指标

模型卡中适当的指标取决于正在测试的模型的类型。例如,主要输出标签的分类系统与主要输出分数的系统有很大的不同。在所有情况下,报告的指标都应该根据模型的结构和预期用途来确定。本节的详细内容包括:

模型性能度量:报告了哪些模型性能度量,为什么选择它们而不是其他模型性能度量?

决策阈值:如果使用决策阈值,选择了哪些决策阈值,为什么选择这些决策阈值?当模型卡以数字形式呈现时,理想情况下应该提供一个阈值滑块,以查看各种决策阈值之间的性能参数。

不确定性和可变性的方法:如何计算这些指标的测量和估计?例如,这可能包括标准偏差、方差、置信区间或KL散度。还应包括如何近似这些值的细节(例如,5次运行的平均值,10倍交叉验证)。

4.4.1分类系统

对于分类系统,可以从混淆矩阵中导出的错误类型有假阳性率、假阴性率、假发现率和假遗漏率。我们注意到,这些指标中每一个相对重要性都依赖于系统、产品和使用情境。

例如,在监视场景中,监视者可能看重低假阴性率(即监视系统在应该检测到人或物体时未能检测到的比率)。另一方面,被监视者可能看重假阳性率(即监视系统在不应该检测到人或物体时检测到的比率)。我们建议列出各项数值,并提供在开发过程中优先考虑的内容及其原因。

一些不同的混淆矩阵指标之间的相等性相当于对公平性的一些定义。例如,组间的假阴性率相同相当于实现了机会均等,组间相等的假阴性和假阳性率相同相当于实现了比率均等。

4.4.2基于分数的分析

对于定价模型和风险评估算法等输出分数的系统,描述测量指标在各组间分布的差异可能会有所帮助。例如,报告集中趋势的度量,如模式、中位数和平均值,以及离散度或变异的度量,如范围、四分位数、绝对偏差、方差和标准差,可以促进必要的统计分析,以便对模型开发做出更明智的决策。模型卡甚至可以扩展到这些汇总统计之外,以揭示分布之间差异的其他度量,如交叉熵、困惑度、KL散度和曲线下固定面积(固定AUC)。

有许多应用乍一看似乎并非输出分数的模型,但为了交叉分析的目的,也可以此方法分析。例如,翻译系统的模型卡可以比较不同人口统计群体的BLEU分数,语音识别系统的模型卡可以比较单词错误率。虽然这些系统的主要输出不是分数,但查看用户之间的分数差异可能会产生有意义的见解,因为比较原始输入会变得过于复杂。

4.4.3 信赖

由设备、环境和组群的各种组合分别的性能指标对了解报告指标的置信区间尤为重要。来自混淆矩阵的指标的置信区间可以通过将这些矩阵作为系统性能的概率模型来计算。

4.5 评估数据

理想情况下,所有引用的数据集都指向任何一组能够提供数据集的来源和组成信息的文档。评估数据集应包括可供第三方公开使用的数据集。这些数据集可以是现有的数据集,也可以是与模型卡一并提供的新数据集,以实现进一步的基准测试。潜在的细节包括:

数据集:使用哪些数据集来测评模型?

动机:为什么选择这些数据集?

预处理:如何对数据进行预处理进而用以模型评估(例如,句子的标记、图像的裁剪、信息的过滤、无效图像的删除)?

为了确保模型卡在统计上的准确性和可验证性,评估数据集不仅应该代表模型的典型用例,还应该代表预期的测试场景和具有挑战性的用例。例如,如果一个模型打算用于在表型和人口统计学上同质的工作场所,并在代表预期用例的数据集上进行训练,那么在两个评估集上评估该模型可能是有价值的:一个与模型预期工作场景的人口特征相匹配,另一个包含可能对模型更具挑战性的个体(如儿童、老人和来自预期工作场景的组群以外的人)。这种方法可以突出在更常规的测试中可能不明显的系统性问题。

通常很难找到模型训练中使用的初始域之外的、指向其他群组的数据集。在某些情况下,人工智能生成的数据集可能会为用例提供数据集,否则这些用例将无法评估。第5.2节的例子在模型评估数据集中使用了合成数据。

4.6 训练数据

理想情况下,模型卡包含的训练数据信息应与评估数据一样多。然而,可能在某些情况下,提供训练数据的详细信息不具有可行性。例如,数据可能是专有的,或者是需要保密的。在这些情况下,我们主张提供关于数据中分组分布的基本细节,以及任何其他可以向利益相关者说明模型可能存在编码偏见的细节。

4.7 定量分析

定量分析应按所选因素分别进行。定量分析应提供根据所选指标评估模型的结果,尽可能提供置信区间值。不同细分的人口亚群在不同指标的奇偶性对应于公平通常是确定的。定量分析应证明指标的变化(例如,误差条),如第4.4节所述,并在图2中可视化。

分类评估包括:

单一结果:模型相对于每个单一因素的表现如何?

交叉结果:模型相在被评估因素的交叉点表现如何?

4.8 道德考量

本节旨在展示模型开发中的道德考虑因素,并向利益相关者展示道德挑战和解决方案。伦理分析并不总能提出精巧的解决方案,但伦理思考的过程值得为负责任的人工智能实践和未来工作的进一步展开提供信息。

虽然现有很多框架可用于分析技术决策中的道德问题,本节选择以下问题具体展开。

数据:模型是否使用了任何敏感数据(例如,受保护的数据)?

以人为本:该模式是否旨在为人类生活或福祉的核心提供信息,例如健康或安全?或者它可以被这样使用吗?

风险控制:在模型开发过程中使用了哪些风险控制措施?

风险和危害:模型使用中可能存在哪些风险?识别潜在的接受者、可能性和危害的程度的尝试。如果这些不能确定,请说明这些问题是被考虑过的,但仍然是未知的。

用例:是否有任何已知的模型用例是特别令人担忧的?这可能直接连接到模型卡的预期使用部分。

如果可能的话,本节还应包括模型开发中涉及的任何其他道德考量,例如,由外部委员会审查或由特定社会团体进行测试。

4.9 注意事项和建议

本节应列出前几节中未涉及的其他关注事项。例如,结果是否有进一步的测试?在评估数据集中是否没有出现任何相关的组群?是否有关于模型使用的其他建议?这个模型的评估数据集的理想特征是什么?

5.例子

我们为两个模型提供了模型卡的工作示例,分别是基于图像的分类系统和基于文本的评分系统。

5.1 微笑分类系统

为了展示图像分类问题的模型卡片示例,我们使用公共CelebA数据集来检查经过训练的“微笑”分类系统在年龄和性别类别中的性能,如图2所示。

这些结果显示了一些潜在的问题。例如,老年男性的错误发现率远远高于其他群体。这意味着许多预测错误地将老年男性归类为微笑,而实际上他们并没有。另一方面,男性(总体上)有更高的假阴性率,这意味着许多实际上在照片中微笑的男性被错误地归类为没有微笑。

这些分析的结果可以让我们深入了解该模型可能不太适合的情况。例如,将模型应用于不同的受众群体可能是不可取的,当检测微笑的存在比检测其缺失更重要时(例如,在自动发现图像中的“有趣时刻”的应用程序中),该系统能够发挥最大效用。对老年男性图像的识别进行微调等其他微调措施,可能有助于在不同群体之间创造更平衡的表现。

5.2恶评检测系统

第二个例子是Perspective API的TOXICITY系统的模型卡,该系统用于检测文本中的“恶意评价”,如图3所示。为了评估该模型,我们使用了已发布的、开源的、具有综合性的Identity Phrase Templates测试集的交叉版本。我们展示了两个版本的定量分析:TOXICITY V.1(即该模型的初始版本)和TOXICITY v. 5(即该模型的最新版本)。

这张模型卡突出了模型随时间变化的快速迭代,以及拥有一张随着每次新模型发布而更新的模型卡的重要性。TOXICITY v. 1在几个术语中表现不佳,尤其是“女同性恋”、“男同性恋”和“同性恋者”。这与最初TOXICITY模型的一些用户的发现是一致的,正如Perspective API背后的团队所报告的那样。Perspective API团队还分享了他们应用于TOXICITY v. 1模型的偏见控制技术,以提高TOXICITY v. 5的公平性。通过使模型卡成为API发布的标准化环节,像Perspective API团队这样的团队可能能够更早地发现并减弱这些偏差。

6. 讨论和未来的工作

我们提出的“模型卡”框架可用于报告关于训练有素的机器学习模型是什么以及它如何工作的信息。模型卡包括关于模型使用情境的信息,以及由不同的单一和交叉人口统计学影响因素的模型性能结果。在仔细审查确定模型的使用或发布中可预见的好处大于可预见的风险之后,模型卡将附随模型一并发布。

为了演示模型卡在实践中的使用,我们提供了两个例子:在CelebA数据集上测试的微笑分类模型的模型卡,以及在Identity Phrase Templates数据集上测试的公共恶评检测系统的模型卡。我们报告了微笑分类模型的混淆矩阵指标和恶评检测器的固定AUC,以及模型细节、预期用途、关于训练和评估数据的相关信息、道德考虑以及进一步的警告和建议。

本文提出的框架旨在具有足够的通用性,以便适用于不同的机构、使用情境和利益相关者。它也适用于最近提出的关键社会机构算法决策系统分析要求,例如,用于确定政府福利、就业评估、犯罪风险评估和犯罪DNA分析的模型。

模型卡只是提高机器学习模型和系统的开发人员、用户和利益相关者之间透明度的一种方法。为了适应各种各样的机器学习模型类型和潜在用例,它们的设计在范围和特点上都是灵活的。因此,模型卡的可用性和准确性依赖于名片创建者本身的完整性。至少在短期内,模型卡似乎不太可能被标准化或形式化到能够有效防止模型结果的误导性表述(无论是有意的还是无意的)的程度。因此,重要的是将模型卡视为众多透明度工具中的一种,其他工具可能包括第三方的算法审计(定量和定性)、技术和非技术分析师的“对抗性测试”,以及更具包容性的用户反馈机制。未来的工作将旨在通过研究模型信息如何被不同的利益相关者解释和使用,来完善创建模型卡的方法。研究人员还应探索模型卡如何加强和补充其他提供模型透明度的工具。

图2:在CelebA数据集上训练和评估的微笑识别系统的模型卡

图3:Perspective API的恶意评论检测系统的模型卡

【编译】李叙燃 网络法理论与实务前沿公众号编辑

【推送】韦天一 网络法理论与实务前沿公众号编辑

【指导教师】张欣

声明:本文来自网络法理论与实务前沿,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。