NIST发布《对抗性机器学习：攻击与缓解的分类和术语》

2024年伊始，美国NIST发布了一份报告——Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations (NIST.AI.100-2)，报告阐述了 "对抗性机器学习 "威胁，介绍了缓解策略及其局限性。公号君翻译了NIST的新闻稿件，供大家参考。

一个AI系统可能会发生故障，如果敌手找到一种方法来混淆其决策。在这个例子中，道路上的错误标记误导了无人驾驶汽车，可能使其偏离至迎面而来的交通。这种“逃避”攻击是新NIST出版物中描述的众多对抗性策略之一，旨在帮助概述我们可能期望的攻击类型以及缓解它们的方法。图片来源：N. Hanacek/NIST

对手可以故意混淆甚至“投毒”人工智能（AI）系统，使其发生故障——而且开发者没有万无一失的防御方法。来自国家标准与技术研究院（NIST）的计算机科学家及其合作者在一份新出版物中识别了AI和机器学习（ML）的这些和其他漏洞。

他们的工作，名为《对抗性机器学习：攻击与缓解的分类和术语》（NIST.AI.100-2），是NIST支持可信赖AI发展的更广泛努力的一部分，它可以帮助实践NIST的AI风险管理框架。该出版物是政府、学术界和工业界的合作，旨在帮助AI开发者和用户了解他们可能期望的攻击类型以及减轻它们的方法——并理解，在这方面并没有一劳永逸的解决办法。

“我们提供了一种攻击技术和方法的概述，涵盖了所有类型的AI系统，”NIST计算机科学家Apostol Vassilev说，他是出版物的作者之一。“我们还描述了文献中报道的当前缓解策略，但这些现有防御目前缺乏强有力的保证即它们完全缓解了风险。因此，我们鼓励社区提出更好的防御措施。”

AI系统已渗透到现代社会中，其工作能力范围从驾驶车辆到帮助医生诊断疾病，到作为在线聊天机器人与客户互动。为了学习执行这些任务，它们接受了大量数据的训练：例如，自动驾驶车辆可能会显示带有路标的高速公路和街道的图像，而基于大型语言模型（LLM）的聊天机器人可能会接触到在线对话的记录。这些数据帮助AI预测在给定情况下如何响应。

一个主要问题是，数据本身可能不值得信任。其来源可能是网站和与公众的互动。在AI系统的训练期间以及之后，当AI通过与物理世界的互动继续完善其行为时，不法分子破坏这些数据的机会很多。这可能导致AI以不理想的方式表现。例如，聊天机器人可能会学会在其防护措施被精心设计的恶意提示规避时以辱骂或种族主义语言回应。

“在大多数情况下，软件开发者需要更多人使用他们的产品，以便它能在接触中变得更好，”Vassilev说。“但没有保证接触会是好的。当用精心设计的语言提示时，聊天机器人可能会吐出不良或有害信息。”

部分原因是用于训练AI的数据集太大，以至于人们无法成功监控和过滤，目前尚无万无一失的方法保护AI免受误导。为了协助开发者社区，新报告提供了其AI产品可能遭受的攻击类型及减少损害的相应方法概述。

该报告考虑了四种主要类型的攻击：逃避、投毒、隐私和滥用攻击。它还根据多个标准对它们进行分类，如攻击者的目标和目的、能力和知识。

逃避攻击发生在AI系统部署后，试图通过改变输入来改变系统的响应方式。例如，向停车标志添加标记，使自动驾驶车辆误解为速度限制标志，或创建混乱的车道标记，使车辆偏离道路。
投毒攻击发生在训练阶段，通过引入腐败数据来进行。一个例子是在对话记录中悄悄添加大量不恰当的语言，使聊天机器人将这些实例解释为足够常见的语言，以在自己的客户互动中使用。
隐私攻击发生在部署期间，是试图了解关于AI或其受过训练的数据的敏感信息以滥用它。敌手可以向聊天机器人提出许多合法的问题，然后利用答案来逆向工程模型，以找到其弱点——或猜测其来源。向这些在线来源添加不希望的示例可能会使AI表现不当，事后使AI忘记这些特定的不希望的示例可能很困难。
滥用攻击涉及向AI吸收的来源（如网页或在线文档）中插入错误信息。与前述的投毒攻击不同，滥用攻击试图从合法但受损的来源给AI提供错误的信息片段，以重新利用AI系统的预期用途。

“大多数这些攻击都相当容易发起，并且只需要对AI系统有最低程度的了解和有限的敌对能力，”共同作者、东北大学教授Alina Oprea说。“例如，投毒攻击可以通过控制几十个训练样本来发起，这将是整个训练集的很小一部分。”

作者——还包括Robust Intelligence Inc.的研究人员Alie Fordyce和Hyrum Anderson——将这些攻击类别细分为子类别，并添加了缓解它们的方法，尽管该出版物承认，AI专家迄今为止为对抗性攻击设计的防御措施至多是不完整的。对这些限制的认识对于希望部署和使用AI技术的开发者和组织来说很重要，Vassilev说。

“尽管AI和机器学习取得了显著进展，这些技术容易受到攻击，可能导致惊人的失败和严重后果，”他说。“保护AI算法的理论问题还没有解决。如果有人说不同，他们就是在贩卖蛇油。”

声明：本文来自网安寻路人，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

NIST发布《对抗性机器学习：攻击与缓解的分类和术语》

中国工程院发布“新一代信息工程科技人工智能新兴技术备选清单”

IDC：2024年中国人工智能软件市场份额发布

IDC：2024年中国AI公有云服务市场规模达195.9亿元