由于自然语言处理水平的提升,越来越多的公司和组织开始将AI算法用于执行与文本相关的任务,例如过滤垃圾邮件、分析社交媒体帖子和在线评论的情绪,评估简历和检测假新闻等。但是,我们可以相信这些算法能够可靠地执行任务吗?由IBM、亚马逊和德克萨斯大学联合做出的最新研究证明,通过使用工具,恶意行为者可以攻击文本分类算法并可能操纵算法。
对抗性攻击
在过去几年中,已经存在一些有关对抗性攻击的研究,输入修改将导致AI算法对图像和音频样本进行错误分类,同时保留原始外观以混淆视听。释义攻击正是针对这些文本。攻击文本模型比篡改计算机图像和音频识别算法要困难得多。
“图像和音频完全不同,” 人工智能研究员兼语言模型专家Stephen Merity表示。例如,在图像分类算法中,您可以逐渐更改像素的颜色,并观察这些修改如何影响模型的输出。这可以帮助研究人员找到模型中的漏洞。
“文本原本难以攻击,因为它是离散的。你无法在一句话中多加10%的‘dog’这个词,而且无法有效地在模型中搜索漏洞,”Merity说,“我想能否找出机器易受攻击的地方并进行针对性防御呢?”
“对于图像和音频而言,进行对抗性扰动是有意义的。但对于文本来说,即使你对其作出某些细小改动,比如一两句话,它也可能给人类理解造成困扰。”IBM的研究员兼研究论文的共同作者Pin-Yu Chen说。
创建释义范例
过去关于对文本模型的对抗性攻击的工作仅涉及改变句子中的单个单词。虽然这种方法成功地改变了AI算法的输出,但它经常导致修改后的句子听起来很生硬。而此次研究人员不仅关注改变词语,而且还关注改写句子和以有意义的方式改变更长的序列。
“我们正在解释单词和句子。通过创建在语义上与目标句子类似的序列为攻击提供更大的空间。然后我们看看模型是否将它们同原始版本一般进行分类。”Chen说。
研究人员开发了一种算法,可以在句子中找到能够操纵自然语言处理模型行为的最佳变化。“难点是确保文本的修改版本在语义上与原始版本相似。我们开发了一种算法,可以在非常大的范围内搜索单词和句子,这些修改将对AI模型的输出产生最大的影响。寻找最佳对抗性示例非常耗时,但该算法提高计算效率并具有理论支撑。”
人类很难察觉
释义攻击成功的关键在于它们保留了原始文本的语境和意义,很难被人类察觉。“我们将原始段落和修改后的段落交给人类评估员,他们很难发现二者之间的差异。但这对于机器而言完全不同。”
Merity指出,释义攻击不需要同人类保持完全一致,特别是当他们没有参与机器人篡改文本的情形。“人类不是尝试检测这类攻击的正确级别,因为它们每天都会处理错误的输入。对我们来说,错误的输入只是来自真人的不连贯的句子。现在人们发现拼写错误时并不会将其视为安全问题。但在不久的将来,这可能成为我们必须面对的事情。”
Merity还强调,释义和对抗性攻击存在引发安全风险的新趋势。“许多科技公司依靠自动化决策对内容进行分类,实际上并没有涉及人与人之间的互动。这使得该过程容易受到攻击。除非我们及时发现逻辑漏洞,否则这将同时导致数据泄露问题。”例如,一个人可能会欺骗仇恨言语分类器以发布不良内容,或利用简历处理模型中的释义漏洞将他们的工作申请推送到列表顶部。
(供稿者:袁 媛 编辑:袁 媛)
原文地址:
https://venturebeat.com/2019/04/01/text-based-ai-models-are-vulnerable-to-paraphrasing-attacks-researchers-find/
声明:本文来自北邮互联网治理与法律研究中心,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。