前情回顾·大模型安全动态

安全内参5月10日消息,美国白宫在上周四宣布,OpenAI、谷歌、Antrhopic、Hugging Face、微软、英伟达与Stability AI等顶尖人工智能提供商,将在DEF CON 31上共同参与对他们的生成式人工智能系统的公开安全评估。DEF CON是每年8月在拉斯维加斯召开的黑客大会,此次安全竞赛由人工智能黑客社区AI Village主办。

自去年开始,ChatGPT等大语言模型(LLM)迅速成为加快写作和交流任务的流行方式,但官方承认这些模型中也存在固有风险。混淆、越狱和偏见等问题给安全专业人士和公众带来了挑战。正因为如此,白宫科学、技术和政策办公室才支持对这些新的生成式AI模型进行极限测试。

白宫在声明中表示,“这项独立测试将为研究人员和公众提供关于这些模型的关键信息,并使得人工智能公司和开发人员能够采取措施以解决在模型中发现的问题。”声明还提到,此次活动符合拜登政府提出的《人工智能权利法案》和国家标准与技术研究院(NIST)的《人工智能风险管理框架》。

在AI Village发布的活动公告中,组织方Sven Cattell、Rumman Chowdhury和Austin Carson将其称为“有史以来规模最大的人工智能模型红队演习”。将有数千人参与对公共人工智能模型的评估,期间使用的评估平台由Scale AI负责开发。

所谓“红队”测试,是指安全专家尝试在组织系统中发现漏洞或缺陷,以提高整体安全性和弹性的过程。

AI Village创始人Sven Cattell表示,“只有让更多的人了解如何开展红队测试和评估人工智能模型,才能解决这些模型中的各种问题。”通过对人工智能模型组开展最大规模的红队演习,AI Village和DEF CON希望能培养出处理人工智能系统漏洞的研究者社区。

事实证明,大语言模型的锁定难度远超想象,部分原因在于所谓“提示词注入”技术。人工智能研究员Simon Willison详细介绍了提示词注入的危险,这种技术可以令语言模型偏离正轨,执行创建者想要回避的操作。

在DEF CON大会期间,参与者将通过主办方提供的笔记本电脑定时访问多个大语言模型。夺旗式积分系统将鼓励大家测试各种潜在威胁。最终,得分最高的参与者将获得英伟达高端GPU作为奖品。

AI Village公告中写道,“我们将公布从此次竞赛中得到的启发,帮助其他想要做类似尝试的人们。希望越来越多的人能知晓该如何使用大语言模型,了解这些模型的局限性。”

DEF CON 31将于8月10至13日在拉斯维加斯凯撒宫酒店举办。

参考资料:https://arstechnica.com/information-technology/2023/05/white-house-challenges-hackers-to-break-top-ai-models-at-def-con-31/

声明:本文来自安全内参,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。