随着人工智能(AI)系统在关键领域的广泛应用,美科技企业与国防承包商正通过军事化“红队测试”手段,持续提升AI模型的抗攻击能力。这种源自网络安全的攻防演练,正在重塑AI安全评估范式。

近日,微软公司AI红队测试负责人托丽·韦斯特霍夫在美智库安全与新兴技术中心(CSET)举办的研讨会上透露,其团队通过模拟极端使用场景,重点检验高风险生成式AI系统的行为边界。这种“机械化共情”测试方法,已成功识别出多个潜在漏洞。知名智库米特公司(MITRE)则侧重实战化评估,其首席AI安全工程师安娜·拉尼表示,他们主要针对政府机构即将部署的AI系统,模拟攻击整个操作环境及利益相关方。

当前AI红队测试面临定义模糊与标准缺失的双重挑战。CSET研究员科林·谢·布莱迈尔指出,测试过程中常出现能力边界争议,其中某些被开发者声明为“不具备危险功能”的AI模型,可能通过特定提示词绕过安全护栏。不同测试团队的方法差异更导致评估结果难以横向比较,亟需建立行业统一标准。

为应对这些挑战,MITRE创建了全球首个AI对抗战术知识库ATLAS。该平台汇集真实攻击案例与红队演练数据,允许机构共享新型攻防技术。拉尼强调,这种开放性协作能显著加速AI系统的安全进化,目前已将多个创新测试方法通过案例研究融入框架体系。

行业分析师指出,AI红队测试正处于关键发展期,尽管方法论快速迭代,但工具链与评估框架仍未成熟。韦斯特霍夫建议借鉴网络安全行业发展经验,在监管介入前先建立行业共识术语体系,避免标准碎片化。

值得注意的是,微软与MITRE正推动测试工具开源共享,力求构建跨行业安全基准。这种军民融合的测试生态,或将决定未来AI系统在国防、医疗等关键领域的可信度门槛。随着五角大楼将AI列为战略优先项,对抗性测试正成为智能武器系统认证的重要环节。

声明:本文来自防务快讯,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。