文章强调外部评测如何增加前沿AI系统的透明度、问责制和安全性,倡导制定有利于独立测试的政策。
第一个关于故障词元的全面研究,研究中针对故障词元的检测方法为减少大模型中与分词(tokenizer)相关的错误提供了有意义的见解。
目前欧洲已有多个国家在积极推进人工智能监管沙盒试点。
ICO对训练数据准确性和生成式人工智能模型输出内容准确性的意见值得关注。
只需提供描述漏洞的CVE公告,OpenAI的GPT-4大语言模型便可以成功地利用现实世界真实存在的安全漏洞。
美国网络司令部将转向系统性采用人工智能技术。
报告就通向通用人工智能的一种主流技术——“大模型”的基本逻辑、技术规律及其对国家间的战略影响进行了分析。
该指南旨在为部署和运行由其他实体设计和开发的人工智能系统的组织提供最佳实践。
填补了生成式人工智能安全治理的空白。
通过上下文学习将军事理论和领域专业知识整合到大模型中,允许指挥官输入任务信息(包括文本和图像格式),并接收与战略对齐的作战行动序列以供审查和批准。
EasyJailbreak是一个集成了 11 种经典越狱攻击方法的统一架构。
此次峰会将以去年11月在英国布莱切利公园举行的人工智能安全峰会上达成的《布莱切利宣言》以及相关协议协议为基础,讨论人工智能安全问题,解决最先进的人工智能模型的潜在...
本文阐明AI safety与 AI security之间的区别,并探索它们各自独特而互补的焦点。
对生成式伪造语音的生成算法和检测算法分别进行总结与分类,阐述算法流程步骤及其中的关键点,并分析了技术应用的挑战点.阐述了如何预防以及解决生成式伪造语音带来的安全...
竞争还是合作取决于3个变量:行动者采取的博弈策略、标准制定行动者的类型,以及标准制定工作所关注的问题。
DiscoLQA能够通过自动提取特定的知识图谱来解决法律问答问题(Legal QA),而不需要在法律文本上特别训练的深度语言模型。
这类攻击破坏了水印技术的可靠性,可以欺骗人们相信他们本不应该相信的内容。
文章介绍了现代人工智能技术的发展趋势及在军事领域的应用,并分析了其可能对国家战略威慑力产生的影响。
主流AI算力框架漏洞遭利用,数千台AI工作负载服务器被黑。
犯罪分子积极拥抱新技术,“恶意大模型即服务”时代可能正在来临!
微信公众号