前情回顾·AI赋能攻防对抗

安全内参9月8日消息,来自南京大学和悉尼大学的两位研究人员开发出一个AI研究框架,用于在安卓应用中发现并验证漏洞。

该系统名为A2,它通过先对应用安全性进行推理,再尝试利用潜在缺陷进行验证,从而模拟人类专家的分析与验证过程。

图:A2效果优于APKHunt

在“智能体漏洞发现”阶段,系统结合语义代码理解与传统安全工具,生成关于漏洞的假设。下一阶段“智能体漏洞验证”则包括漏洞利用的规划、执行和验证,以确认假设是否成立。

作为研究的一部分,研究人员考虑了可能的威胁行为者,包括能够对安卓应用APK进行逆向工程、观察运行时行为,并通过安卓交互通道注入输入的攻击者。

他们在论文中指出:“这些攻击者并不掌控安卓平台、内核或硬件。需要root设备、定制固件或硬件侧信道的攻击均不在研究范围内。相反,对手会聚焦于开发者引入的应用层漏洞或不安全的库使用。”

A2漏洞挖掘智能体流程

图:A2工作流程

当输入一个APK时,A2会借助大模型分析代码并推测潜在漏洞,同时结合静态应用安全测试(SAST)工具的警告,做出更多推测,并通过聚合器统一整合所有推测。

在下一阶段,每项推测都会交由概念验证(PoC)规划器,生成相应任务及预期结果。任务随后被执行,并由验证器检查结果进行迭代优化,直到漏洞成功验证或达到重试上限为止。

在分析环节,A2会对APK进行反编译,剔除第三方库并提取清单信息,然后对代码与清单数据进行处理。如果集成了第三方工具,还会将不同输出结果标准化,以便后续聚合。

接着,PoC规划器会基于漏洞特征制定验证计划并剔除误报,再将任务分配给执行器。研究人员解释称,执行器会在“代码执行、设备控制、文件系统、静态分析、界面交互、日志分析、APK生成以及Web服务器管理”等环节执行验证步骤。

最后,验证器会独立审查每个PoC结果,不会直接采信执行器报告的成功结论,而是依靠自身观察确认预期结果是否真正发生。

如果执行失败,或验证器否定了成功声明,反馈会返回PoC规划器,由其调整策略并重试。若所有任务均通过验证,整个流程即告完成。

发现57个APP漏洞,中位数成本不足10美元

研究人员利用Gemini生成了82个潜在漏洞,其中19个被排除。在剩余的63个中,有56个被成功验证为真实漏洞,并生成了完整的PoC代码。

在考察A2在O3、Gemini和ChatGPT上的计算成本与效率时,研究人员估算:漏洞检测阶段,每个APK的成本不到1美元;而完整验证流程在Gemini上,每个漏洞的最高成本可达26.85美元(中位数为8.94美元)。

研究人员在包含160个APK的真实数据集上测试了该框架。在检测阶段报告的136个潜在漏洞,60个被验证为可利用的安全缺陷,29个被确认是误报,同时还识别出一些超出验证范围的缺陷。

人工复核结果显示,在最终确认的60个漏洞中,仅3个属于误报。其余57个问题涉及加密、访问控制及输入验证缺陷,并已被负责任地披露。

研究人员表示,A2是迈向安卓自动化安全分析的重要一步,它实现了比现有工具更高的覆盖率,但仍受到范围、大模型推理可靠性以及上下文相关性等多方面的限制。

参考资料:https://www.securityweek.com/academics-build-ai-powered-android-vulnerability-discovery-and-validation-tool/、https://arxiv.org/pdf/2508.21579v1

声明:本文来自安全内参,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。