AI驱动漏洞挖掘！利用智能体发现57个安卓APP未知漏洞

前情回顾·AI赋能攻防对抗

安全内参9月8日消息，来自南京大学和悉尼大学的两位研究人员开发出一个AI研究框架，用于在安卓应用中发现并验证漏洞。

该系统名为A2，它通过先对应用安全性进行推理，再尝试利用潜在缺陷进行验证，从而模拟人类专家的分析与验证过程。

图：A2效果优于APKHunt

在“智能体漏洞发现”阶段，系统结合语义代码理解与传统安全工具，生成关于漏洞的假设。下一阶段“智能体漏洞验证”则包括漏洞利用的规划、执行和验证，以确认假设是否成立。

作为研究的一部分，研究人员考虑了可能的威胁行为者，包括能够对安卓应用APK进行逆向工程、观察运行时行为，并通过安卓交互通道注入输入的攻击者。

他们在论文中指出：“这些攻击者并不掌控安卓平台、内核或硬件。需要root设备、定制固件或硬件侧信道的攻击均不在研究范围内。相反，对手会聚焦于开发者引入的应用层漏洞或不安全的库使用。”

A2漏洞挖掘智能体流程

图：A2工作流程

当输入一个APK时，A2会借助大模型分析代码并推测潜在漏洞，同时结合静态应用安全测试（SAST）工具的警告，做出更多推测，并通过聚合器统一整合所有推测。

在下一阶段，每项推测都会交由概念验证（PoC）规划器，生成相应任务及预期结果。任务随后被执行，并由验证器检查结果进行迭代优化，直到漏洞成功验证或达到重试上限为止。

在分析环节，A2会对APK进行反编译，剔除第三方库并提取清单信息，然后对代码与清单数据进行处理。如果集成了第三方工具，还会将不同输出结果标准化，以便后续聚合。

接着，PoC规划器会基于漏洞特征制定验证计划并剔除误报，再将任务分配给执行器。研究人员解释称，执行器会在“代码执行、设备控制、文件系统、静态分析、界面交互、日志分析、APK生成以及Web服务器管理”等环节执行验证步骤。

最后，验证器会独立审查每个PoC结果，不会直接采信执行器报告的成功结论，而是依靠自身观察确认预期结果是否真正发生。

如果执行失败，或验证器否定了成功声明，反馈会返回PoC规划器，由其调整策略并重试。若所有任务均通过验证，整个流程即告完成。

发现57个APP漏洞，中位数成本不足10美元

研究人员利用Gemini生成了82个潜在漏洞，其中19个被排除。在剩余的63个中，有56个被成功验证为真实漏洞，并生成了完整的PoC代码。

在考察A2在O3、Gemini和ChatGPT上的计算成本与效率时，研究人员估算：漏洞检测阶段，每个APK的成本不到1美元；而完整验证流程在Gemini上，每个漏洞的最高成本可达26.85美元（中位数为8.94美元）。

研究人员在包含160个APK的真实数据集上测试了该框架。在检测阶段报告的136个潜在漏洞，60个被验证为可利用的安全缺陷，29个被确认是误报，同时还识别出一些超出验证范围的缺陷。

人工复核结果显示，在最终确认的60个漏洞中，仅3个属于误报。其余57个问题涉及加密、访问控制及输入验证缺陷，并已被负责任地披露。

研究人员表示，A2是迈向安卓自动化安全分析的重要一步，它实现了比现有工具更高的覆盖率，但仍受到范围、大模型推理可靠性以及上下文相关性等多方面的限制。

参考资料：https://www.securityweek.com/academics-build-ai-powered-android-vulnerability-discovery-and-validation-tool/、https://arxiv.org/pdf/2508.21579v1

声明：本文来自安全内参，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

AI驱动漏洞挖掘！利用智能体发现57个安卓APP未知漏洞

利用生成过程对开源大语言模型进行越狱

布局新一代安全！网安巨头Palo Alto推出氛围编程防护框架

鱼与熊掌可兼得：FedCEO如何打破隐私与性能的取舍困局