当AI Agent浏览网页时,网站能不能被动识别背后的模型?

牛津大学研究团队给出的答案是: 可以。

不到15个事件,就能识别模型

牛津大学研究团队对 14 款多模态大模型进行了测试。

模型覆盖 GPT-5.4、Claude Opus 4.6等闭源模型,

也包括 Seed、Qwen、UI-TARS 等国产开源模型。

他们发现,只需要收集 Agent 在网站上的点击、滚动等 UI 行为轨迹,就能识别背后的底层模型。

在测试识别中,XGBoost 分类器的表现大约是随机基线的 10 倍

更关键的是,识别不一定要等完整会话结束。

论文还显示,模型身份通常可以从少于 15 个观察事件中恢复。

也就是说,Agent 刚进入页面,网站就已经有机会判断它背后是哪一个模型。

AI Agent 上网时留下的不是普通操作痕迹,而是一种新的行为指纹。

网站不只是被 Agent 浏览。

网站也能反过来观察 Agent、识别 Agent,并据此决定下一步怎么对待它

三类攻击面:从定向越狱到成本膨胀

可怕的是,这不是纯理论风险。

论文把它落到三个攻击面:特定模型提示注入、对抗性成本膨胀、模型级访问控制

特定模型提示注入

不同大模型对提示注入、越狱的抵抗力并不一样。

过去攻击者如果不知道目标模型,只能用通用攻击,或者做成本更高的黑盒试探。

现在,一旦网站先识别出模型身份,就可以直接选择更可能对该模型奏效的 jailbreak 模板。

不等于攻击一定成功,但会让攻击者少走很多弯路。

对抗性成本膨胀

论文提到,网站运营者可以针对特定模型投喂更容易诱发长推理、高 token 消耗的页面

让AI Agent 反复判断。

这类攻击瞄准的是用户侧的推理预算

尤其对 Claude Opus 这类模型。。。

模型级访问控制

网站可以根据识别出的模型身份,给不同 Agent 展示不同内容。

比如,黑名单模式下,网站只拒绝某些模型访问;

投毒模式下,网站可以只对特定模型展示虚假信息,而对其他访问者保持正常页面。

论文特别提醒,这种「AI 专属投毒」,人类很难复现。

因为用不同的模型访问,看到的是完全不同的页面。

实现千人千面,对互联网公司来说已经非常成熟。

随机延迟不是银弹

更麻烦的是,简单加随机延迟挡不住自适应攻击者

论文还测试了在 Agent 动作之间注入随机延迟。

随机延迟能扰乱节奏,但不能彻底抹掉模型的行为策略。

AI Agent上网的每一步,都可能在告诉网站:我是谁。

参考资料:https://arxiv.org/abs/2605.14786v1

声明:本文来自玄月调查小组,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。