万万没想到！网站能识别AI Agent背后的模型

当AI Agent浏览网页时，网站能不能被动识别背后的模型？

牛津大学研究团队给出的答案是： 可以。

不到15个事件，就能识别模型

牛津大学研究团队对 14 款多模态大模型进行了测试。

模型覆盖 GPT-5.4、Claude Opus 4.6等闭源模型，

也包括 Seed、Qwen、UI-TARS 等国产开源模型。

他们发现，只需要收集 Agent 在网站上的点击、滚动等 UI 行为轨迹，就能识别背后的底层模型。

在测试识别中，XGBoost 分类器的表现大约是随机基线的 10 倍。

更关键的是，识别不一定要等完整会话结束。

论文还显示，模型身份通常可以从少于 15 个观察事件中恢复。

也就是说，Agent 刚进入页面，网站就已经有机会判断它背后是哪一个模型。

AI Agent 上网时留下的不是普通操作痕迹，而是一种新的行为指纹。

网站不只是被 Agent 浏览。

网站也能反过来观察 Agent、识别 Agent，并据此决定下一步怎么对待它。

三类攻击面：从定向越狱到成本膨胀

可怕的是，这不是纯理论风险。

论文把它落到三个攻击面：特定模型提示注入、对抗性成本膨胀、模型级访问控制。

特定模型提示注入

不同大模型对提示注入、越狱的抵抗力并不一样。

过去攻击者如果不知道目标模型，只能用通用攻击，或者做成本更高的黑盒试探。

现在，一旦网站先识别出模型身份，就可以直接选择更可能对该模型奏效的 jailbreak 模板。

不等于攻击一定成功，但会让攻击者少走很多弯路。

对抗性成本膨胀

论文提到，网站运营者可以针对特定模型投喂更容易诱发长推理、高 token 消耗的页面

让AI Agent 反复判断。

这类攻击瞄准的是用户侧的推理预算。

尤其对 Claude Opus 这类模型。。。

模型级访问控制

网站可以根据识别出的模型身份，给不同 Agent 展示不同内容。

比如，黑名单模式下，网站只拒绝某些模型访问；

投毒模式下，网站可以只对特定模型展示虚假信息，而对其他访问者保持正常页面。

论文特别提醒，这种「AI 专属投毒」，人类很难复现。

因为用不同的模型访问，看到的是完全不同的页面。

实现千人千面，对互联网公司来说已经非常成熟。

随机延迟不是银弹

更麻烦的是，简单加随机延迟挡不住自适应攻击者。

论文还测试了在 Agent 动作之间注入随机延迟。

随机延迟能扰乱节奏，但不能彻底抹掉模型的行为策略。

AI Agent上网的每一步，都可能在告诉网站：我是谁。

参考资料:https://arxiv.org/abs/2605.14786v1

声明：本文来自玄月调查小组，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。