在人工智能大模型狂飙突进的时代,谁还在捍卫“干净的互联网”?一位名叫Xe Iaso的女程序员,凭一己之力写出一个名为Anubis的开源工具,帮助全球数十万网站抵御AI爬虫的贪婪索取。
自今年1月上线以来,Anubis已被下载近20万次,被GNOME桌面环境、FFmpeg项目,甚至联合国教科文组织(UNESCO)等机构采用。
在这场看似不对称的“信息保卫战”中,Iaso代表的是日益边缘化的“小互联网”势力,而她面对的对手,是不再遵守robots.txt协议、不再理会公平原则甚至知识产权法规的生成式AI巨头。
一次服务器“卡顿”,引爆了一场抗争
事情的起点令人熟悉又无奈:Iaso发现自己托管代码的Git服务器突然访问异常。刷新无果后,她翻查访问日志,发现两天内服务器已重启500次,罪魁祸首是一只来自亚马逊云计算平台的AI爬虫,它正点击服务器上的每一个链接。
“我一开始想把服务器从公网下线,但还是希望保留公开代码。”Iaso回忆说,于是她开始尝试“拦截”——而这些尝试一开始并不合法,“有些做法我不能在录音里承认”。
直到她将一段实验性代码上传GitHub,GNOME项目作为“救命稻草”采用后,这段工具开始崭露头角:Anubis诞生了。
在AI爬虫变得越来越狡猾的今天,传统防御手段失效已成共识。
robots.txt?——AI公司直接无视。
验证码(CAPTCHA)验证?——很多爬虫已集成自动识别器。
反向迷宫系统(如Cloudflare的“AI迷宫”)?——效果不错,但普通开发者无力搭建。
Iaso的解决方案,是一个她称之为“Uncaptcha”的机制:让浏览器完成一组JavaScript加密运算,并通过服务器校验,以此确认访客是否为真正的“人类用户”。这一过程对普通用户完全透明,主流浏览器自2022年以来已能轻松完成运算,但对AI爬虫而言,却需要高昂的计算成本。
这正是关键所在:“让AI爬虫的行为变得‘不经济’”,从而降低其大规模爬取的动机。
开源、轻量、可自托管:Anubis为何被快速接纳?
Anubis 的设计理念极为务实:
开源透明:任何人都可以使用、修改、部署;
轻量易装:不依赖大型基础设施,适合博客、小型文档站;
防御有效:自动识别大部分爬虫行为,不干扰正常用户;
持续迭代:Iaso正在开发“非加密版本”,以减少CPU负载,还在研究无需JavaScript的防御方案,照顾注重隐私的用户。
正因如此,它受到许多开源组织和小型机构的追捧。尽管它只是“一段业余时间里写的工具”,但Anubis已成为这场非对称战争中的一把利剑。
与AI军火赛跑:一场永无休止的“猫鼠游戏”
Iaso明白,这场战斗永无休止。“真正的挑战在于如何在不误伤用户的前提下识别AI爬虫,并防止对方反推你的防御模式。”她形容这就像“要让坏人看不出门在哪儿,却又要让好人能找到出口”。
她表示,数据投毒等方法无效。“在生成式AI的训练规模下,‘往海里撒点尿’不会改变海的味道。”
Anubis的背后,是一个人持续对抗整个野蛮生长的AI行业的努力。虽然她通过 Patreon和GitHub Sponsors获得一些支持,但她坦言这不足以维持全职开发,“如果有足够资金,我会立即雇佣协作者一起维护”。
在这个由AI驱动、数据疯狂攫取的时代,个体似乎注定处于劣势。但正如Iaso所说:“如果AI公司想阻止我,只需要想办法让我分心。”
Anubis或许不是最终的答案,但它代表了一种可能——一种不服输、不投降、不静默的姿态。
附注:Anubis项目主页(GitHub)地址:https://github.com/Xe/anubis
如果你不想让你的文档库、博客、开源项目等在线资产成为AI爬虫的饲料,不妨试一试这位开发者的“AI爬虫盾牌”。
声明:本文来自GoUpSec,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。