近期全球范围内出现了针对 AI 数据中心建设的社区抗议活动,公众关注的焦点集中在数据中心的能源消耗与环境影响。

然而,一种更为隐蔽的分布式 AI 训练基础设施正在形成:科技企业通过嵌入消费电子设备的程序模块,将全球数十亿家庭的联网设备转化为数据抓取节点。

本文将系统解析全球最大住宅代理网络运营商 Bright Data 的技术架构与商业模式,揭示其如何利用用户设备构建 AI 数据采集网络,并提出针对性的防御措施。

人工智能大模型的训练与运行高度依赖互联网公开数据,包括预训练阶段的基础语料、检索增强生成的实时信息、智能体的环境感知数据以及 AI 搜索引擎的索引内容。随着反爬虫技术的发展,Cloudflare、DataDome、HUMAN 等安全服务商已能够精准识别并拦截来自云数据中心的批量请求,传统的集中式数据抓取模式面临失效。

2025 年 10 月,安全媒体 Krebs on Security 报道指出:"Aisuru 等服务商提供的海量住宅代理,正在推动与各类 AI 项目相关的大规模数据采集活动。" 学术研究表明,自 2019 年以来,这类网络的滥用比例超过 90%。美国联邦调查局(FBI)于 2026 年年初发布正式安全警告,提醒公众关注住宅代理网络的安全风险。

相关:住宅代理网络背后的僵尸网络故事

此前的媒体报道主要聚焦于非法住宅代理供给,包括僵尸网络、植入木马的应用程序以及预感染的物联网设备。

而通过用户授权协议嵌入应用的 "合法"SDK 代理模式,长期以来缺乏有效的监管与公众监督。正是这种模式支撑了 Bright Data 成为全球最大的住宅代理网络运营商,其公开宣称拥有超过 4 亿个住宅 IP 地址。

SDK(软件开发工具包)是一组可复用的程序模块,开发者可以将其嵌入到自己的应用中以快速实现特定功能。Bright Data 提供的 SDK 核心功能是将用户设备转化为住宅代理网络的出口节点,转发第三方网络请求。

在各类联网设备中,智能电视(Connected TV, CTV)具备成为住宅代理节点的天然优势。与智能手机相比,其在多个维度上更适合长时间、高带宽的代理任务:

对比维度

智能手机

智能电视 / CTV

供电方式

依赖电池供电

永久接入市电

网络连接

WiFi 与蜂窝网络切换

固定连接高速 WiFi

在线时长

间歇性使用

24 小时待机在线

带宽限制

受移动数据套餐约束

几乎无带宽上限

用户关注度

高频主动使用

多数时间处于无人值守状态

授权界面

手机屏幕文本阅读

遥控器操控的长文本滚动

监管强度

企业 MDM、移动 EDR 覆盖

几乎无监管手段

智能电视不存在低电量关机、网络切换或锁屏中断的问题。更为关键的是,其用户授权机制存在结构性缺陷:通过遥控器方向键在电视屏幕上浏览数十页的隐私政策,对于绝大多数用户而言不具备可操作性。

即使是明确的授权弹窗,也普遍存在信息误导问题。以 Roku 平台的 Petflix 应用为例,其授权提示表述为:

"为了免费享受更少广告的 Petflix 服务,您允许 Bright Data 偶尔使用您设备的空闲资源和 IP 地址,从互联网下载公开网络数据。Bright Data 仅将您的 IP 地址用于经批准的商业用途。除 IP 地址外,不会访问或收集任何个人信息。"

然而,Bright Data SDK 的公开配置文件显示,其默认每月 WiFi 带宽上限为200GB,与 "偶尔使用" 的表述存在显著差异。

Bright Data 将其完整的合作伙伴列表托管在一个无需身份验证的公开网络端点。研究团队通过交叉验证公开信息,确认了以下高置信度合作伙伴:

合作伙伴 ID

实体名称

覆盖规模

playworks_digital

PlayWorks Digital Ltd

400 + 款 CTV 游戏;通过康卡斯特、Sky、考克斯、LG、三星、Vizio、Roku 覆盖约 2.5 亿个电视家庭

cloudtv

CloudTV

集成于 125 + 个电视品牌和 15 + 家原始设备制造商的产品中

longvision_media_hong_kong_co_limited

香港龙视传媒(LongTV)

覆盖香港和马来西亚 500 万 OTT 用户

viber_media_s_r_l

乐天集团旗下 Viber 通讯

月活跃用户 2.5 亿至 8.2 亿

supercent_inc

韩国 Supercent 公司

2023 年韩国下载量第一的移动应用发行商

moonfrog_labs_private_limited

Stillfront 集团旗下 Moonfrog Labs

仅 Teen Patti Gold 一款游戏月活用户约 1000 万;2021 年被以 9000 万美元收购

hola_networks

Hola Networks

Bright Data 的前身公司;巅峰时期用户规模达数千万至 1 亿以上

黑鸟备注:自查咯

重要说明:出现在上述列表仅表明相关实体在某一时间段集成过 Bright Data SDK,不代表其当前所有上线应用均在生产环境中使用该 SDK。对于特定应用,需进行单独验证。

该列表证实,至少有三家专注于智能电视领域的企业正在通过将用户设备转化为代理节点实现商业化变现。其中 PlayWorks Digital 的覆盖范围已达全球数亿家庭。

Bright Data SDK 是一款公开销售的商业产品,具备完整的官方开发文档。研究团队通过对其 iOS 版本(brdsdk.framework,版本 1.532.120)进行逆向工程,并捕获 30 天的运行时网络流量,完整还原了其工作机制。

1. 无认证配置获取

SDK 在每次启动时,会向以下地址发送 HTTP GET 请求获取全局配置:

GET https://clientsdk.bright-sdk.com/sdk_config_ios.json?appid=<应用包id>&ver=&uuid=<随机32位十六进制数>

该端点未实施有效的身份验证机制。只要提供任意有效的应用包 ID 和 SDK 版本号,并生成一个随机 UUID,服务器将返回与真实设备完全相同的配置信息,包括:

  • 设备空闲状态判定阈值(电池电量、CPU / 内存使用率、网络类型)

  • 分地区带宽配额

  • 完整的合作伙伴清单

  • VPN 绕过开关

  • 跨平台身份绑定规则

2. 永久 WebSocket 隧道建立

获取配置后,SDK 会立即建立一个持久化的 WebSocket 连接。

术语科普:WebSocket

WebSocket 是一种基于 TCP 的全双工通信协议,允许客户端与服务器之间建立长期连接,实现实时双向数据传输。与传统 HTTP 的请求 - 响应模式不同,WebSocket 服务器可以主动向客户端推送数据。

连接地址为:

wss://proxyjs.brdtnet.com:443

该域名解析至 AWS 全球加速 IP 地址,使用的 TLS 证书颁发给*.luminatinet.com—— 这是 Bright Data 在 2018 年更名前的公司名称(Luminati Networks)。

值得注意的是,该 WebSocket 连接同样不需要客户端身份验证。服务器接受任何有效的 TLS 握手请求,并执行以下握手流程:

  1. 服务器发送tunnel_init帧确认会话,返回客户端的公网 IP 地址

  2. 服务器发送cid_set帧分配唯一的会话跟踪标识符

  3. 服务器发送status_get帧轮询设备状态信息

  4. 当设备状态满足要求时,服务器推送cmd_tun帧,指示设备执行网页抓取请求

整个通信过程未使用消息签名、HMAC 校验、客户端证书或设备认证机制,其安全强度低于多数商业恶意软件的命令与控制(C2)协议。

SDK 支持的完整命令集如下:

通信方向

命令

功能描述

服务器→客户端

tunnel_init

初始化隧道,返回客户端公网 IP

服务器→客户端

cid_set

分配会话标识符

服务器→客户端

status_get

查询设备状态信息

服务器→客户端

cmd_tun/tun

分发网页抓取任务

服务器→客户端

dns

请求解析目标域名

服务器→客户端

consent

查询用户授权状态

客户端→服务器

status_send

定期上报设备状态

客户端→服务器

tun_report/tun_ack/tun_fin

上报任务执行状态

客户端→服务器

tunnel_init_decline

拒绝建立隧道

客户端→服务器

logs

发送诊断日志

3. 空闲状态判定规则

SDK 配置文件中明确定义了设备可用于转发流量的状态条件:

    "idle_metrics": { "ignore_screen_on": true, // 屏幕开启时仍可转发流量 "ignore_on_call": true, // 用户通话时仍可转发流量 "max_bw_ratio": 1, "min_battery": 0.2, "wifi_on_battery": true, "min_battery_wifi": 0.2, "max_cpu_usage": 70, "max_mem_usage": 90, "mem_screen_off": true, "idle_timeout": 30, "not_idle_timeout": 10}

    上述规则表明,SDK 定义的 "空闲" 与用户是否正在使用设备无关。只要设备的 CPU 使用率低于 70%、内存使用率低于 90%、电池电量高于 20%,即被判定为 "空闲",可以执行代理任务。

    4. VPN 绕过机制

    SDK 配置文件中的use_netifs: true标志启用了 VPN 绕过功能。当该标志开启时,SDK 会强制所有代理隧道流量通过设备的物理网卡(WiFi 或蜂窝网络)发送,完全绕过系统配置的 VPN 接口

    实验验证表明,即使设备全局启用 VPN,所有其他应用流量均通过 VPN 传输,Bright Data SDK 的 WebSocket 隧道仍会直接通过物理网卡发送,VPN 无法检测或拦截该流量。

    SDK 采用了两种独立的技术绕过安全检测:

    • 控制平面(配置获取、状态上报):使用底层 CFNetwork API 实现,绕过基于 URLSession 的应用层监控工具

    • 数据平面(代理隧道):使用 NWConnection API 强制绑定物理接口,绕过所有 VPN 和系统级代理

    这种设计使得企业 MDM 管理、VPN 流量监控和家庭路由器家长控制等常规安全措施失效。

    MDM(移动设备管理)是企业用于管理员工移动设备的技术平台,可远程配置设备设置、安装应用、限制功能和擦除数据,是企业信息安全体系的重要组成部分。

    SDK 根据设备的地理位置实施差异化的带宽配额:

    国家 / 地区

    允许转发的最低电池电量

    每日带宽上限

    每月带宽上限

    乌兹别克斯坦

    1%

    1GB

    30GB

    阿曼

    1%

    1GB

    30GB

    卡塔尔

    20%

    40MB

    250MB

    阿联酋

    20%

    40MB

    250MB

    全球其他地区

    20%

    50MB

    500MB

    数据显示,乌兹别克斯坦和阿曼的设备被允许在电池电量仅剩 1% 时继续转发流量,每月带宽上限是全球默认值的 60 倍。而卡塔尔和阿联酋的设备则受到更严格的限制,这一差异可能与当地电力供应稳定性和移动数据成本相关。

    Bright Data SDK 的网络流量具有明显的特征,用户可通过以下方法检测并拦截:

    方法 1:DNS 拦截(推荐)

    在家庭路由器或公共 DNS 服务(如 Pi-hole、NextDNS、Cloudflare Gateway)中,添加以下域名的拦截规则:

      proxyjs.brdtnet.comproxyjs.luminatinet.comproxyjs.bright-sdk.comclientsdk.bright-sdk.comclientsdk.brdtnet.com

      拦截上述域名将直接切断 SDK 的代理隧道,且不会影响 Bright Data 面向付费客户的合法代理服务(其使用独立域名)。

      方法 2:TLS SNI 过滤

      在支持 SNI 过滤的防火墙或路由器上,配置规则拦截服务器名称匹配以下模式的 TLS 握手:

        *.brdtnet.com*.luminatinet.com*.luminati.io

        术语科普:SNI 过滤

        SNI(服务器名称指示)是 TLS 协议的扩展,允许客户端在握手阶段指明要访问的服务器域名。基于 SNI 的过滤无需解密流量内容,即可拦截特定域名的请求。

        方法 3:证书指纹识别

        可在防火墙中配置基于证书指纹的拦截规则。

        注意:上述方法仅对通过 WiFi 网络传输的流量有效。对于 iOS 设备的蜂窝网络流量,由于 SDK 会强制绕过 WiFi 和 VPN,需通过 MDM 扫描应用二进制文件进行检测,查找包含BrdWebSocketFacadeBrdNetwork.DNSResolver符号的应用并禁止安装。

        研究说明

        本研究基于以下三个独立数据源:

        1. 运行已授权合作伙伴应用(包括嵌入 Bright SDK 的 XYO COIN)的 iOS 设备,为期 30 天的 TLS 拦截流量捕获

        2. 对 SDK 二进制文件的静态逆向分析

        3. 对 Bright Data 公开网络基础设施的主动探测

        2026 年 5 月 11 日,研究团队通过 privacy@brightdata.com 向 Bright Data 发送了研究预告邮件。截至文章发布时,未收到任何回复。

        人工智能产业的快速发展催生了对海量数据的需求,而住宅代理网络已成为 AI 数据供应链的关键环节。Bright Data 通过嵌入消费电子设备的 SDK,构建了覆盖全球数十亿家庭的分布式数据抓取基础设施。智能电视因其全天候在线、高带宽和低监管的特性,成为这一网络中最理想的节点。

        当前的用户授权机制存在严重缺陷,冗长的隐私政策和误导性的授权提示使得用户无法真正知情同意。这种以牺牲用户网络资源和隐私为代价的商业模式,亟待监管部门的介入和规范。

        参考:《The Smart TV in Your LivingRoom Is a Node in the AIScraping Economy》

        声明:本文来自黑鸟,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。