大模型训练的单次突发流量可达400Gbps,AI手机与可穿戴设备正在成为系统级入口,路由安全告警每天仍有数十条需要人工甄别。这些看似不相关的现象,共同指向一个核心问题:人工智能及智能体互联网正在深刻改变BGP域间路由的运行逻辑。本文从发展态势出发,梳理智算中心跨域训练、边缘推理与任播分发、AI驱动路由运维、路由安全协同四大典型场景如何重塑域间路由的技术路径,并从技术、运维、安全、治理四个维度分析机遇与挑战,最后提出以安全底座先行、分层闭环建设、试点评估牵引为核心的政策与技术建议,为我国路由高质量发展提供系统参考。
01
发展态势与应用场景
从发展态势看,人工智能及智能体互联网已经呈现出三个与BGP(边界网关协议)域间路由直接相关的趋势。其一,算力基础设施与网络承载能力从并列要素转向强耦合要素,相关政策已将计算、网络、存储和应用协同创新列为算力基础设施高质量发展的重点方向,并将基础网络通信、算力网络、智算中心纳入统一标准与评估框架[1]。其二,智能体从应用插件转向系统级入口。《新一代智能终端蓝皮书》将AI智能体界定为能够感知外部信息、自主规划、决策与执行的系统,并指出其具备信息感知、学习记忆、推理规划、工具调用和反思改进等核心能力[2]。其三,面向公众与行业的AI服务已形成相当规模,域间访问不再以静态内容访问为主,而越来越依赖模型、工具、数据和边缘节点之间的动态连接[3][4]。
这些趋势通过四类典型场景影响BGP域间路由。第一类是智算中心跨域训练、推理服务访问与灾备迁移。SIGCOMM 2024的两篇工业界论文显示,大模型训练流量与传统云流量存在显著差异。阿里云的HPN系统指出,大模型训练会在每台主机上产生少量周期性、强突发的流,单次突发流量可达400Gbps,并且一个训练集群单元可互联约1.5万块GPU[5]。Meta的研究进一步指出,训练负载天然存在突发性与负载不均衡,需要将训练网络与其他数据中心网络进行解耦[6]。这些现象首先发生在数据中心内部,但当训练集群、推理集群、对象存储、模型文件存储平台和边缘接入分布在不同运营主体和不同自治系统(AS)时,域间路由会面临更频繁的多出口接入、跨网络流量调度和故障切换需求。具体传导到BGP层面,表现为更多细粒度前缀公告、更频繁使用子前缀进行流量引导,以及更严格的故障后路由恢复时间要求[3][5][6]。

图1 阿里云HPN系统概览[5]
第二类是边缘推理、智能终端接入与任播(Anycast)智能服务分发。任播是指同一个服务地址在多个地点同时提供服务,用户通常会被网络路由到其中一个服务节点。AI手机、AI电脑、可穿戴设备和系统级智能体强化了对低时延、稳定性和多地域接入一致性的要求[2][3]。ANRW 2024的实证研究表明,任播网络中84.06%的自治系统至少对一个任播前缀实施了选择性通告,即只向部分相邻网络发布该前缀;其重要原因之一是BGP默认路径选择并不总是对应地理位置最近或时延最低的服务节点[7]。因此,当AI推理服务、智能体入口和API网关广泛使用任播时,BGP策略将直接决定用户是否被送往更合适的推理节点。其路由影响包括同一前缀在多个服务节点发布、BGP策略标记与区域引流策略增长、流量集中到少数路径、往返路径不一致,以及局部故障时用户到服务节点的重新分配。相关指标至少应包括任播路径绕远程度、终端到服务节点时延、用户到服务节点映射稳定度、同一前缀向相邻网络发布的覆盖范围及BGP策略标记数量[7]。

图2:任播网络典型场景[7]
第三类是AI驱动的路由运维、故障定位与策略生成。近两年学术界和工业界都已给出高质量证据,表明AI或机器学习在BGP异常检测方面具备现实可用性。USENIX Security 2024的语义感知检测系统在18个真实RouteViews路由采集数据集、逾110亿条路由公告上实现了对全部已确认异常的检测,并将误报控制在每1.8亿条公告不超过5次;在某大型ISP一月现网部署期间,它识别出497个真实异常,平均每天误报1.65次[8]。NSDI 2024的DFOH系统可在约5分钟内检测90.9%的伪造源自治系统路由劫持,并将全网每日可疑告警压缩到约17.5条,处于人工可审查范围[9]。由此可见,AI在域间路由运维中的正面价值主要是降低告警噪声、缩短定位时间和提高处置优先级排序质量。与此同时,NetConfEval与面向BGP任务的PeeringLLM-Bench表明,大模型已经能够参与网络配置和路由策略翻译,但其输出对上下文、外部知识和约束执行高度敏感,不宜直接放在生产网络的自动执行环节[10][11]。

图3:语义感知的路由异常检测系统[8]
第四类是路由安全协同与合规审计。RPKI(资源公钥基础设施)、ROV(路由源验证)、BGP角色、OTC(只向客户传播标记)和ASPA(自治系统提供方授权)等机制正在把域间路由从经验型运维推向可验证运维。RIPE Labs的年度回顾指出,RPKI部署持续扩大,并成为全球路由安全体系的重要基础[12]。IMC2025的研究进一步表明,RPKI已经进入早期多数阶段,但组织覆盖率、地址空间覆盖率以及地区间成熟度差异仍明显存在[13]。与此同时,RFC9234提供了路由泄露双边协商的标准路径[14],NIST的BGP安全与韧性指南进一步强调了路由安全机制的系统化部署需求[15],NIST在2025年还通过BRIO测试框架推动ASPA验证与实验[16]。对我国而言,围绕RPKI验证系统、ROV规则、ASPA验证、告警共享和证据保全构建统一底座,将直接降低大规模误路由、路由泄露和被攻击时的取证成本[17][18]。

图4:基于大模型的自动化P4配置生成系统[10]
基于上述证据,可将典型场景、影响路径与建议观测指标概括如下。

AI训练网络相关指标主要对应训练流量的突发性、同步性和负载不均衡问题[5][6];任播相关指标对应选择性通告、路径绕远和用户到服务节点映射稳定性问题[7];AI运维相关指标对应异常检测、配置生成和配置评测中的准确性与可控性要求[8][9][10][11];安全审计相关指标对应RPKI、ROV、BGP角色、OTC和ASPA等可验证路由安全机制[12][13][14][15][16][17][18]。
02
机遇与挑战
人工智能及智能体互联网给路由带来的机遇与挑战,宜从技术、运维、安全、治理与法律合规四个维度同时把握。若仅从AI是否用于运维这一单一视角理解,容易忽略真正影响BGP系统稳定性的因素,即业务形态变化、策略传播机制和安全责任重分配[2][3][15][17]。

上述判断与近五年证据相互印证。其一,大模型训练网络的突发性与负载不均衡已被工业界实证证实[5][6]。这意味着传统以前缀规模近似衡量路由压力的思路不足以捕捉AI时代的真实压力,路由控制系统负载还将更多受到业务同步性与局部异常集中度影响。其二,BGP策略标记与路由策略复杂度正在持续上升。2025年的研究显示,约90%的观测到的BGP策略标记缺乏公开文档[20]。另有对20年路由策略原子的复现实验发现,平均原子大小已由3.84下降至2.13,且原子形成位置明显向中间传输自治系统迁移。这里的路由策略原子可理解为执行相同路由策略的一组网络对象,该结果表明策略复杂度越来越不只集中在源自治系统,而是沿传输链条扩散[21]。
其三,AI用于路由异常检测的收益已足够明确,但AI替代人工判断的边界并不明确。语义感知检测和伪造源自治系统劫持检测都已达到较好的精度与可处置告警规模[8][9]。RoLL+还显示出92%的定位准确率、低于1毫秒的定位时延和每秒7000个自治系统三元组的处理能力,这说明AI非常适合作为域间路由的观测与决策辅助层[22]。但NetConfEval和BGP配置任务评测表明,配置自动化对外部知识、约束满足和厂商语法差异高度敏感,不应在缺少规则引擎、沙箱验证和人工复核的情况下直接进入生产执行链[10][11]。

图5:RoLL+路由泄漏检测系统[22]
其四,治理问题在AI时代将从是否有规则转向规则如何落到网络控制闭环。我国现行《生成式人工智能服务管理暂行办法》《个人信息保护法》《数据安全法》《互联网信息服务算法推荐管理规定》已经构成基本制度框架[24][25][26][27]。对路由场景而言,单纯的BGP报文与前缀信息通常并不直接等同于个人信息;但一旦路由优化系统纳入用户标识、终端标识、业务日志、位置轨迹、会话质量数据或跨境调度数据,其建模、共享和自动化决策过程就可能触发数据最小化、目的限定、跨境提供、安全评估和算法透明要求[24][25][26][27]。因此,路由智能化不能被理解为纯网络工程问题,而必须与数据治理和算法治理前置耦合。
面向我国路由高质量发展的技术选项可作如下比较:

ROA/ROV、RFC9234与ASPA构成当前最明确的可验证安全路线[12][13][14][15][16][17][18];BGP监测协议、路由采集器与AI异常检测构成近期最现实的观测和降噪路线[8][9][19][22][23];大模型辅助配置生成虽有价值,但仍应被限制在规则、沙箱、仿真和人工审批之后[10][11]。
03
技术与政策建议
建议总体遵循三项原则。第一,以安全底座先行,优先解决可验证性不足的问题,再引入AI闭环。第二,以分层闭环建设,先做观测和建议闭环,再做小范围试运行执行闭环,最后才考虑自治执行闭环。第三,以试点和评估牵引标准,避免在缺少可量化指标的条件下大规模推广。上述原则对应的技术基础包括ROA/ROV、RFC9234、ASPA、RPKI验证系统以及路由安全国家级路线图与测试工具[12][13][14][15][16][17][18]。

短期内先落实关键网络、关键前缀、关键节点和关键流程。建议将政府、关键基础设施、全国性骨干网、主要云服务商、智算平台、重要互联网交换中心和教育科研主干前缀纳入首批重点对象,形成关键前缀全量ROA、关键边界默认ROV、重要互联关系优先启用BGP角色的最小安全闭环。现有研究已经证明RPKI和ROV进入规模部署期,但仍有40%至50%的地址空间未被ROA覆盖;通过关键对象优先,可以在有限成本下取得更高的网络系统收益[12][13][14][15]。
短期内同时应建设AI辅助运维安全边界。具体做法是:把大模型和智能体定位为检索、总结、比对、建议与优先级排序工具,而不是直接执行工具;所有影响BGP策略的模型输出必须经过规则引擎、厂商语法校验、仿真预演、小范围试运行验证和人工审批五道关口;对每次模型介入的告警处置、工单生成和策略修改都保留输入、版本、提示词、外部知识引用、审批链和回滚证据。这样做既能释放AI效率红利,也能把大模型编造内容和责任不清风险控制在可管理范围内[8][9][10][11]。
建议把路由安全底座升级为算力网络与路由协同底座。这意味着不能只统计前缀和告警,还要把与AI业务强相关的指标纳入评估,包括跨域时延分位数、用户到服务节点映射稳定性、路径变化频率、故障切换后训练作业恢复时间、路由控制系统CPU与内存负荷,以及路由变更对推理服务目标的影响。对智能体互联网而言,还应把多智能体调用链的跨域路径稳定性纳入观察维度,防止应用层自治行为放大网络层震荡。相关评估应结合云计算与智能终端发展趋势、AI训练网络实测结果、任播选择性通告研究以及BGP年度规模和更新活动基线[2][3][5][6][7][28][29]。
还应加快形成我国自主可验证的工具链与测试环境。可借鉴NIST BRIO的思路,建设覆盖ROA/ROV、RFC9234、ASPA验证、BGP策略标记语义审查、异常检测模型、大模型配置辅助等能力的综合测试床[16]。在数据和工具层面,应结合BGP采集平台、策略标记语义研究、路由策略原子复现实验、异常检测和路由泄露定位等研究,形成统一压测数据集、异常注入样例库和攻防演练机制[19][20][21][22][23]。建议在此基础上建立面向设备商、云服务商、运营商和智算平台的测评认证体系,将安全机制支持、监测能力、审计接口和小范围试运行回滚能力纳入采购和入网条件。
在政策工具上,建议形成基线要求、试点示范、采购牵引、协同通报、开源和人才五类组合工具,而非依赖单一行政要求。

围绕协同机制,建议建立三类常态化平台。第一类是监管与行业平台,负责发布年度基线、监测统计和试点评估。第二类是运营与技术平台,负责路由监测数据共享、事件联动、工具互通和测评认证。第三类是学术与标准平台,负责异常数据集、仿真平台、模型安全验证以及国际标准提案。上述平台建设应以国家路由安全路线图、NIST测试工具、我国RPKI验证系统技术要求和现有BGP测量研究为基础[16][17][18][19][20][21]。
04
参考文献
[1] 工业和信息化部等六部门.《算力基础设施高质量发展行动计划》.2023.
[2] 中国信息通信研究院.《新一代智能终端蓝皮书(2024年)》.2024.
[3] 中国信息通信研究院.《云计算蓝皮书(2025年)》.2025.
[4] 国家互联网信息办公室.《关于发布2025年生成式人工智能服务已备案信息的公告》.2026.
[5] Qian K,Xi Y,Cao J,et al.Alibaba HPN:A Data Center Network for Large Language Model Training.ACM SIGCOMM,2024.
[6] Gangidi A,Miao R,Zheng S,et al.RDMA over Ethernet for Distributed AI Training at Meta Scale.ACM SIGCOMM,2024.
[7] Kastanakis S,Giotsas V,Livadariu I,Suri N.Investigating Location-aware Advertisements in Anycast IP Networks.ACM ANRW,2024.
[8] Chen Y,Yin Q,Li Q,et al.Learning with Semantics:Towards a Semantics-Aware Routing Anomaly Detection System.USENIX Security,2024.
[9] Holterbach T,Alfroy T,Phokeer A,Dainotti A,Pelsser C.A System to Detect Forged-Origin BGP Hijacks.USENIX NSDI,2024.
[10] Wang C,Scazzariello M,Farshin A,Ferlin S,Kostić D,Chiesa M.NetConfEval:Can LLMs Facilitate Network Configuration?Proceedings of the ACM on Networking,2024.
[11] Mendoza JR,Ocampo R.Evaluating LLMs for BGP Configuration Tasks.AINTEC,2025.
[12] Snijders J.RPKI’s 2024 Year in Review.RIPE Labs,2025.
[13] Gouda D,Fontugne R,Testart C.ru-RPKI-ready:the Road Left to Full ROA Adoption.ACM Internet Measurement Conference,2025.
[14] Azimov A,Bogomazov E,Bush R,Patel K,Sriram K.RFC9234:Route Leak Prevention and Detection Using Roles in UPDATE and OPEN Messages.IETF,2022.
[15] National Institute of Standards and Technology.Border Gateway Protocol Security and Resilience,SP800-189 Rev.1 Initial Public Draft.2025.
[16] National Institute of Standards and Technology.NIST Releases Test Tools to Accelerate Adoption of Emerging Route Leak Mitigation Standards.2025.
[17] The White House Office of the National Cyber Director.Roadmap to Enhancing Internet Routing Security.2024.
[18] YD/T4572-2023.《互联网码号资源公钥基础设施(RPKI)依赖方技术要求》.工业和信息化部主管,中国通信标准化协会归口,2023,2024年实施.
[19] Alfroy T,Holterbach T,Krenc T,Claffy KC,Pelsser C.The Next Generation of BGP Data Collection Platforms.ACM SIGCOMM,2024.
[20] Krenc T,Hariprasad S,Luckie M,Donnet B,Claffy KC.Towards Understanding City-Level Routing using BGP Location Communities.Proceedings of the ACM on Networking,2025.
[21] Wu W,Bischof ZS,Testart C,Dainotti A.Replication:A Two Decade Review of Policy Atoms.ACM Internet Measurement Conference,2025.
[22] Yang Y,et al.RoLL+:Real-Time and Accurate Route Leak Locating With AS Triplet Features.IEEE/ACM Transactions on Networking,2024.
[23] Zeng M,Li D,Zhang P,Xie K,Huang X.Federated Route Leak Detection in Inter-domain Routing with Privacy Guarantee.ACM,2023.
[24] 国家互联网信息办公室、国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局.《生成式人工智能服务管理暂行办法》.2023.
[25]《中华人民共和国个人信息保护法》.2021.
[26]《中华人民共和国数据安全法》.2021.
[27]《互联网信息服务算法推荐管理规定》.2022.
[28] Huston G.BGP in 2025.APNIC Blog,2026.
[29] Huston G.BGP Update Activity in 2025.Potaroo/APNIC,2026.
声明:本文来自赛博新经济,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。