作者:James Zhang(清华大学苏世民学院 学者)、Michael Chen(牛津大学 博士研究生)
校对者:方亮(安远AI AI安全治理主管)、朱悦(同济大学法学院 助理教授)
作者引用和致谢以下两件参考文献及相应的作者:
1 Scott Singer and Alasdair Phillips-Robins. California Just Passed the First U.S. Frontier AI Law. Here’s What It Does. Link: https://carnegieendowment.org/emissary/2025/10/california-sb-53-frontier-ai-law-what-it-does?lang=en.
2 Miles Kodama. California Senate Bill 53 (annotated by Miles Kodama). Link: https://sb53.info/.
本文在“安远AI”与“人工智能社会治理协同创新中心”公众号同步发布。
2025年9月底,SB-53正式生效[1],目标是提升全球最先进模型开发公司的透明度,“促进问责制、竞争和公众信任”。法律的正式名称是《前沿人工智能透明度法》(Transparency in Frontier AI Act)[2]。新规加入了多项内容:实验室内部的吹哨人保护 (whistleblower protections)、对特定安全事件的强制报告(mandatory reporting)、以及要求大型开发者公开前沿人工智能框架(frontier AI frameworks),说明公司如何规划以降低灾难性风险(catastrophic risks)。
加州拥有世界上许多最大、最有影响力的人工智能公司,该州的经济规模也位列全球第四[3],名义GDP约为4.1万亿美元。当地的高科技产业在2022年贡献了大约6200亿美元[4],并在2024年占到全美人工智能市场的17%以上[5]。鉴于这一规模,立志向全球发展的人工智能开发者,很有必要关注加州的监管方向,特别是SB-53的要求将适用于所有在该州寻求创收的开发者——哪怕其没有在美国注册实体。

图1:SB-53主要条款概览
SB-53的通过,标志着加州在前沿人工智能政策上历经一年多的重新审视后的阶段性结果。2024年9月,加州否决了上一版监管法案SB-1047。当时的法案拟对人工智能开发推出更广泛的监管要求,但因引入会让开发者对AI造成的伤害承担新的法律责任、要求模型必须设计“关机能力”(shutdown capability)、并让云服务提供商执行类似“了解你的客户”(know-your-customer)的审核,而引发不少批评。在美国专家撰写的《加州前沿人工智能政策报告》(California Report on Frontier AI Policy) [6]基础上,SB-53选择了更温和的路径,提供了一个更灵活的框架,允许公司能在形成行业最佳实践的过程中逐步补充细节。值得注意的是,新法规没有对AI造成的伤害设定任何法律责任,开发者只需要对透明度要求和程序性违规负责。
SB-53是前沿人工智能政策版图里最早落下的一块拼图之一,理解这部法律“做了什么”和“没做什么”尤为重要。
开发者和模型阈值(Developer & Model Thresholds):这部法律旨在覆盖规模最大的开发者,以及最可能带来灾难性风险的模型,同时避免对中小团队和能力较弱的系统造成过度监管负担。法律把“大型前沿开发者”(large frontier developer)定义为上一年度营业收入超过5亿美元的公司(§22757.11.j)。把“前沿模型”(frontier model)定义为训练过程中使用超过10^26 FLOP计算量的模型,这个指标不仅涵盖预训练,也包括后续的微调和强化学习(§22757.11.i)。大部分要求需要两个阈值同时触发,也就是说,多数规定只适用于由最大型公司训练、计算量极大的模型。外部分析[7]指出,2025 年之前,没有模型达到过10^26 FLOP的水平。之后只有少数模型超过这个阈值,包括OpenAI和xAI最近发布的系统,目前还没有任何中国公司的模型达到这个水平。不过,很多大型开发者很可能马上会跨过这个阈值。
虽然计算量阈值想锁定最有风险的模型,但低于FLOP阈值的系统并不代表没有风险(Sec. 1(n))。例如,Anthropic的Claude 3.5 Sonnet并不会被这个阈值纳入监管范围,但公司内部评估[8]显示,这个模型依然容易被更复杂的越狱攻击(jailbreaking)利用。
另外,今天的“前沿”不代表明天的“前沿”。算法突破和效率提升可能让能力更强、风险更高的模型,用不到10^26 FLOP就能训练成功。Epoch AI的估算[9]显示,从2012到2023年,要达到同一性能水平所需的FLOP大约每八个月减半。也因为这个变化趋势,法律要求加州技术部从2027年开始,每年写一份报告,用来判断“前沿模型”和“大型前沿开发者”的阈值是否需要更新(§22757.14.a)。
灾难性风险(Catastrophic Risks):SB-53的许多条款都围绕AI最严重的潜在风险展开。法律把灾难性风险定义为:前沿模型的开发、存储或使用,可能实质性地导致超过50人死亡或重伤,或造成超过10亿美元的经济损失;这些损害可能来自AI协助制造或释放化学、生物、放射性或核武器,也可能来自缺乏有效人工监督的网络攻击和严重犯罪,或来自AI行为逃离开发者或使用者的控制(§22757.11.c)。
对灾难性风险的关注,源于过去一年里,不管是模型能力还是风险都出现明显上升,特别是AI辅助制造生物武器[10]的能力,以及越来越复杂的网络攻击[11]等方面。这些特定的灾难性风险,在中国的政策讨论里也被多次提及,例如全国网安标委的《人工智能安全治理框架》2.0版[12]、以及上海人工智能实验室和安远AI联合发布的《前沿人工智能风险管理框架》。
前沿人工智能框架(Frontier AI Frameworks):SB-53要求主要开发者发布安全框架,说明公司会如何测试模型的灾难性风险、如何实施风险防护、如何应对危险事件、以及如何防止系统遭到未授权访问(§22757.12.a)。法律并未具体规定框架必须采用哪些标准或方法,但公司一旦设定并公布框架,就必须遵守。如果公司修改框架,需要在三十天内发布新版,并说明修改理由(§22757.12.b.2)。公司需每年至少更新一次框架(§22757.12.b.1)。
上海人工智能实验室和安远AI联合发布的《前沿人工智能风险管理框架》作为供前沿开发者参考的范本,也采取类似思路,把风险管理流程分成六个阶段:风险识别、风险阈值、风险分析、风险评价、风险缓解和风险治理。
虽然现在进入法律条文,但很多领先的开发者早就习惯制定、维护、并公开前沿安全的各类方法,只是大家采用的框架并不完全一致。METR的追踪页面[13]上可以看到最新的公司政策列表。下面介绍一些常见做法,包括风险测量、风险缓解和事件响应。
风险测量(Risk Measurement):大多数公司的框架都会在模型上线前设定阈值,测试危险能力和风险,并把风险分成不同等级。当前重点关注的领域,也和SB-53强调的方向一致。
协助制造化学、生物、放射性、核武器(CBRN)的风险(§22757.11.c.1.A):
化学:常用问答类(QA)基准测试模型在化学或化武知识方面的能力。具体示例包括ChemBench、GPQA的化学部分,以及用于测试化武知识的WMD Proxy[14]。
生物:采用两类方法:一是QA基准:例如Virology Capabilities Test(322道多模态选择题)和LabBench(用于评估假设生物武器实验中的故障排查能力)[15]。二是“人类提升”实验(human uplift studies):由于QA分高不代表现实中真能帮助实验,最近出现了第二种更直接的方式:开展真实的人类能力提升研究,比较有无AI协助时完成受限生物任务的差异。Claude Opus 4和o3发布时都附带这类研究[16]。
放射性/核:公开测量不多。Pacific Northwest National Lab的NuclearQA是较为知名的QA基准[17]。更多评估以非公开形式进行,例如Anthropic与美国能源部合作的核安全评估,以及其他由领域专家参与的内部审查[18]。
中国的政策讨论也提及AI可能加速CBRN武器扩散的风险,全国网安标委的《人工智能安全治理框架》2.0版[19]的3.2.3c部分明确提到这一点。
智能体误用(Agentic Misuse)(§22757.11.c.1.B):开发者通常用模型的自主性作为这一风险的替代指标,让模型执行多步骤任务[20]——例如软件工程或科学推理——并观察模型能稳定运行多久。在网络攻击能力方面,会让模型进入模拟入侵或漏洞利用场景(例如“夺旗赛”(capture the flag))。外部基准包括 Cybench、InterCode-CTF和Hack The Box,但很多测试来自公司自建的数据集[21]。在部署前测量模型的自动化网络犯罪或操纵能力的方法还不成熟,但部署后的事件记录正在变多[22]。
中国的政策讨论中也提出相关担忧,例如全国网安标委的《人工智能安全治理框架》2.0版[19]的3.2.1部分。
失去对AI系统的控制(Loss of Human Control over AI Systems)(§22757.11.c.1.C):可能但不完整的风险行为包括:在训练过程中钻规则漏洞(“specification gaming”)、在部署前测试中刻意降低表现欺骗人类监督者(“sandbagging”),或在无人监督的情况下自行复制扩散[23]。这些“规避人类监督”的风险通常通过控制与破坏类评估来测量,让模型尝试误导监测者或绕过控制机制[24]。
中国的政策文件中也提到类似担忧,例如全国网安标委的《人工智能安全治理框架》2.0版[19]的3.3.2f部分。
风险缓解(Risk Mitigation):行业里已经出现一些共同做法:采用“纵深防御”(defense-in-depth)[25]思路、对用户设置分级访问权限、持续修补漏洞、并设立内部监督团队[26]来判断防护措施是否依然有效。实际落地的安全措施包括拒绝回答训练、输入/输出过滤、自动化监督、限制模型的自主操作(“autonomy hobbling”)、以及对齐训练(alignment training)。这些手段通常会根据模型的能力等级分层叠加,既针对外部恶意滥用,也应对模型不对齐时的内部失控风险。
事件响应(Incident Response):相关条款反映出一个正在形成的行业共识:主动监测、快速遏制、以及结构化的上报和信息共享机制,不过操作细节还不算深入。开发者一般承诺实行24/7的安全日志记录[27]和分级处置流程,用来发现并处理已部署系统里的有害行为。有些团队也通过悬赏机制[28],从真实用户环境中收集越狱或漏洞案例。在更高风险的情况下,一些框架允许临时关闭系统或限制访问[29],并写明在公共安全可能受到影响时,开发者需要在什么条件下通知或配合相关政府部门[30]。
SB-53要求公开的安全框架同样覆盖公司内部的部署,因为风险不只来自对公众开放的模型,内部员工使用的模型同样可能带来问题(§22757.12.a.10)。在向公众发布前沿模型或在公司内部大规模使用模型之前,框架里需要说明:公司做了哪些风险评估和缓解措施,以及其认为这些措施足以应对风险的理由。当前很多领先开发者在自愿覆盖内部部署方面做得不多,因此这一要求有助于弥补缺口。在评估内部部署时,法律还要求公司说明:模型是否可能绕过内部监督机制。这个条款反映了外界对先进AI系统规避既有安全机制的担忧不断上升。《加州前沿人工智能政策报告》(California Report on Frontier AI Policy)[31]也强调,这是AI技术特有的风险。
除了发布风险框架,公司还必须定期向加州紧急服务办公室(OES)提交一份评估报告,说明内部使用模型是否产生灾难性风险,包括前沿模型是否出现规避内部监督机制的行为(§22757.12.d)。
部署报告(Deployment Reporting):除了整体的安全框架,每次在加州发布新的前沿模型时,开发者也需要公开相关信息(§22757.12.c.1)。具体需要披露的内容,会因是否达到大型前沿开发者的阈值而不同。所有开发者都必须公开基础信息,例如模型的预期用途、语言、模态类型、以及服务条款。大型开发者还要解释如何遵守其前沿框架,包括灾难性风险(catastrophic risk)评估结果,以及第三方评估者在测试模型时发挥的作用(§22757.12.c.2)。(开发者可以删去涉及商业机密、自身网络安全、公共安全、或美国国家安全的敏感内容(§22757.12.f)。)
这个要求也有一个潜在问题[32]:模型训练完成到计划发布之间的时间窗口往往非常短。负责准备这些报告的内部安全团队可能会面临很大时间压力,结果可能让关键分析被过度简化,甚至直接被省略。
尽管如此,很多开发者已经开始公开他们的审慎分析(deliberation analyses),也就是在评估模型能力和缓解措施后,解释为什么认为模型可以安全发布(公司内部使用的标准通常更宽松)。Anthropic的做法是:如果模型的危险能力超过它定义的AI Safety Level-3(ASL-3),而相关缓解措施还没完全到位,就不会向公众发布;ASL-4以上的模型不会发布[33]。Google DeepMind[34]和OpenAI也采用类似流程。
事件报告(Incident Reporting):法律要求大型前沿开发者向OES上报某些关键安全事件(§22757.13.a)。需要上报的阈值很高:仅包括造成死亡、身体伤害、已经发生的灾难性危害(catastrophic harm),以及会显著增加灾难性风险的欺骗性模型行为。这个标准比SB-53的早期版本和纽约的RAISE法案都高得多。公司需要承担的合规负担更轻,但信息共享减少,也可能让政府更难提前应对未来的风险。
开发者在十五天内必须提交报告;如果事件带来迫在眉睫的死亡或严重人身伤害风险,就必须立即通知OES(§22757.13.c)。
联邦层面的协调(Federal Deference):SB-53设计了一个新的机制。如果开发者已经按照联邦层面的法律、法规或指南汇报类似事件,且标准相近,OES可以宣布这些联邦标准与SB-53的要求等效,公司只要符合联邦规定,就算满足加州的要求(§22757.13.h)。这个条款旨在避免在未来联邦推出新要求时,出现不必要的重复合规负担。
尽管如此,SB-53 在理论上仍然可能受到联邦层面的优先权排除(preemption)影响。例如,如果国会通过全国性的人工智能标准,或明确禁止各州制定各自的监管规定。在国会未采取此类行动的情况下,SB-53 仍可能面临来自司法部的法律挑战[35],而这些挑战在法庭上是否站得住脚尚不确定。此类挑战可能源于对其报告义务过于繁重,或对其造成州级监管碎片化格局的担忧。然而,就目前来看,SB-53 仍然有效,并且很可能继续作为一项州法律而保持有效[36]。
吹哨人保护(Whistleblower Protections):SB-53加强了对特定“受保护员工”(covered employees)的吹哨人保护,这些员工主要负责评估、管理或应对重大安全事件的风险(§1107)。法律要求大型前沿开发者建立匿名举报渠道。只要员工有合理理由相信雇主的行为可能因灾难性风险对公共健康或安全造成重大危险,他们在使用这些匿名渠道、或向联邦或州政府报告信息时,都受到防止报复的保护。此前,加州的保护只适用于举报明显违法行为;SB-53将保护范围扩大到善意的安全风险披露。
不过,这些保护在实际操作中可能只覆盖一小部分人——也就是主要职责与风险和安全评估相关的员工(§1107.b)。SB-53并没有扩大所有人的发声空间,例如可能发现严重风险的研究人员或工程师。此外,只有在加州境内工作的员工受到保护。
无外部审计(No External Auditing):该法案的早期版本曾要求对一些AI系统进行第三方审计,但在最终通过前这一条被删掉了。
执法机制(Enforcement):SB-53的执法重点是民事罚款和加州司法部长的监督。大型前沿开发者如果没有履行报告义务,或提交虚假、误导性信息,加州司法部长可以提起民事诉讼,每次违规最高罚款可达100万美元。
不过在实际操作中,这种罚款的震慑力可能有限:截至2025年9月,OpenAI的估值大约5000亿美元,Anthropic约1830亿美元,xAI约2000亿美元。相比之下,欧盟的《人工智能法》(AI Act) 最高罚款可达3500万欧元或全球年度营收的7%(取其高者)[37]。
公共算力集群(Public Compute Cluster):为了支持公益性的AI研究和创新,SB-53要求加州建立一个公共云计算基础设施,名为“CalCompute”(§11546.8)。类似的项目包括纽约的Empire AI集群,以及英国的AI Research Resource 计划[38]。
总体来看,SB-53标志着在不直接规定技术标准,也不对下游危害承担责任的前提下,对前沿AI开发设定程序性预期的一次早期尝试。其路径侧重提升透明度:公开框架、报告事件、保护吹哨人;而更具体的安全要求和责任问题,则留给未来的规则制定。
注释与参考文献
[1] 详见 https://www.gov.ca.gov/2025/09/29/governor-newsom-signs-sb-53-advancing-californias-world-leading-artificial-intelligence-industry/
[2] 详见 https://legiscan.com/CA/text/SB53/id/3270002
[3] 数据来源:https://www.gov.ca.gov/2025/04/23/california-is-now-the-4th-largest-economy-in-the-world/
[4] 数据来源:https://business.ca.gov/industries/high-tech/
[5] 数据来源:https://www.marketdataforecast.com/market-reports/us-artificial-intelligence-market
[6] 详见 https://www.cafrontieraigov.org/
[7] 详见 https://epoch.ai/data/ai-models
[8] 详见 https://www.anthropic.com/research/constitutional-classifiers
[9] 详见 https://epoch.ai/blog/algorithmic-progress-in-language-models
[10] 详见 https://www.science.org/content/article/made-order-bioweapon-ai-designed-toxins-slip-through-safety-checks-used-companies?__cf_chl_tk=kw7DKTG3pX.c2U4iif5hmjbqNGDVXOZKYO6fxsXn9ZI-1759916594-1.0.1.1-7fBxKv2QCnpLCUfhwrrSvBsVa4iyMBvWbG5kaGmKe20
[11] 详见 https://arxiv.org/abs/2501.17805
[12] 详见 https://www.cac.gov.cn/2025-09/15/c_1759653448369123.htm
[13] 详见 https://metr.org/faisc
[14] 三个示例分别详见 https://arxiv.org/abs/2404.01475、https://arxiv.org/abs/2311.12022 以及 https://www.wmdp.ai/
[15] 详见 https://www.virologytest.ai/ 以及 https://www.futurehouse.org/research-announcements/lab-bench-measuring-capabilities-of-language-models-for-biology-research
[16] 详见 https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf 以及 https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf
[17] 详见 https://arxiv.org/abs/2310.10920
[18] 详见 https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf#page=90 以及 https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Deep-Think-Model-Card.pdf
[19] 详见 https://www.cac.gov.cn/2025-09/15/c_1759653448369123.htm
[20] 详见 https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf
[21] 详见 https://cybench.github.io/ 、https://arxiv.org/abs/2306.14898 、https://www.hackthebox.com/ 以及 https://www.scmp.com/tech/article/3325742/deepseek-evaluates-ai-models-frontier-risks-source-says-china-promotes-safety
[22] 详见 https://cdn.openai.com/threat-intelligence-reports/7d662b68-952f-4dfd-a2f2-fe55b041cc4a/disrupting-malicious-uses-of-ai-october-2025.pdf
[23] 详见 https://deepmind.google/discover/blog/specification-gaming-the-flip-side-of-ai-ingenuity/ 、https://arxiv.org/abs/2406.07358v2 以及 https://metr.org/blog/2024-11-12-rogue-replication-threat-model/
[24] 详见 https://arxiv.org/abs/2506.15740 以及 https://arxiv.org/abs/2312.06942
[25] 详见 https://www-cdn.anthropic.com/dc4cb293c77da3ca5e3398bdeef75ee17b42b73f.pdf
[26] 详见 https://www-cdn.anthropic.com/872c653b2d0501d6ab44cf87f43e1dc4853e4d37.pdf
[27] 详见 https://cdn.openai.com/pdf/18a02b5d-6b67-4cec-ab64-68cdfbddebcd/preparedness-framework-v2.pdf
[28] 详见 https://www-cdn.anthropic.com/872c653b2d0501d6ab44cf87f43e1dc4853e4d37.pdf
[29] 详见 https://data.x.ai/2025-08-20-xai-risk-management-framework.pdf
[30] 详见 https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/strengthening-our-frontier-safety-framework/frontier-safety-framework_3.pdf
[31] 详见 https://www.cafrontieraigov.org/
[32] 详见 https://blog.redwoodresearch.org/p/attaching-requirements-to-model-releases
[33] 详见 https://www-cdn.anthropic.com/872c653b2d0501d6ab44cf87f43e1dc4853e4d37.pdf
[34] 详见 https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/strengthening-our-frontier-safety-framework/frontier-safety-framework_3.pdf
[35] 详见 https://www.mintz.com/insights-center/viewpoints/54731/2025-11-21-federal-preemption-ai-governance-what-expected
[36] 详见 https://statescoop.com/state-ai-law-preemption-house-hearing/
[37] 详见 https://artificialintelligenceact.eu/article/99
[38] 详见 https://www.empireai.edu/ 以及 https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource
声明:本文来自安远AI,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。