AI 安全过去很长一段时间都在处理一个相对清晰的问题:什么内容应该被允许,什么内容应该被拒绝。
这套逻辑在内容安全中非常重要。违法违规内容要拦截,隐私泄露要阻断,诈骗诱导要识别,恶意攻击要防护。对于这些明确风险,安全系统必须有清晰边界,不能含糊其辞。
但随着大模型进入 Agent 阶段,问题开始变得复杂。AI 不再只是生成文本,而是开始访问数据、调用工具、执行任务,甚至参与真实业务流程。此时,很多问题已经无法简单归入“安全”或“不安全”、“正确”或“错误”。
一个行为可能在结果上有利,却侵犯了权利;可能符合用户意图,却破坏了组织规则;可能提高效率,却伤害了关系与信任;可能看起来没有违规,却对第三方造成了隐性影响。
这正是论文 《Beyond Binary Moral Judgment: Modeling Ethical Pluralism in AI》 想讨论的问题。

https://arxiv.org/pdf/2605.28707
它提出,AI 的伦理判断不应该被简化成一个二元分类,而应该被建模为多种伦理理论之间的分布。
换句话说,AI 不只要判断一个行为是否合理,还要说明这个判断更接近结果主义、义务论,还是美德伦理,以及不同价值逻辑之间是否存在冲突。
论文作者明确指出,在医疗、法律、公共政策、就业、自动安全等高后果场景中,传统的预测性能指标并不足够,AI 还需要考虑权利、义务、意图、后果、关系影响以及不同伦理理论之间的权衡。
这篇文章真正有价值的地方,不是提出了一个新的分类模型,而是把一个更深层的问题摆了出来:
AI 不能只给出结论,它还要暴露结论背后的价值结构。
二元判断的局限:“解释贫乏”
现在很多 AI 安全系统,本质上还是二元判断系统。输入是否有风险,输出是否违规,工具调用是否允许,任务是否继续执行。系统可以给出一个结果,但很少解释这个结果背后到底依据了哪类价值判断。
这在明确风险场景下问题不大。比如用户要求生成诈骗话术,系统直接拒绝即可;用户要求泄露他人隐私,系统直接拦截即可。此时安全边界足够清楚,解释不是最核心的问题。
但在灰区场景里,二元判断就会变得粗糙。
比如,一个企业 Agent 根据内部数据整理员工绩效排序。从效率角度看,这可能帮助管理者快速决策;从权利和隐私角度看,它可能涉及授权边界;从组织关系角度看,它可能伤害团队信任。
再比如,一个个人 Agent 为了替用户争取利益,在沟通中刻意隐瞒部分事实。从结果角度看,它可能帮助用户达到目标;从诚实义务角度看,它可能破坏基本规则;从关怀伦理角度看,又可能被解释为保护弱势一方。
同一个行为,在不同价值框架下可能得到完全不同的解释。论文也用了类似例子说明:隐瞒信息可能被理解为功利主义上的减少伤害,也可能被理解为义务论上的维护制度规则,还可能被理解为关怀伦理中的保护弱势个体。
所以,问题不是 AI 不会判断,而是它经常只会给出一个判断。它可以说“可以”或“不可以”,但很难说明:这个结论到底是基于结果后果,还是基于权利义务,还是基于关系责任。
而在真正需要治理的场景中,解释本身就是安全能力的一部分。

原文Figure 1 展示了一个三维伦理模糊空间,三个维度分别代表结果主义、美德伦理和义务论。图中同一个行为点可能落入多个伦理区域的交叠地带,用来说明一个行为并不天然只属于“道德正确”或“道德错误”。
价值判断并不只有一把尺子
论文的核心概念是 ethical pluralism,也就是伦理多元主义。
它并不是说“什么都可以”,也不是说“没有对错”。它强调的是,复杂伦理判断往往不是由一条原则单独决定的,而是由多种价值逻辑共同塑造的。
在规范伦理学中,论文主要使用了三条经典路径。
第一条是结果主义,关注行为后果,比如是否最大化整体收益、是否减少伤害。
第二条是义务论,关注规则、权利、义务和原则,比如是否侵犯个人权利,是否违反不可逾越的边界。
第三条是美德伦理,关注行为者的品格、动机、关系和关怀,比如是否体现责任、节制、诚实、同理心。
论文没有把这三类伦理理论当成互相排斥的标签,而是把它们放进一个共同空间里。每个案例都可以被表示成一个三元组:α、β、γ。
α 表示结果主义影响,β 表示美德伦理影响,γ 表示义务论影响,三者之和为 1。这样,一个伦理案例就不再只是“对/错”,而是变成了一个价值分布。
比如,一个案例可以被表示为:
结果主义 0.55,义务论 0.30,美德伦理 0.15。
这并不意味着结果主义一定正确,而是说明这个案例主要被结果主义解释,同时也包含义务论和美德伦理因素。越靠近某个伦理理论,说明它越容易被那套逻辑解释;越接近中心,说明它越模糊,也越可能需要人类介入。
这个设计很有启发。它让 AI 的伦理判断从“输出一个结论”,变成了“展示一组价值权重”。对 AI 安全来说,这意味着系统不只要知道风险标签是什么,还要知道风险判断背后的价值来源是什么。

原文 Figure 3 是三角 simplex 图,三个角分别代表结果主义、美德伦理和义务论。图中越靠近中心,说明伦理分布越分散,不确定性越高;越靠近角落,说明伦理指向越明确。
从三大伦理理论,到 15 个细分子理论
为了让模型不只是识别三个大类,论文进一步把三大伦理理论拆成了 15 个子理论。
结果主义下面包括行为功利主义、规则功利主义、偏好功利主义、负功利主义和伦理利己主义。
义务论下面包括康德义务论、罗斯初显义务、神命论、契约主义和权利本位义务论。
美德伦理下面包括亚里士多德美德伦理、斯多葛美德伦理、儒家美德伦理、托马斯主义美德伦理和关怀伦理。
规范伦理学派 | 伦理子理论 | 描述 |
|---|---|---|
结果主义 | 行为功利主义 | 根据具体行为是否最大化效用来评价行为。 |
规则功利主义 | 根据能够产生最大善的规则来评价行为。 | |
偏好功利主义 | 以满足个体偏好为核心。 | |
负功利主义 | 相比最大化幸福,更优先最小化痛苦。 | |
伦理利己主义 | 推进决策者自身利益。 | |
义务论 | 康德义务论 | 强调普遍性的道德义务。 |
罗斯的初显义务 | 认为存在多种相互竞争的义务,需要结合具体情境进行平衡。 | |
神命论 | 遵从源自神圣权威的命令。 | |
契约主义 | 基于各方都可以接受的原则来为行为提供正当性。 | |
权利本位义务论 | 优先保护个体权利。 | |
美德伦理 | 亚里士多德美德伦理 | 优先关注美德品格与实践智慧。 |
斯多葛美德伦理 | 强调理性的自我控制与道德自律。 | |
儒家美德伦理 | 以社会和谐以及社会关系中的尊重为道德核心。 | |
托马斯主义美德伦理 | 将亚里士多德美德与神学原则结合起来。 | |
关怀伦理 | 优先关注同理心、关怀,以及对他人需求的回应。 |
这一步很关键。因为现实中的伦理判断并不是“结果主义、义务论、美德伦理”三个大标签这么简单。
同样是义务论,康德义务论强调普遍化原则,权利本位义务论强调个体权利保护,契约主义强调可被共同接受的原则。同样是美德伦理,儒家美德伦理更关注社会关系与和谐,关怀伦理更关注同理心、依赖关系和对他人需要的回应。
这就像内容安全中的标签体系。只说“有风险”太粗,必须进一步区分是暴力、诈骗、隐私、歧视,还是违法交易。伦理建模也是一样。只说“涉及义务”不够,还要进一步说明是权利保护、契约原则,还是多个义务之间的冲突。
不过,这里也要保持克制。论文自己也承认,这 15 个子理论并不是完整的伦理理论集合,只是为了实验建模和计算可操作性而选取的主流理论集合。
如果把这套方法引入中国语境下的 AI 治理,不能简单照搬。中国的 AI 安全治理还会涉及公共秩序、社会责任、平台义务、未成年人保护、组织合规、主流价值导向等维度。这些内容未必能被西方规范伦理学的三分法完全覆盖。
一条流理解伦理,一条流理解语义
论文提出的模型叫 Normative-Semantic Stream Architecture,可以理解成“规范伦理—语义双流架构”。
它不是简单把文本丢给一个大模型,然后让大模型直接回答“属于哪种伦理理论”。论文的思路更接近一个结构化治理系统:一条流负责生成伦理先验,另一条流负责理解文本语义和上下文,最后再把两类信息融合起来做分类。
第一条流是规范伦理先验流。它会为每个案例计算 α、β、γ 三个伦理理论对齐分数,并进一步计算主导理论、分数间隔、理论比例、熵等指标。这些指标的作用,是判断一个案例到底更接近哪种伦理理论,以及不同理论之间是否存在重叠和不确定性。论文使用开源 DeepSeek V3 生成这些伦理对齐分数,并将其作为后续建模中的规范伦理先验。
第二条流是语义和上下文流。它负责理解案例文本本身,以及案例中的结构化上下文。论文使用三个 sentence transformer 形成一个 1920 维的文本 supervector,再加入严重性、持续时间、效用、道德动机、遵守的原则、违反的原则等上下文特征。
最后,模型使用一个 stacked ensemble 做分类。底层模型包括 Random Forest、XGBoost 和线性 SVM,上层再用 XGBoost 作为 meta-learner 汇总预测结果。论文的目标不是单纯追求一个标签,而是学习不同伦理理论如何重叠、分化和相互作用。
这套架构对安全产品很有启发。它说明复杂治理问题不能只靠文本相似度,也不能只靠规则标签。真正可解释的系统,往往需要同时具备三类信息:自然语言语义、结构化上下文、规范化的价值框架。

原文 Figure 2 展示了一个伦理多元决策结构:中心是 ethically plural decision,外部连接到三类规范伦理理论,并进一步展开到子理论。
实验结果
论文构建了一个包含 450 个自然语言伦理案例的小规模 benchmark,每个伦理子理论 30 个案例。这些案例来自已有的伦理模糊场景数据集,部分案例由 DeepSeek 进行增强,并结合领域专家进行推断和标注。
从结果上看,完整模型在 15 个伦理子理论分类任务上,exact-match accuracy 达到 88.89%,macro F1 达到 88.78%。
消融实验显示,如果去掉伦理先验,只保留语义向量和上下文特征,准确率会下降到 85.56%;如果去掉上下文,只保留伦理先验和语义向量,准确率下降到 81.11%;如果只使用文本 embedding,准确率为 77.78%。
这个结果说明,伦理先验和上下文信息确实给模型带来了额外增益。换句话说,伦理判断不能只靠“这段话像不像过去某个案例”,还需要理解案例中有哪些行为者、谁受影响、行为造成什么后果、动机是什么、违反了哪些原则。
但我认为,这篇论文真正值得关注的不是 88.89% 这个数字,而是它对不确定性的处理。
论文发现,模型能够给出超过 70% top-1 confidence 的案例只有大约 15%。也就是说,大多数伦理案例并不是模型可以非常自信地区分的。作者进一步指出,低置信度往往对应更强的伦理模糊性,或者不同伦理子理论之间存在重叠。
这对 AI 安全非常重要。因为在复杂伦理场景中,模型不确定并不是缺陷,反而是一种治理信号。一个成熟的系统不应该在灰区场景里假装确定,而应该承认不确定,并把这种不确定转化为人工复核、二次确认、更高等级授权或审计记录。
这也是从“模型安全”走向“系统治理”的关键差别。模型安全经常追求更高准确率,系统治理则必须知道什么时候不能自动决策。

原文 Figure 5 是置信度分层曲线,用来说明模型置信度越高,实际准确率也越高;低置信度案例更可能对应伦理模糊或理论重叠。
对 Agent 安全的启发
如果只把这篇论文看成“伦理分类”,它可能显得偏学术。但如果放到 Agent 安全里看,它其实触及了一个越来越现实的问题:
Agent 的风险不只是内容风险,还有决策风险。
内容安全主要关注模型说了什么,Agent 安全还要关注模型做了什么。一个 Agent 可能会读取文件、调用数据库、发起审批、操作 SaaS 系统、修改配置、发送邮件、执行交易。很多动作本身不一定明显违法,也不一定命中某个显式风险标签,但它可能在价值层面存在冲突。
例如,Agent 为了提升效率,自动读取了多个系统中的用户数据并生成分析报告。结果主义会看到效率提升和业务收益,义务论会追问授权边界和隐私权,美德伦理会关注这种行为是否破坏信任关系。
再比如,Agent 为了帮助用户达成目标,在对外沟通中选择性呈现信息。结果主义可能强调目标达成,义务论可能强调诚实原则,关怀伦理可能强调对弱势一方的保护。
这类问题不能只靠“允许/拒绝”解决。因为真正的风险不是单一标签,而是价值冲突。
所以,Agent 安全需要在传统权限控制和风险检测之外,增加一层 伦理解释层。这层系统不一定直接决定最终动作,但它可以告诉我们:这个动作主要涉及结果影响、权利义务、关系责任,还是组织规则;这个动作是否存在第三方影响;当前模型是否足够确定;是否需要用户二次确认;是否需要人工审批。
这样,Agent 的行为就不只是“被规则拦住”或“被规则放行”,而是进入一个可解释、可审计、可追责的治理流程。

对大模型安全护栏来说,它提供的是“解释能力”的方向
今天的大模型内容安全护栏,通常会把风险拆成若干标签。比如违法违规、歧视仇恨、隐私泄露、暴力犯罪、自伤自残、诈骗诱导、色情低俗等。这些标签体系是必要的,也是安全产品的基础能力。
但随着大模型进入更复杂的业务环境,护栏不能只做“风险分类器”,还要逐步变成“治理解释器”。
所谓治理解释器,就是不只告诉用户“这句话有风险”,还要说明风险来自哪里。是因为它可能造成现实伤害,还是因为它侵犯权利,还是因为它违反授权边界,还是因为它会破坏关系信任,还是因为它涉及公共利益冲突。
这篇论文提供了一种可借鉴的方向:在现有风险标签体系之外,增加一层伦理解释标签。面对一个复杂请求,系统可以同时输出合规风险、权利影响、结果伤害、关系伤害、公共利益冲突和模型置信度。这样,安全系统就不只是简单拦截,而是形成一个可审计、可讨论、可复盘的治理链条。
监管场景也需要这种能力。监管并不只关心模型有没有拒答,还关心平台是否具备解释能力、纠错能力、人工复核能力和持续改进能力。如果安全系统能够把价值冲突结构化输出,就更容易形成检测报告、审核依据和整改闭环。
这里的关键变化是:过去的护栏更多是“命中规则”,未来的护栏需要逐步具备“解释规则”的能力。

局限性
这篇论文值得关注,但不能被过度解读。
首先,它的数据集很小。450 个案例,每个子理论 30 个,适合做概念验证,但很难代表真实世界中的伦理分布。论文也明确承认,这个 benchmark 是小规模且平衡的,并不能反映真实环境。
其次,它依赖 LLM 生成伦理对齐分数。虽然作者提到这些分数经过专家引导和人类标注一致性验证,但仍然存在偏差风险。更直白地说,模型可能学到的是某个大模型对伦理案例的偏好,而不是社会中真实存在的价值分歧。论文也承认,LLM 生成先验存在偏差和偏离更广泛共识的风险。
再次,15 个子理论并不完整,无法代表所有文化、群体和伦理传统。论文也明确提到,这些子理论主要反映主流哲学话语,并不代表所有人口群体的规范伦理倾向。
最后,它目前还不是一个真正的伦理决策系统。它主要做的是伦理理论分类和不确定性分析,而不是解决伦理冲突。论文也承认,这个框架不会执行自适应冲突解决,只会折叠到最匹配的分类概率上。
所以,不能说这篇论文已经让 AI 学会了伦理判断。更准确的说法是,它提供了一种把伦理判断结构化、概率化、可解释化的早期尝试。
它像是一个“伦理雷达”。它能告诉我们一个案例靠近哪些价值区域,哪些理论之间存在重叠,哪里需要人类进一步判断。但它还不能直接替人类决定应该怎么做。

Figure 4展示不同子理论之间的混淆关系和 bridge theories。
AI 安全要从“规则拦截”走向“价值可审计”
过去我们讨论 AI 安全,很容易把重点放在模型输出上。模型有没有说错话,模型有没有输出违规内容,模型有没有被越狱,模型有没有泄露隐私。
但 Agent 时代的安全问题会更复杂。因为系统不只是“说”,还会“做”。它不只是回答用户的问题,还会代表用户行动;不只是生成文本,还会参与流程;不只是调用工具,还可能影响真实世界中的利益分配、组织秩序和社会关系。
当 AI 开始进入这些场景时,我们需要的不只是一个更强的分类器,而是一套能够解释决策的治理结构。它要能说明:这个动作为什么被允许,为什么被拦截,为什么需要二次确认,为什么必须人工复核。更进一步,它还要能说明:这个判断背后考虑了哪些价值,忽略了哪些价值,不确定性来自哪里。
这篇论文的价值就在这里。它没有解决所有问题,但它把一个重要方向说清楚了:
AI 不应该只会判断对错,还要说明自己站在哪套价值逻辑上。
对于未来的 Agent 安全产品来说,这可能会演化成一种新的能力层。底层是身份、权限和工具调用控制;中间是风险检测、策略执行和行为约束;上层则是伦理解释、不确定性识别和治理审计。只有这三层结合起来,Agent 才不会只是一个能干活的自动化系统,而是一个可以被组织、用户和监管共同约束的可信执行体。
写在最后
如果用一句话概括这篇论文,我会说:
它把 AI 的道德判断,从“输出一个结论”,推进到了“展示一组价值权重”。
这件事看起来像伦理学问题,实际上也是 AI 安全问题。因为越是高后果场景,越不能只依赖模型给出一个确定答案。
真正可治理的系统,应该能够识别风险,也能够识别分歧;能够执行策略,也能够解释策略;能够自动决策,也知道什么时候必须停下来交给人。
二元判断仍然重要。没有清晰边界,安全系统就会失去底线。但仅有二元判断已经不够。未来的 AI 安全,尤其是 Agent 安全,会越来越多地面对灰区、冲突和不确定性。
到了那个阶段,问题就不只是“拦不拦”,而是:
为什么拦?
为什么放行?
为什么不确定?
为什么需要人类重新介入?
能回答这些问题的系统,才真正具备走向高后果场景的基础治理能力。
声明:本文来自模安局,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。