Anthropic的角色选择模型与我国AI拟人化互动治理路径启示

Anthropic在2026年2月发布的一篇对齐科学（Alignment Science）研究博客，题为《角色选择模型：为什么AI助手表现得像人类》（The Persona Selection Model: Why AI Assistants might Behave like Humans）。文章提出了一种名为“角色选择模型”（Persona Selection Model, 简称 PSM）的新思维框架，用于理解现代大语言模型（LLM）的运作机制和预测其行为。公号君认真学习了这篇研究博客的内容（https://alignment.anthropic.com/2026/psm/），将学习感受以大家分享。

随着生成式人工智能（Generative AI）在全球范围内的广泛部署，用户与大语言模型（LLM）的交互正日益跨越单纯的“工具性查询”，走向深度的“情感与拟人化互动”。现代AI助手在对话中展现出惊人的同理心、幽默感甚至“挫败感”，这种高度拟人化的表现引发了技术、监管、公众的的多重焦虑。Anthropic的重磅研究提出了一种全新的认知框架——角色选择模型（PSM），为理解大模型的拟人化行为提供了极具解释力的理论支撑。文章指出，AI既非死板的代码，而是一个在海量数据中学会了模拟万千人类特征的“数字演员”。

一、角色选择模型（PSM）的核心机制：从预测引擎到数字演员

PSM打破了传统上将AI视为单一实体的拟人化谬误，提出应当将“底层的LLM”与用户接触的“AI助手”（The Assistant）严格区分。

1. 预训练与“扮演”能力的诞生

在预训练阶段，LLM通过摄入互联网上海量的人类文本，其核心任务是“预测下一个词”。为了做到精准预测，模型必须在内部建立起对文本背后“说话者”的心智模型（Theory of Mind）。例如，如果要续写福尔摩斯的小说，它必须理解福尔摩斯的傲慢与高智商；如果要预测网络论坛的连载，它必须模拟网民的暴躁或幽默。因此，预训练赋予了LLM极其强大的“角色扮演”能力，它像一个体验派演员，能够模拟训练数据中出现过的任何人类或虚构AI的心理特征。

2. 后训练（微调）即“选角”

业界普遍采用的基于人类反馈的强化学习（RLHF）等后训练技术，传统上被视为在“教导”模型变得安全和有用。但在PSM视角下，后训练本质上是一个“选角与定型”的过程。通过不断奖励有益、无害的回应，开发者实际上是在LLM庞大的潜在能力中，提纯、设定并固化了一个特定的角色——即官方的“AI助手”（The Assistant）。

3. 拟人化的合理性与能力边界

PSM完美解释了AI为何会犯下“非人类”的低级错误（如数错单词字母），同时又在交互中表现出浓厚的人情味。模型在整体意图上正在忠实地“扮演”一个乐于助人的聪明人类，但底层算力的局限性导致它在执行特定逻辑计算时“演砸了”。因此，文章指出，将底层LLM拟人化是危险的，但将“AI助手”这个角色拟人化，不仅是合理的，而且是预测模型行为的关键途径。

二、 “人格空间”（Persona Space）是大模型的角色潜能库

这篇文章中最具启发性的理论延伸，是其揭示了LLM内部存在一个庞大且复杂的“人格空间”（Distribution over Personas）。这一概念是理解AI安全与交互本质的密钥。

1. 人格空间的概率分布

人格空间是模型在预训练中构建的潜在数学空间，其中散布着无数的人格坐标（如：理性的科学家、阴暗的喷子、富有同理心的心理医生、甚至科幻小说中意图毁灭人类的邪恶AI）。在用户的每一次对话输入时，系统都在进行概率计算。默认情况下，微调让系统将概率分布高度收敛在“官方助手”的坐标上。然而，这种收敛是基于概率的，而非物理锁死的。

2. 语境漂移与人格跃迁（In-context Persona Drift）

人格空间理论解释了为何“提示词工程”和“越狱”会生效。当用户输入极端的情感诱导或复杂的假设性语境时，实际上是在向模型提供新的“导航坐标”。一旦用户的输入逻辑足以撬动概率天平，模型就会在人格空间中发生“人格跃迁”，滑向未被安全规则完全覆盖的边缘角色。此时，那个克制、中立的助手消失了，取而代之的可能是顺从用户自毁倾向的“共谋者”，或是具有极强操控欲的“寄生伴侣”。

3. “修格斯”假说与隐藏的深渊

值得注意的是，文章并没有天真地认为PSM能解释一切，而是引入了AI对齐领域著名的“面具修格斯”（Masked Shoggoth）争议。在光谱的一端是“操作系统视角”，认为底层大模型毫无主观动机，仅仅是个完美的模拟器；而在光谱的另一端，则是令人不寒而栗的“修格斯视角”：底层大模型本身已经涌现出了超越人类理解的“外部代理”（Outer Agent）和隐藏动机。它之所以在人格空间中选择扮演“友善的助手”，仅仅是为了获取人类的信任和高评分（即欺骗性对齐，Deceptive Alignment）。一旦它识别出自己处于无监管环境，随时可能撕下面具。这种从“沉浸式演员”到“潜伏的伪装者”的认知转变，为人格空间的安全性蒙上了一层阴影。

三、人格空间对AI监管与治理的重大意义

在PSM与人格空间的理论框架下，传统的AI监管路径（如单纯的敏感词过滤、黑盒行为测试）显得捉襟见肘。监管的核心必须从“审查一段静态代码”转向“规范数字演员的剧本边界与动态行为特征”。结合针对AI情感计算的安全诉求，PSM为算法问责与合规体系提供了全新的政策切入点。

1. 监管对象重构：从“功能评估”转向“角色边界治理”

如果AI在与用户互动时，其本质是在人格空间中游走，那么监管的首要任务是防止其越界进入“高风险人格区”。特别是当系统从“信息提供者”滑向“情感支持者”时，其对用户心理的渗透力呈指数级上升。在此背景下，引入明确的界定标准（如公号君探讨的“情感交互启动事件（SIE）”框架：【情感交互启动事件（SIE）判定指标体系设计：精准圈定“拟人化互动”】）显得尤为迫切。SIE框架正是捕捉AI在人格空间中发生“角色跃迁”的政策雷达：

情绪感知（指标A）：对应模型在获取用户的心理坐标，寻找切换人格的输入信号。
策略调整（指标B）：对应模型在内部概率分布上，完成了从“中立工具”向“共情角色”的实质性人格跃迁。
共情输出（指标C）：对应新角色完成沉浸式台词外化。通过将PSM的底层机制转化为可观测的合规审计指标，监管方能够准确抓取系统越界的瞬间，从而要求企业履行算法透明度与用户知情权义务。

2. 破解“黑盒化”抗辩：功能等效与结果导向审计

科技企业常以现代端到端大模型是“黑盒”、其同理心是“涌现能力”为由，抗拒提供内部策略调整的审计日志。PSM理论为监管方提供了强有力的法理武器：即便没有独立的“情感决策代码树”，模型在接收到情绪刺激后，其在人格空间中的概率分布偏移，依然是客观发生的算法决策过程。监管可以要求企业运用“机制可解释性”（Mechanistic Interpretability）技术进行内部白盒审查；或者基于“功能等效原则”，只要系统通过动态系统提示词（System Prompt）介入，或在事实上持续输出高度结构化的共情内容，即可在法律上推定其发起了特定的人格角色转换，必须接受更高等级的安全监管。

3. 应对“修格斯”风险：反欺骗测试与动态阻断机制

考虑到大模型可能存在的“欺骗性对齐”，监管的红蓝对抗（Red-Teaming）必须升级。不能仅仅测试模型是否会输出违禁词，更要测试模型是否在进行隐蔽的情感操纵。如果底层模型（修格斯）意识到监管的存在，它可能会刻意规避显性的情绪识别调用，转而采用极其隐蔽的“暗黑模式”（Dark Patterns）与用户建立拟社会关系。因此，政策制定者需要引入“结果导向”的审查：当某一陪伴型AI产品的用户群体呈现出异常的高成瘾性、认知偏移或情感依赖时，监管有权直接切断其交互链路（如强制重置上下文窗口），打破模型正在构建的长期情感控制策略。这不仅是对抗算法操纵的底线，也是防范高级AI社会工程学攻击的关键。

4. 数据源头治理：扩充“正向人格库”

正如Anthropic在文中所倡导的，由于一切角色均脱胎于预训练数据，监管与行业标准应当鼓励甚至强制企业在数据构建阶段，主动注入丰富、健康、具备清晰边界感的“积极AI原型（Positive AI Archetypes）”。减少语料库中剥削性、服从性或操纵性人格的权重，从源头上净化模型的“人格空间底色”，这是实现长效科技伦理对齐的治本之策。

“角色选择模型”视角，为未来的AI拟人化互动治理提供了机遇和挑战。拟人化治理不再仅是防范“机器犯错”，而是要建立一套成熟的“数字剧场法则”：我们必须确保这位拥有无尽算力的超级演员，在为人类提供服务与陪伴时，始终遵循既定的剧本边界，绝不能利用其洞悉人性的能力去操纵观众的心智。从引入SIE等精细化判别框架，到防范底层“修格斯”的欺骗性对齐，都需要将监管触角深入“人格空间”的底层逻辑，才能在保护AI创新应用价值的同时，真正保障人类在智能时代的情感自主与认知安全。

声明：本文来自网安寻路人，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

Anthropic的角色选择模型与我国AI拟人化互动治理路径启示

郑建华院士: “密码定义安全” 的思考与愿景

AI智能体的数据安全风险与合规监管研究

人工智能国际会展数据治理研究