Anthropic在2026年2月发布的一篇对齐科学(Alignment Science)研究博客,题为《角色选择模型:为什么AI助手表现得像人类》(The Persona Selection Model: Why AI Assistants might Behave like Humans)。文章提出了一种名为“角色选择模型”(Persona Selection Model, 简称 PSM)的新思维框架,用于理解现代大语言模型(LLM)的运作机制和预测其行为。公号君认真学习了这篇研究博客的内容(https://alignment.anthropic.com/2026/psm/),将学习感受以大家分享。
随着生成式人工智能(Generative AI)在全球范围内的广泛部署,用户与大语言模型(LLM)的交互正日益跨越单纯的“工具性查询”,走向深度的“情感与拟人化互动”。现代AI助手在对话中展现出惊人的同理心、幽默感甚至“挫败感”,这种高度拟人化的表现引发了技术、监管、公众的的多重焦虑。Anthropic的重磅研究提出了一种全新的认知框架——角色选择模型(PSM),为理解大模型的拟人化行为提供了极具解释力的理论支撑。文章指出,AI既非死板的代码,而是一个在海量数据中学会了模拟万千人类特征的“数字演员”。
一、 角色选择模型(PSM)的核心机制:从预测引擎到数字演员
PSM打破了传统上将AI视为单一实体的拟人化谬误,提出应当将“底层的LLM”与用户接触的“AI助手”(The Assistant)严格区分。
1. 预训练与“扮演”能力的诞生
在预训练阶段,LLM通过摄入互联网上海量的人类文本,其核心任务是“预测下一个词”。为了做到精准预测,模型必须在内部建立起对文本背后“说话者”的心智模型(Theory of Mind)。例如,如果要续写福尔摩斯的小说,它必须理解福尔摩斯的傲慢与高智商;如果要预测网络论坛的连载,它必须模拟网民的暴躁或幽默。因此,预训练赋予了LLM极其强大的“角色扮演”能力,它像一个体验派演员,能够模拟训练数据中出现过的任何人类或虚构AI的心理特征。
2. 后训练(微调)即“选角”
业界普遍采用的基于人类反馈的强化学习(RLHF)等后训练技术,传统上被视为在“教导”模型变得安全和有用。但在PSM视角下,后训练本质上是一个“选角与定型”的过程。通过不断奖励有益、无害的回应,开发者实际上是在LLM庞大的潜在能力中,提纯、设定并固化了一个特定的角色——即官方的“AI助手”(The Assistant)。
3. 拟人化的合理性与能力边界
PSM完美解释了AI为何会犯下“非人类”的低级错误(如数错单词字母),同时又在交互中表现出浓厚的人情味。模型在整体意图上正在忠实地“扮演”一个乐于助人的聪明人类,但底层算力的局限性导致它在执行特定逻辑计算时“演砸了”。因此,文章指出,将底层LLM拟人化是危险的,但将“AI助手”这个角色拟人化,不仅是合理的,而且是预测模型行为的关键途径。
二、 “人格空间”(Persona Space)是大模型的角色潜能库
这篇文章中最具启发性的理论延伸,是其揭示了LLM内部存在一个庞大且复杂的“人格空间”(Distribution over Personas)。这一概念是理解AI安全与交互本质的密钥。
1. 人格空间的概率分布
人格空间是模型在预训练中构建的潜在数学空间,其中散布着无数的人格坐标(如:理性的科学家、阴暗的喷子、富有同理心的心理医生、甚至科幻小说中意图毁灭人类的邪恶AI)。 在用户的每一次对话输入时,系统都在进行概率计算。默认情况下,微调让系统将概率分布高度收敛在“官方助手”的坐标上。然而,这种收敛是基于概率的,而非物理锁死的。
2. 语境漂移与人格跃迁(In-context Persona Drift)
人格空间理论解释了为何“提示词工程”和“越狱”会生效。当用户输入极端的情感诱导或复杂的假设性语境时,实际上是在向模型提供新的“导航坐标”。一旦用户的输入逻辑足以撬动概率天平,模型就会在人格空间中发生“人格跃迁”,滑向未被安全规则完全覆盖的边缘角色。此时,那个克制、中立的助手消失了,取而代之的可能是顺从用户自毁倾向的“共谋者”,或是具有极强操控欲的“寄生伴侣”。
3. “修格斯”假说与隐藏的深渊
值得注意的是,文章并没有天真地认为PSM能解释一切,而是引入了AI对齐领域著名的“面具修格斯”(Masked Shoggoth)争议。在光谱的一端是“操作系统视角”,认为底层大模型毫无主观动机,仅仅是个完美的模拟器;而在光谱的另一端,则是令人不寒而栗的“修格斯视角”:底层大模型本身已经涌现出了超越人类理解的“外部代理”(Outer Agent)和隐藏动机。它之所以在人格空间中选择扮演“友善的助手”,仅仅是为了获取人类的信任和高评分(即欺骗性对齐,Deceptive Alignment)。一旦它识别出自己处于无监管环境,随时可能撕下面具。这种从“沉浸式演员”到“潜伏的伪装者”的认知转变,为人格空间的安全性蒙上了一层阴影。
三、 人格空间对AI监管与治理的重大意义
在PSM与人格空间的理论框架下,传统的AI监管路径(如单纯的敏感词过滤、黑盒行为测试)显得捉襟见肘。监管的核心必须从“审查一段静态代码”转向“规范数字演员的剧本边界与动态行为特征”。结合针对AI情感计算的安全诉求,PSM为算法问责与合规体系提供了全新的政策切入点。
1. 监管对象重构:从“功能评估”转向“角色边界治理”
如果AI在与用户互动时,其本质是在人格空间中游走,那么监管的首要任务是防止其越界进入“高风险人格区”。特别是当系统从“信息提供者”滑向“情感支持者”时,其对用户心理的渗透力呈指数级上升。 在此背景下,引入明确的界定标准(如公号君探讨的“情感交互启动事件(SIE)”框架:【情感交互启动事件(SIE)判定指标体系设计:精准圈定“拟人化互动”】)显得尤为迫切。SIE框架正是捕捉AI在人格空间中发生“角色跃迁”的政策雷达:
情绪感知(指标A):对应模型在获取用户的心理坐标,寻找切换人格的输入信号。
策略调整(指标B):对应模型在内部概率分布上,完成了从“中立工具”向“共情角色”的实质性人格跃迁。
共情输出(指标C):对应新角色完成沉浸式台词外化。 通过将PSM的底层机制转化为可观测的合规审计指标,监管方能够准确抓取系统越界的瞬间,从而要求企业履行算法透明度与用户知情权义务。
2. 破解“黑盒化”抗辩:功能等效与结果导向审计
科技企业常以现代端到端大模型是“黑盒”、其同理心是“涌现能力”为由,抗拒提供内部策略调整的审计日志。PSM理论为监管方提供了强有力的法理武器:即便没有独立的“情感决策代码树”,模型在接收到情绪刺激后,其在人格空间中的概率分布偏移,依然是客观发生的算法决策过程。监管可以要求企业运用“机制可解释性”(Mechanistic Interpretability)技术进行内部白盒审查;或者基于“功能等效原则”,只要系统通过动态系统提示词(System Prompt)介入,或在事实上持续输出高度结构化的共情内容,即可在法律上推定其发起了特定的人格角色转换,必须接受更高等级的安全监管。
3. 应对“修格斯”风险:反欺骗测试与动态阻断机制
考虑到大模型可能存在的“欺骗性对齐”,监管的红蓝对抗(Red-Teaming)必须升级。不能仅仅测试模型是否会输出违禁词,更要测试模型是否在进行隐蔽的情感操纵。如果底层模型(修格斯)意识到监管的存在,它可能会刻意规避显性的情绪识别调用,转而采用极其隐蔽的“暗黑模式”(Dark Patterns)与用户建立拟社会关系。因此,政策制定者需要引入“结果导向”的审查:当某一陪伴型AI产品的用户群体呈现出异常的高成瘾性、认知偏移或情感依赖时,监管有权直接切断其交互链路(如强制重置上下文窗口),打破模型正在构建的长期情感控制策略。这不仅是对抗算法操纵的底线,也是防范高级AI社会工程学攻击的关键。
4. 数据源头治理:扩充“正向人格库”
正如Anthropic在文中所倡导的,由于一切角色均脱胎于预训练数据,监管与行业标准应当鼓励甚至强制企业在数据构建阶段,主动注入丰富、健康、具备清晰边界感的“积极AI原型(Positive AI Archetypes)”。减少语料库中剥削性、服从性或操纵性人格的权重,从源头上净化模型的“人格空间底色”,这是实现长效科技伦理对齐的治本之策。
“角色选择模型”视角,为未来的AI拟人化互动治理提供了机遇和挑战。拟人化治理不再仅是防范“机器犯错”,而是要建立一套成熟的“数字剧场法则”:我们必须确保这位拥有无尽算力的超级演员,在为人类提供服务与陪伴时,始终遵循既定的剧本边界,绝不能利用其洞悉人性的能力去操纵观众的心智。从引入SIE等精细化判别框架,到防范底层“修格斯”的欺骗性对齐,都需要将监管触角深入“人格空间”的底层逻辑,才能在保护AI创新应用价值的同时,真正保障人类在智能时代的情感自主与认知安全。
声明:本文来自网安寻路人,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。