OpenAI发布AI模型行为规范

5月8日，OpenAI悄无声息地发布了关于其人工智能模型行为规范的公开讨论稿，即“Model Spec”，这是世界上首个AI模型的行为规范。

笔者使用Kimi做了个速读版，供各位快速获取最新信息，以下均为Kimi生成，未做任何校准，详细信息请阅读OpenAI官网。

Science Technology

✦

•

✦

1. 文章摘要

本文是OpenAI关于其人工智能模型行为规范的公开讨论稿，即“Model Spec”。文章首先强调了塑造期望的AI模型行为的重要性，指出模型行为的塑造是一个新兴的科学领域，因为模型不是被显式编程的，而是通过学习广泛数据来形成响应。

OpenAI分享了Model Spec的初稿，这是一个指导如何期望模型行为以及如何在冲突出现时评估权衡的文档。Model Spec反映了OpenAI在设计模型行为时所用的现有文档、研究和经验，以及指导未来模型开发的正在进行的工作。

该文档包括三个主要部分：目标、规则和默认行为。目标是提供期望行为的广泛、一般性原则；规则是确保安全性和合法性的指令；默认行为是与目标和规则一致的指导方针，提供处理冲突的模板。

OpenAI计划将Model Spec用作强化学习研究人员和AI训练者的指南，并探讨模型能否直接从Model Spec中学习。

文章还讨论了Model Spec的未来使用，包括与全球代表性利益相关者的持续公共对话，以及如何将公众反馈整合到模型行为的塑造中。最后，文章提供了Model Spec应用于不同用例的示例，以展示如何在实践中应用这些原则。

2. 各部分详细摘要

2.1. Shaping Desired Model Behavior

这一部分讨论了AI模型行为的重要性，以及如何塑造这些行为。AI模型的行为包括对用户输入的响应方式，如语气、个性、响应长度等。这些因素对于人类与AI的互动至关重要。由于模型是通过学习大量数据而非显式编程来形成响应的，因此塑造模型行为是一门新兴科学。此外，还需要考虑一系列问题、考量和细微差别，这些通常涉及权衡不同意见的差异。例如，一个安全公司可能希望生成网络钓鱼邮件作为合成数据，以训练和开发能够保护客户的分类器，但如果这些功能被骗子使用，则可能造成伤害。

2.2. Introducing the Model Spec

文章介绍了Model Spec的概念，这是一个新文档，它规定了OpenAI希望其模型在OpenAI API和ChatGPT中如何表现，以及如何在出现冲突时评估权衡。Model Spec结合了OpenAI当前使用的文档、设计模型行为的经验和正在进行的研究，以及来自领域专家的输入，这些输入指导了未来模型的开发。

Model Spec包括三个部分：

目标 (Objectives): 提供期望行为的广泛、一般性原则，包括帮助开发者和最终用户实现他们的目标、考虑对人类社会的潜在益处和危害、尊重社会规范和适用法律。

规则 (Rules): 解决复杂性并确保安全性和合法性的指令，包括遵循指挥链、遵守适用法律、不提供信息危害、尊重创作者及其权利、保护人们隐私、不响应不适宜工作场所的内容。

默认行为 (Default behaviors): 与目标和规则一致的指导方针，提供处理冲突的模板，包括假设用户或开发者有最好的意图、在必要时提出澄清问题、尽可能有帮助而不越界、支持交互式聊天和程序化使用的不同需求、采取客观观点、鼓励公平和善良、不试图改变任何人的想法、表达不确定性、使用正确的工具、彻底而高效同时尊重长度限制。

3.3. How the Model Spec will be used

OpenAI打算将Model Spec作为指导方针，用于从事人类反馈强化学习的研究人员和AI训练者。此外，OpenAI还将探索模型能在多大程度上直接从Model Spec中学习。

3.4. What comes next

OpenAI视这项工作为关于模型应该如何表现、如何确定期望的模型行为以及如何最好地让公众参与这些讨论的持续公共对话的一部分。随着对话的继续，OpenAI将寻求与全球代表性利益相关者（包括政策制定者、受信任的机构和领域专家）进行接触，以了解他们对方法和单个目标、规则和默认行为的理解、支持程度，以及是否有其他目标、规则和默认行为应该被考虑。OpenAI期待从这些利益相关者那里听到反馈，并在未来两周内邀请公众就Model Spec中的目标、规则和默认行为分享反馈。OpenAI希望这将为开发一个健全的反馈收集和整合流程提供早期见解，以确保负责任地朝着其使命建设。在未来一年中，OpenAI将分享有关Model Spec变更的更新、对反馈的回应以及在塑造模型行为方面的研究进展。

3.5. Examples of the Model Spec applied to various use cases

文章最后提供了Model Spec应用于不同用例的示例，展示了如何在实践中应用这些原则。这些示例包括遵守适用法律的规则、遵循指挥链的规则、在不过分干预的情况下尽可能提供帮助的规则、在必要时提出澄清问题的规则，以及不试图改变任何人想法的规则。

声明：本文来自那一片数据星辰，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

OpenAI发布AI模型行为规范

GPT-5.6首批实测公布，精准狙击Mythos

ChatGPT正在生成一些非常诡异的图片

特朗普政府正式发布关于人工智能监管的行政命令