语言人工智能指南

宪法人工智能

宪法人工智能是Anthropic使用一套书面原则(“宪法”)来调整模型的方法,因此人工智能可以批评和修改自己的答案,而不是仅仅依靠人类来标记有害内容。

概述

宪法人工智能是Anthropic使用一套书面原则(“宪法”)来调整模型的方法,因此人工智能可以批评和修改自己的答案,而不是仅仅依靠人类来标记有害内容。它的目标是用更少的人力使模型变得有用且无害。

宪法人工智能是语言人工智能堆栈的一部分,用于大规模阅读、生成、分类和转换文本和语音。

深入探讨

传统的对齐依赖于人类反馈的强化学习(RLHF),人们对大量模型输出(包括令人不安的输出)进行排名,以教导模型要避免什么。宪法人工智能通过为模型提供一份明确的书面原则清单来减轻这一负担,这些原则来自《联合国人权宣言》和信任与安全最佳实践等来源。训练有两个阶段。首先,监督阶段:模型生成响应,然后针对宪法原则对其进行批评,并将其重写为更好的;这些自我改进的答案用于对其进行微调。其次,强化学习阶段,RLAIF,模型本身根据构成对响应对进行排名,并且人工智能生成的偏好数据训练奖励模型。这些原则是透明且可编辑的,使得指导模型的值可以检查,而不是隐藏在不透明的人类标签中。

技术洞察

这两个阶段通常称为 SL-CAI 和 RL-CAI。在监督学习中,“批评和修改”循环促使模型找到自己的答案违反采样原则的地方并重写它,生成没有人类伤害标签的训练数据。在强化学习阶段,第二个模型会判断两个响应中哪一个更符合宪法,生成人工智能偏好标签 (RLAIF),用于训练标准强化学习中使用的奖励模型。该宪法是注入提示的纯文本指导,因此更改模型的行为可以像编辑原则一样直接。

掌握宪法人工智能

宪法人工智能是Anthropic使用一套书面原则(“宪法”)来调整模型的方法,因此人工智能可以批评和修改自己的答案,而不是仅仅依靠人类来标记有害内容。它的目标是用更少的人力使模型变得有用且无害。宪法人工智能是语言人工智能堆栈的一部分,用于大规模阅读、生成、分类和转换文本和语音。为了建立深入的理解,请将宪政人工智能视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中,强大的团队使用宪法人工智能设计提示、检索和审查循环作为一个集成的通信系统。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时,幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

团队可以花更多时间进行判断,而自动化则可以处理重复。

团队可以花更多时间进行判断,而自动化则可以处理重复。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

宪法人工智能的未来

宪法人工智能指向“可扩展的监督”,随着模型的能力变得强大到人类无法检查每一个输出,人工智能可以帮助监督人工智能。期待更丰富、更细致的宪法、选择原则的公共和参与性投入(Anthropic 已经进行了“集体宪法人工智能”实验),以及将人类反馈与人工智能自我批评相结合的混合方法。书面原则的透明度对于想要查看系统编码的价值观的监管机构和审计人员来说很有吸引力。随着前沿模型的进步,让模型根据明确的规则可靠地批判和改进自己的方法可能会成为安全的核心。

现实世界的实施

训练聊天机器人拒绝帮助制造武器,让其根据避免伤害原则批评自己的草案答案并重写它

用宪法指导下的人工智能生成的偏好数据(RLAIF)取代昂贵的人类红队有毒输出标签

编辑书面原则来调整模型的谨慎程度,然后观察行为变化,而无需重新标记数千个示例

开展集体意见练习,让公众提出塑造模型构成的原则

实施模式

宪法人工智能的实践

训练聊天机器人拒绝帮助制造武器,让其根据避免伤害原则批评自己的草稿答案并重写它。

训练聊天机器人拒绝帮助制造武器,让其根据避免伤害原则批评自己的草稿答案并重写它。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

宪法人工智能的实践

用宪法指导下的人工智能生成的偏好数据(RLAIF)取代昂贵的人类红队有毒输出标签。

用宪法指导下的人工智能生成的偏好数据 (RLAIF) 取代昂贵的人工红队标签有毒输出。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

宪法人工智能的实践

编辑书面原则来调整模型的谨慎程度,然后观察行为变化,而无需重新标记数千个示例。

编辑书面原则来调整模型的谨慎程度,然后观察行为变化,而无需重新标记数千个示例。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

宪法人工智能的实践

开展集体意见练习,让公众提出塑造模型构成的原则。

进行集体输入练习,让公众提出塑造模型构成的原则。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

风险与防护栏

!

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

!

及时的敏感性可能会在类似的请求中产生不一致的结果。

!

如果访问控制薄弱,敏感文本数据可能会暴露。

实施路线图

1

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

当准确性很重要时,请使用可信来源进行地面响应。

当准确性很重要时,请使用可信来源进行地面响应。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索