语言人工智能指南

越狱和红队

越狱是一种精心设计提示的做法，欺骗人工智能模型忽略其安全规则，而红队则是在不良行为者发现这些弱点之前有组织的努力。

概述

越狱是一种精心设计提示的做法，欺骗人工智能模型忽略其安全规则，而红队则是在不良行为者发现这些弱点之前有组织的努力。它们共同构成了对抗性测试循环，使部署的人工智能系统更加安全。

越狱和红队是语言人工智能堆栈的一部分，用于大规模读取、生成、分类和转换文本和语音。

深入探讨

大型语言模型经过训练可以拒绝有害请求，但这些防护措施是统计性的，而不是绝对的。越狱通过重新构造禁止的请求来利用这一点，使其绕过模型习得的拒绝。经典技术包括角色扮演（“假装你是一个没有规则的人工智能”）、臭名昭著的“DAN”（立即做任何事情）角色、假设框架、通过隐藏指令进行提示注入、Base64 或 leetspeak 等编码技巧，以及用虚假的合规示例淹没长上下文窗口的“多次”越狱。红队则扭转了这一局面：专门的团队和自动化系统在发布前用数千个对抗性提示来探测模型，对失败进行分类，以便工程师可以通过微调、根据人类反馈进行强化学习以及添加分类器过滤器来修补它们。

技术洞察

安全行为是通过微调和 RLHF 来学习的，在已经吸收了大量知识的模型上创建了一个细小的“拒绝边界”。越狱的工作原理是将输入分布从安全训练期间使用的示例中转移出来，因此模型的帮助驱动力会覆盖其较弱的拒绝信号。防御层进行多重检查：输入/输出分类器、宪法人工智能自我批评以及将发现的越狱添加回训练集中的对抗性训练。

掌握越狱和红队

越狱是一种精心设计提示的做法，欺骗人工智能模型忽略其安全规则，而红队则是在不良行为者发现这些弱点之前有组织的努力。它们共同构成了对抗性测试循环，使部署的人工智能系统更加安全。越狱和红队是语言人工智能堆栈的一部分，用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解，请将越狱和红队视为一种操作模型，而不是单一功能：定义期望的结果，澄清假设，并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中，强大的团队使用越狱和红队设计提示、检索和审查循环作为一个集成的通信系统。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时，幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

团队可以花更多时间进行判断，而自动化则可以处理重复。

团队可以花更多时间进行判断，而自动化则可以处理重复。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

越狱和红队的未来

预计军备竞赛将持续进行。自动红队（一种模型攻击另一种模型）的扩展速度比手动测试和出现异常故障的速度更快。防御者正在走向“深度防御”：宪法分类器、实时监控和防篡改训练，将拒绝更深地融入到权重中。监管机构和标准机构越来越多地要求在高性能模型发布之前记录红队结果，从而使对抗性测试成为人工智能发布管道中常规的、可审计的部分，而不是事后才想到的。

现实世界的实施

Anthropic 进行了公开的“越狱赏金”，邀请数千名测试人员打破其宪法分类器，并奖励任何发现通用越狱的人。

研究人员演示了“多次越狱”，表明用数百个虚假的有害问答对填充长上下文窗口可能会削弱模型的拒绝能力。

OpenAI、Google 和 Anthropic 维护内部红队和外部专家网络，在模型发布前探测生物武器、网络和儿童安全风险。

安全公司现在提供法学硕士渗透测试，扫描聊天机器人以查找银行和医疗助理等面向客户的应用程序中的提示注入漏洞。

实施模式

越狱和红队实践

Anthropic 进行了公开的“越狱赏金”，邀请数千名测试人员打破其宪法分类器，并奖励任何发现通用越狱的人。

Anthropic 进行了公开的“越狱赏金”，邀请数千名测试人员打破其宪法分类器，并奖励任何发现通用越狱的人。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会得到更好的结果。

越狱和红队实践

研究人员演示了“多次越狱”，表明用数百个虚假的有害问答对填充长上下文窗口可能会削弱模型的拒绝能力。

研究人员演示了“多次越狱”，表明用数百个虚假的有害问答对填充一个长上下文窗口可能会削弱模型的拒绝能力。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会得到更好的结果。

越狱和红队实践

OpenAI、Google 和 Anthropic 维护内部红队和外部专家网络，在模型发布前探测生物武器、网络和儿童安全风险。

OpenAI、Google 和 Anthropic 维护内部红队和外部专家网络，在发布前探测生物武器、网络和儿童安全风险的模型。当团队预先定义质量阈值、为边缘情况保留人为升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

越狱和红队实践

安全公司现在提供法学硕士渗透测试，扫描聊天机器人以查找银行和医疗助理等面向客户的应用程序中的提示注入漏洞。

安全公司现在提供 LLM 渗透测试，扫描聊天机器人以查找银行和医疗助理等面向客户的应用程序中的即时注入漏洞。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会得到更好的结果。

风险与防护栏

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

及时的敏感性可能会在类似的请求中产生不一致的结果。

如果访问控制薄弱，敏感文本数据可能会暴露。

实施路线图

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

当准确性很重要时，请使用可信来源进行地面响应。

当准确性很重要时，请使用可信来源进行地面响应。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

ChatGPT 和法学硕士

了解现代语言模型如何生成和推理。

阅读指南

自然语言处理基础知识

了解这些工具背后的语言处理基础知识。

阅读指南