社团指南

人工智能安全

人工智能安全是一个专注于防止人工智能系统造成严重危害的领域——从日常故障和误用到先进、高性能系统的灾难性和生存风险。

Part of the Society & Ethics learning path

概述

人工智能安全是一个专注于防止人工智能系统造成严重危害的领域——从日常故障和误用到先进、高性能系统的灾难性和生存风险。

人工智能安全处于能力、权力和公共选择的交叉点——安全、治理和合法性决定先进的人工智能是否会大规模地带来帮助或损害。

深入探讨

人工智能安全涉及多个领域。一方面是常见的产品风险：幻觉、偏见、隐私泄露、诈骗和不安全的建议。另一方面，风险随着能力的增长而增长：追求非预期目标的自主系统、有助于解决灾难性误用（病原体、网络攻击）的模型，以及迫使实验室在安全工作准备就绪之前进行部署的竞争竞赛。存在风险讨论的重点是未来人工智能系统变得足够强大，以至于单一故障——错位、失控或不可逆转的扩散——可能会永久限制人类的未来。您不需要为该结果分配很高的概率来认真对待这项研究；低概率、影响极大的风险仍然需要做好准备，就像在生物安全和核安全领域一样。今天的实际安全工作包括评估、红队、可解释性、控制技术、治理（谁可以培训什么）和公众理解，以便社会能够支持良好的政策。

技术洞察

一个有用的思维模型：能力（系统可以做什么）乘以一致性（是否达到我们的预期）和安全性（对手是否可以滥用它）的风险。确保只有过滤器输出才能针对越狱、微调删除拒绝或在聊天框外采取多步骤操作的代理失败。强大的安全计划可以衡量危险能力，测试欺骗行为，并在竞争压力下规划部署——而不仅仅是事后打磨模型卡。

掌握人工智能安全

为了加深理解，请将人工智能安全视为一种操作模型，而不是单一功能。定义期望的结果，澄清假设，并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中，使用人工智能安全的强大团队将能力增长与治理、安全和明确的问责结构结合起来。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

灾难性和日常的人工智能危害都取决于谁了解风险以及谁能够采取行动。与此同时，在能力复合的同时，将存在风险视为科幻小说。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

灾难性和日常的人工智能危害都取决于谁了解风险以及谁能够采取行动。

灾难性和日常的人工智能危害都取决于谁了解风险以及谁能够采取行动。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

公众和专业素养决定强有力的安全政策在政治上是否可行。

公众和专业素养决定强有力的安全政策在政治上是否可行。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

清晰的解释可以减少炒作、实验室公关和模糊道德剧场的影响。

清晰的解释可以减少炒作、实验室公关和模糊道德剧场的影响。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

人工智能安全的未来

随着模型获得工具使用和自主权，安全性将从“不要说坏话”转向“在没有可靠监督的情况下不要采取不可逆转的行动”。预计会有更多标准化的评估、第三方审计、计算和发布政策以及公众对透明度的需求。识字是安全的一部分：如果只有专家了解风险，民主治理就无法跟上。

现实世界的实施

发布前针对生物安全、网络和欺骗风险的红队模型。

运行能力评估，检查模型是否可以协助完成危险任务。

部署分层控制：使用策略、监控、速率限制和高风险操作的人工升级。

设计模型在生产中失败或越狱蔓延时的事件响应。

实施模式

人工智能安全实践

发布前针对生物安全、网络和欺骗风险的红队模型。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

人工智能安全实践

运行能力评估，检查模型是否可以协助完成危险任务。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

人工智能安全实践

部署分层控制：使用策略、监控、速率限制和高风险操作的人工升级。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

人工智能安全实践

设计模型在生产中失败或越狱蔓延时的事件响应。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

风险与防护栏

将存在风险视为科幻小说，同时能力复合。

混淆了表面产品安全与高度自治下的对准。

只给非英语和非专业观众留下低质量的资源。

实施路线图

单独的产品危害、误用和失控/失调风险。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

询问哪些证据会改变您对时间表和严重性的看法。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

比起营销主张，更喜欢主要来源和具体评估。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

确定一条行动路径：职业、政策、资金或技能——而不仅仅是意识。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

Check your understanding

Test yourself: take the AI Safety quiz

Start quiz →

人工智能安全

概述

深入探讨

技术洞察

掌握人工智能安全

战略影响

人工智能安全的未来

现实世界的实施

实施模式

人工智能安全实践

人工智能安全实践

人工智能安全实践

人工智能安全实践

风险与防护栏

实施路线图

不断探索

人工智能安全

人工智能对齐

通用人工智能

人工智能治理

Related guides