社團指南

人工智慧安全

人工智慧安全是一個專注於防止人工智慧系統造成嚴重危害的領域——從日常故障和誤用到先進、高效能係統的災難性和生存風險。

Part of the Society & Ethics learning path

概述

人工智慧安全是一個專注於防止人工智慧系統造成嚴重危害的領域——從日常故障和誤用到先進、高效能係統的災難性和生存風險。

人工智慧安全處於能力、權力和公共選擇的交叉點——安全、治理和合法性決定先進的人工智慧是否會大規模地帶來幫助或損害。

深入探討

人工智慧安全涉及多個領域。一方面是常見的產品風險：幻覺、偏見、隱私外洩、詐騙和不安全的建議。另一方面，風險隨著能力的增長而增長：追求非預期目標的自主系統、有助於解決災難性誤用（病原體、網路攻擊）的模型，以及迫使實驗室在安全工作準備就緒之前進行部署的競爭競賽。存在風險討論的重點是未來人工智慧系統變得足夠強大，以至於單一故障——錯位、失控或不可逆轉的擴散——可能會永久限制人類的未來。您不需要為該結果分配很高的機率來認真對待這項研究；低機率、影響極大的風險仍然需要做好準備，就像在生物安全和核安全領域一樣。今天的實際安全工作包括評估、紅隊、可解釋性、控制技術、治理（誰可以培訓什麼）和公眾理解，以便社會可以支持良好的政策。

技術洞察

一個有用的思考模型：能力（系統可以做什麼）乘以一致性（是否達到我們的預期）和安全性（對手是否可以濫用它）的風險。確保只有過濾器輸出才能針對越獄、微調刪除拒絕或在聊天框外採取多步驟操作的代理失敗。強大的安全計畫可以衡量危險能力，測試欺騙行為，並在競爭壓力下規劃部署——而不僅僅是事後打磨模型卡。

掌握人工智慧安全

為了加深理解，請將人工智慧安全視為操作模型，而不是單一功能。定義期望的結果，澄清假設，並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。

在實踐中，使用人工智慧安全的強大團隊將能力成長與治理、安全和明確的問責結構結合起來。他們記錄明確的成功標準，根據實際數據和工作流程進行測試，並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

災難性和日常的人工智慧危害都取決於誰了解風險以及誰能夠採取行動。同時，在能力複合的同時，將存在風險視為科幻小說。最具彈性的方法是將實驗速度與治理規則結合：運行試點、捕獲證據、發布決策日誌，並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

災難性和日常的人工智慧危害都取決於誰了解風險以及誰能夠採取行動。

災難性和日常的人工智慧危害都取決於誰了解風險以及誰能夠採取行動。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

民眾和專業素養決定強而有力的安全政策在政治上是否可行。

民眾和專業素養決定強而有力的安全政策在政治上是否可行。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

清晰的解釋可以減少炒作、實驗室公關和模糊道德劇場的影響。

清晰的解釋可以減少炒作、實驗室公關和模糊道德劇場的影響。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

人工智慧安全的未來

隨著模型獲得工具使用和自主權，安全性將從「不要說壞話」轉向「在沒有可靠監督的情況下不要採取不可逆轉的行動」。預計會有更多標準化的評估、第三方審計、計算和發布政策以及公眾對透明度的需求。識字是安全的一部分：如果只有專家了解風險，民主治理就無法跟上。

現實世界的實施

發布前針對生物安全、網路和欺騙風險的紅隊模型。

運行能力評估，檢查模型是否可以協助完成危險任務。

部署分層控制：使用策略、監控、速率限制和針對高風險操作的人工升級。

設計模型在生產中失敗或越獄蔓延時的事件反應。

實施模式

人工智慧安全實踐

發布前針對生物安全、網路和欺騙風險的紅隊模型。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

人工智慧安全實踐

運行能力評估，檢查模型是否可以協助完成危險任務。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

人工智慧安全實踐

部署分層控制：使用策略、監控、速率限制和針對高風險操作的人工升級。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

人工智慧安全實踐

設計模型在生產中失敗或越獄蔓延時的事件反應。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

風險與防護欄

將存在風險視為科幻小說，同時能力複合。

混淆了表面產品安全與高度自治下的對準。

只給非英語和非專業觀眾留下低品質的資源。

實施路線圖

單獨的產品危害、誤用和失控/失調風險。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

詢問哪些證據會改變您對時間表和嚴重性的看法。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

比起行銷主張，更喜歡主要來源和具體評估。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

確定一條行動路徑：職業、政策、資金或技能——而不僅僅是意識。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

Check your understanding

Test yourself: take the AI Safety quiz

Start quiz →

人工智慧安全

概述

深入探討

技術洞察

掌握人工智慧安全

戰略影響

人工智慧安全的未來

現實世界的實施

實施模式

人工智慧安全實踐

人工智慧安全實踐

人工智慧安全實踐

人工智慧安全實踐

風險與防護欄

實施路線圖

不斷探索

人工智慧安全

人工智慧對齊

通用人工智慧

人工智慧治理

Related guides