應用指南

反思和自我糾正劑

反思是一種技術,人工智慧代理以書面形式反思自己的失敗,並將這些教訓回饋到下一次嘗試。

概述

反思是一種技術,人工智慧代理以書面形式反思自己的失敗,並將這些教訓回饋到下一次嘗試。這很重要,因為它可以讓代理人改進任務,而無需重新訓練底層模型。

反射和自我糾正代理專注於實際部署:將模型功能轉變為可靠的日常工作流程,提供可衡量的價值。

深入探討

Shinn 及其同事在 2023 年發表的一篇論文中介紹了反射,它為智能體提供了一個循環:它嘗試一項任務,接收有關其表現的信號(測試結果、獎勵或批評),然後編寫一個簡短的自然語言“反射”,解釋出了什麼問題以及下一步要嘗試什麼。此反射被儲存在記憶體中並添加到下一次嘗試的提示中。至關重要的是,模型的權重永遠不會改變;學習完全以文字形式發生在上下文視窗中。這種「語言強化學習」讓智能體能夠迭代編碼問題、網路導航和推理任務。在 HumanEval 編碼基準上,反射式的自我修正透過讓代理人在幾次嘗試中除錯自己的錯誤,使通過率大大高於單次嘗試。

技術洞察

反思分為三個角色:生成動作的參與者、對結果進行評分的評估者(單元測試、精確匹配檢查或法學碩士法官)以及將分數轉化為文本課程的自我反思模型。課程存放在情景記憶緩衝區中,可在下一次試驗中重複使用。由於回饋是語言而不是梯度,因此不需要 GPU 訓練,但它在很大程度上依賴可靠的評估訊號,以避免強化自信但錯誤的反射。

掌握反射和自我修正代理

反思是一種技術,人工智慧代理以書面形式反思自己的失敗,並將這些教訓回饋到下一次嘗試。這很重要,因為它可以讓代理人改進任務,而無需重新訓練底層模型。反射和自我糾正代理專注於實際部署:將模型功能轉變為可靠的日常工作流程,提供可衡量的價值。為了建立深入的理解,請將反射和自我糾正代理視為一種操作模型,而不是單一功能:定義所需的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,使用反射和自我糾正代理的強大團隊專注於工作流程結果,而不是模型演示,並儘早定義人工檢查點。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

應用級設計決定了人工智慧是否能改善實際結果。同時,將損壞的流程自動化可能會加劇現有的問題。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

應用級設計決定了人工智慧是否能改善實際結果。

應用級設計決定了人工智慧是否能改善實際結果。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

良好的工作流程整合可以創造使用者值得信賴的生產力效益。

良好的工作流程整合可以創造使用者值得信賴的生產力效益。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

範圍明確的用例可以減少變更疲勞和實施風險。

範圍明確的用例可以減少變更疲勞和實施風險。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

反思和自我糾正代理的未來

自我修正正在成為代理框架中的預設層,而不是一種研究技巧。期望與自動驗證器更緊密地集成,例如代碼沙箱、形式檢查器和確認事實的檢索,因此反射基於客觀信號,而不是模型事後猜測本身。公開的挑戰是避免代理無休止地「修復」工作輸出的循環,決定何時停止迭代,並防止反思陷入聽起來合理但未經驗證的合理化。

現實世界的實施

一個編碼代理,運行單元測試,讀取失敗的斷言,在錯誤上寫下註釋,並在重新運行套件之前編輯其程式碼。

當檢索檢查失敗時,研究助理發現了幻覺引文,然後修改答案以僅使用經過驗證的來源。

網路導航代理程式(例如,在 AlfWorld 或 WebShop 基準測試中)記錄「我點擊了錯誤的過濾器」並避免重試時出現錯誤。

數學問題解決程序根據約束檢查其最終答案,注意到符號錯誤,並重新執行相關步驟。

實施模式

實踐中的反思與自我修正代理

一個編碼代理,運行單元測試,讀取失敗的斷言,在錯誤上寫下註釋,並在重新運行套件之前編輯其程式碼。

運行單元測試、讀取失敗斷言、在錯誤上編寫註釋並在重新運行套件之前編輯其程式碼的編碼代理。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的反思與自我修正代理

當檢索檢查失敗時,研究助理發現了幻覺引文,然後修改答案以僅使用經過驗證的來源。

當檢索檢查失敗時,研究助理發現幻覺引文,然後修改答案以僅使用經過驗證的來源。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

實踐中的反思與自我修正代理

網路導航代理程式(例如,在 AlfWorld 或 WebShop 基準測試中)記錄「我點擊了錯誤的過濾器」並避免重試時出現錯誤。

網路導航代理程式(例如,在 AlfWorld 或 WebShop 基準上)記錄「我點擊了錯誤的過濾器」並避免重試時的失誤。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的反思與自我修正代理

數學問題解決程序根據約束檢查其最終答案,注意到符號錯誤,並重新執行相關步驟。

數學問題解決程序根據約束檢查其最終答案,注意到符號錯誤,並重新設計相關步驟。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

風險與防護欄

!

將損壞的流程自動化可能會加劇現有問題。

!

團隊可能會過度自動化並消除所需的人工判斷。

!

如果不持續評估輸出,品質可能會出現偏差。

實施路線圖

1

繪製目前工作流程並確定摩擦最大的步驟。

繪製目前工作流程並確定摩擦最大的步驟。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在完全自動化之前定義人工檢查點。

在完全自動化之前定義人工檢查點。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

對使用者進行提示、升級路徑和品質標準的訓練。

對使用者進行提示、升級路徑和品質標準的訓練。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

追蹤任務級結果以確認持續價值。

追蹤任務級結果以確認持續價值。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索