應用指南

人在環代理

人機互動 (HITL) 代理是一種人工智慧系統,它會在採取相應行動之前暫停以獲取人們的批准、糾正或輸入。

概述

人機互動 (HITL) 代理是一種人工智慧系統,它會在採取相應行動之前暫停以獲取人們的批准、糾正或輸入。他們讓人類對高風險的決策負責,同時仍讓自動化完成繁重的工作。

人在環代理專注於實際部署:將模型功能轉化為可靠的日常工作流程,提供可衡量的價值。

深入探討

完全自主的代理人自行决定并采取行动;人机循环代理会插入一个检查点,人员会在代理执行建议的操作之前对其进行检查。常见的模式包括批准门(代理起草电子邮件或退款并等待点击发送)、基于置信度的升级(只有当确定性低于阈值时才会打断人员)和主动学习(不确定的案例被发送给人们,他们的答案将成为未来的训练数据)。目標是將自動化的速度和規模與人類的判斷、責任以及在錯誤造成損害之前發現錯誤的能力結合起來。對於非營利組織來說,這可能意味著代理起草撥款回复,但絕不會發送與工作人員簽署無關的回复。

技術洞察

從技術上講,HITL 被實作為代理控制循環中的中斷或工具呼叫閘。當代理提出敏感操作時,協調器會暫停執行,序列化代理的狀態,並發出人工審核請求。一個人批准、編輯或拒絕;該回應作為上下文回饋,然後循環繼續。置信度分數、不確定性估計或策略規則決定哪些操作觸發暫停或自動運行。

掌握人在环代理

人機互動 (HITL) 代理是一種人工智慧系統,它會在採取相應行動之前暫停以獲取人們的批准、糾正或輸入。他們讓人類對高風險的決策負責,同時仍讓自動化完成繁重的工作。人在環代理專注於實際部署:將模型功能轉化為可靠的日常工作流程,提供可衡量的價值。为了建立深入的理解,请将人在环代理视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在實踐中,使用人在環代理的強大團隊專注於工作流程結果,而不是模型演示,並儘早定義人工檢查點。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

應用級設計決定了人工智慧是否能改善實際結果。同時,將損壞的流程自動化可能會加劇現有的問題。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

應用級設計決定了人工智慧是否能改善實際結果。

應用級設計決定了人工智慧是否能改善實際結果。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

良好的工作流程整合可以創造使用者值得信賴的生產力效益。

良好的工作流程整合可以創造使用者值得信賴的生產力效益。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

範圍明確的用例可以減少變更疲勞和實施風險。

範圍明確的用例可以減少變更疲勞和實施風險。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

人在环代理的未来

期望比二元批准/拒絕更細緻的控制。客服人员将越来越多地提出澄清问题,提出几种需要权衡的选项,并了解每个用户的风险承受能力,以便随着时间的推移减少打扰。欧盟人工智能法案等法规推动了对高风险用途的人工监督,因此 HITL 检查点正在成为合规性要求,而不仅仅是一种设计选择。用於非同步批准、審計追蹤和「暫停和恢復」代理狀態的工具正在快速成熟。

現實世界的實施

客戶支援代理起草退款批准書,但將任何超過 500 美元的退款轉交給人工經理進行一鍵式簽署。

醫療編碼人工智慧會標記不明確的診斷,供經過認證的編碼員確認而不是猜測。

內容審核系統會自動刪除明顯的垃圾郵件,但會將邊界貼文升級給人工審核員。

編碼代理提出資料庫遷移並等待開發人員批准,然後再在生產中運行。

實施模式

人在环代理的实践

客戶支援代理起草退款批准書,但將任何超過 500 美元的退款轉交給人工經理進行一鍵式簽署。

客戶支援代理起草退款批准書,但將任何超過 500 美元的退款發送給人工經理進行一鍵簽核。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

人在环代理的实践

醫療編碼人工智慧會標記不明確的診斷,供經過認證的編碼員確認而不是猜測。

醫療編碼人工智慧會標記不明確的診斷,讓經過認證的編碼員進行確認而不是猜測。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

人在环代理的实践

內容審核系統會自動刪除明顯的垃圾郵件,但會將邊界貼文升級給人工審核員。

內容審核系統會自動刪除明顯的垃圾郵件,但將邊界貼文升級給人工審查者。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

人在环代理的实践

編碼代理提出資料庫遷移並等待開發人員批准,然後再在生產中運行。

編碼代理提出資料庫遷移並等待開發人員批准,然後再在生產中運行。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力增益和錯誤成本時,通常會得到更好的結果。

風險與防護欄

!

將損壞的流程自動化可能會加劇現有問題。

!

團隊可能會過度自動化並消除所需的人工判斷。

!

如果不持續評估輸出,品質可能會出現偏差。

實施路線圖

1

繪製目前工作流程並確定摩擦最大的步驟。

繪製目前工作流程並確定摩擦最大的步驟。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在完全自動化之前定義人工檢查點。

在完全自動化之前定義人工檢查點。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

對使用者進行提示、升級路徑和品質標準的訓練。

對使用者進行提示、升級路徑和品質標準的訓練。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

追蹤任務級結果以確認持續價值。

追蹤任務級結果以確認持續價值。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索