語言人工智慧指南

測試時計算擴展

测试时计算扩展意味着在模型回答问题时给予模型更多的思考时间和计算,而不是仅仅在训练期间使其更大。

概述

测试时计算扩展意味着在模型回答问题时给予模型更多的思考时间和计算,而不是仅仅在训练期间使其更大。这是“推理模型”背后的突破,可以通过在响应之前深思熟虑来解决困难的数学和编码问题。

测试时计算扩展是语言人工智能堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。

深入探討

多年来,人工智能的进步意味着扩展训练:更多数据、更多参数、更多预训练计算。测试时计算缩放添加了第二个轴,在推理上花费更多计算。推理模型不是立即给出答案,而是生成一个很长的内部思维链,探索步骤、检查工作和回溯。技術包括擴展思想鏈、對許多候選解決方案進行採樣並選擇最佳解決方案(自洽或 N 中最佳),以及由驗證者或獎勵模型引導的樹式搜尋。 OpenAI 的 o1 和 o3、DeepSeek-R1 和 Claude 的擴展思維普及了這一點:當你讓模型「思考得更久」時,競賽數學和程式設計的準確性會急劇上升,在快速回答失敗的情況下,用延遲和成本來換取問題的正確性成本。

技術洞察

该模型通过强化学习进行训练,以产生有用的推理标记,然后在推理时分配“思维预算”。更多的代币可以让它分解问题、捕获自己的错误并进行自我验证。 Best-of-N 采样和验证者引导的搜索添加了并行计算:生成多次尝试,对它们进行评分,保留获胜者。至關重要的是,具有大量測試時間計算能力的較小模型可以與立即給出答案的較大模型相匹配,從而重塑成本曲線。

掌握测试时计算扩展

測試時計算擴展意味著在模型回答問題時給予模型更多的思考時間和計算,而不是僅僅在訓練期間使其更大。這是「推理模型」背後的突破,可以透過在回應之前深思熟慮來解決困難的數學和編碼問題。測試時計算擴展是語言人工智慧堆疊的一部分,用於大規模讀取、生成、分類和轉換文字和語音。為了建立深入的理解,請將測試時計算擴展視為一種操作模型,而不是單一功能:定義所需的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,使用測試時計算擴充功能的強大團隊將提示、檢索和審查循環設計為一個整合式通訊系統。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

語言工作流程可以在不犧牲一致性的情況下更快地移動。同時,幻覺事實可以悄悄地進入報告、支持流程或研究成果。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

語言工作流程可以在不犧牲一致性的情況下更快地移動。

語言工作流程可以在不犧牲一致性的情況下更快地移動。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

它擴展了跨語言和溝通方式的訪問。

它擴展了跨語言和溝通方式的訪問。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

團隊可以花更多時間進行判斷,而自動化則可以處理重複。

團隊可以花更多時間進行判斷,而自動化則可以處理重複。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

测试时计算扩展的未来

測試時計算現在是與訓練一起的主要擴展槓桿。預計模型會根據難度來決定思考的難度,透過將長鏈提煉為較短的鏈來進行更便宜的推理,以及將思維與工具呼叫和網路搜尋交織在一起的「代理」循環。隨著推理硬體的改進,深思熟慮的推理將成為科學研究、軟體工程和複雜規劃等高風險任務的預設方式,而快速查找將保持快速且廉價。

現實世界的實施

OpenAI 的 o1 和 o3 模型逐步思考奧林匹克層級的數學問題,在 AIME 和競賽基準上顯著超越即時答案模型。

DeepSeek-R1 使用強化學習來教導長鏈思維推理,公開展示了額外推理計算帶來的巨大準確性提升。

Claude 的擴展思維模式允許開發人員設定令牌預算,以便模型在回復之前對複雜的編碼或分析任務進行更長時間的推理。

AlphaCode 和類似的系統在測試時對數千個候選程式進行取樣,然後對它們進行過濾和排名以解決競爭性程式設計挑戰。

實施模式

实践中的测试时计算扩展

OpenAI 的 o1 和 o3 模型逐步思考奧林匹克層級的數學問題,在 AIME 和競賽基準上顯著超越即時答案模型。

OpenAI 的 o1 和 o3 模型逐步思考奧林匹克層級的數學問題,在 AIME 和競賽基準上顯著超越即時答案模型。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

实践中的测试时计算扩展

DeepSeek-R1 使用強化學習來教導長鏈思維推理,公開展示了額外推理計算帶來的巨大準確性提升。

DeepSeek-R1 使用强化学习来教授长链思维推理,公开展示额外推理计算带来的巨大准确性提升。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力收益和錯誤成本時,通常會獲得更好的結果。

实践中的测试时计算扩展

Claude 的擴展思維模式允許開發人員設定令牌預算,以便模型在回復之前對複雜的編碼或分析任務進行更長時間的推理。

Claude 的擴展思維模式允許開發人員設定令牌預算,以便模型在回復之前對複雜的編碼或分析任務進行更長時間的推理。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

实践中的测试时计算扩展

AlphaCode 和類似的系統在測試時對數千個候選程式進行取樣,然後對它們進行過濾和排名以解決競爭性程式設計挑戰。

AlphaCode 和類似的系統在測試時對數千個候選程式進行取樣,然後對它們進行過濾和排名,以解決競爭性程式設計挑戰。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

幻覺的事實可以悄悄地進入報告、支持流程或研究成果。

!

及時的敏感性可能會在類似的請求中產生不一致的結果。

!

如果存取控制薄弱,敏感文字資料可能會暴露。

實施路線圖

1

在推出之前定義輸出格式、語氣和品質標準。

在推出之前定義輸出格式、語氣和品質標準。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

當準確性很重要時,請使用可信任來源進行地面回應。

當準確性很重要時,請使用可信任來源進行地面回應。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

為高風險輸出保留人工審查檢查點。

為高風險輸出保留人工審查檢查點。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

追蹤故障模式並定期重新訓練提示或工作流程。

追蹤故障模式並定期重新訓練提示或工作流程。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索