基礎知識指南

自玩微調

自對弈微調透過讓它與自己過去的產出競爭或學習，產生自己的訓練訊號來改進模型。

概述

自對弈微調透過讓它與自己過去的產出競爭或學習，產生自己的訓練訊號來改進模型。這很重要，因為它可以使用很少或不使用額外的人工標籤來將效能提升到超出監督資料的水平。

自我對弈微調位於核心人工智慧工具包。當你理解它時，其他人工智慧主題就變得更容易評估和比較。

深入探討

自對弈在遊戲人工智慧中有著深厚的根源：AlphaGo Zero 和 AlphaZero 純粹是透過與自己進行數百萬局比賽而達到超人的水平，沒有人類的對局記錄。同樣的精神現在也出現在語言模型微調中。在SPIN（自玩微調）中，當前模型產生對提示的反應，訓練推動模型將自己產生的答案與原始人類編寫的答案區分開來，將自己視為玩家和對手。經過連續的迭代，「對手」（前一個檢查點）變得更強，因此模型必須不斷改進，逐漸縮小與目標分佈的差距。最大的吸引力在於資料效率：可以壓縮固定的監督資料集以獲得更多收益，而無需收集新的人類演示或偏好。

技術洞察

SPIN 將微調作為具有 DPO 式損失的兩人遊戲：模型經過訓練，可以為人類參考響應分配比在先前迭代中自己生成的響應更高的可能性。由於先前的檢查點提供了負數，因此難度會隨著模型的改進而自動縮放。在遊戲系統中，自我遊戲與搜尋（例如 MCTS）和價值網絡相結合，在沒有外部數據的情況下產生越來越難的對手的無盡課程。

掌握自我調節微調

為了建立深入的理解，請將自我調整微調視為一種操作模型，而不是單一功能。定義期望的結果，澄清假設，並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。

在實踐中，使用自我微調微調的強大團隊首先建立強大的概念模型，然後將這些模型映射到實際的生產限制。他們記錄明確的成功標準，根據實際數據和工作流程進行測試，並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

它可以幫助您將清晰的技術聲明與行銷語言分開。同時，不同的團隊可能會以不同的方式使用相同術語，因此請儘早定義範圍。最具彈性的方法是將實驗速度與治理規則結合：運行試點、捕獲證據、發布決策日誌，並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

它可以幫助您將清晰的技術聲明與行銷語言分開。

它可以幫助您將清晰的技術聲明與行銷語言分開。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

在花費金錢或時間之前，您可以提出更好的實施問題。

在花費金錢或時間之前，您可以提出更好的實施問題。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

自玩微調的未來

自我遊戲是打破數據牆的主要候選者，因為它製作自己的課程，而不是依賴稀缺的人類標籤。預計數學、程式碼和定理證明等可驗證領域的成長，其中自動檢查器會對自我生成的嘗試進行評分。風險包括獎勵駭客和模型因過多的合成輸出訓練而崩潰，因此未來的系統可能會將自我遊戲與接地訊號、驗證器以及定期的人類或現實世界回饋結合起來。

現實世界的實施

AlphaGo Zero 和 AlphaZero 完全透過自我對弈達到超人的圍棋、西洋棋和將棋水平，而無需人類對弈

SPIN 透過迭代區分自己的輸出和人類參考答案來提高 LLM 的基準分數

數學和編碼模型產生解決方案嘗試，然後對自動檢查器或單元測試驗證的模型進行訓練

談判和對話代理透過反覆讓對話雙方互相對抗來改進策略

實施模式

實踐中的自我對弈微調

AlphaGo Zero 和 AlphaZero 完全透過自我對弈達到了超人的圍棋、西洋棋和將棋水平，而沒有人類對弈。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

實踐中的自我對弈微調

SPIN 透過迭代地將自己的產出與人類參考答案區分開來提高法學碩士的基準分數。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

實踐中的自我對弈微調

數學和編碼模型產生解決方案嘗試，然後對自動檢查器或單元測試驗證的模型進行訓練。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

實踐中的自我對弈微調

談判和對話代理透過反覆讓對話雙方互相對抗來改進策略。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

風險與防護欄

不同的團隊可能會以不同的方式使用相同術語，因此請儘早定義範圍。

基準測試可能看起來很強大，但實際效能卻參差不齊。

忽視數據品質和評估計劃通常會產生脆弱的結果。

實施路線圖

從您需要的結果的簡單語言定義開始。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

在測試之前選擇一種成功指標和一種失敗條件。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

使用代表性資料運行小型試點，而不是完善的演示集。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

記錄自玩微調在哪些方面有幫助以及在哪些方面更簡單的方法更好。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

不斷探索

什麼是人工智慧？

在深入研究之前先了解基本概念。

閱讀指南

人工智慧如何學習

了解現代系統背後的訓練過程。

閱讀指南

Check your understanding

Test yourself: take the Self-Play Fine-Tuning quiz

Start quiz →

自玩微調

概述

深入探討

技術洞察

掌握自我調節微調

戰略影響

自玩微調的未來

現實世界的實施

實施模式

實踐中的自我對弈微調

實踐中的自我對弈微調

實踐中的自我對弈微調

實踐中的自我對弈微調

風險與防護欄

實施路線圖

不斷探索

什麼是人工智慧？

人工智慧如何學習

Related guides