技術指南

隨機權重平均

隨機權重平均 (SWA) 對訓練後期的幾個點的模型權重進行簡單平均,而不是僅保留最終快照。

概述

隨機權重平均 (SWA) 對訓練後期的幾個點的模型權重進行簡單平均,而不是僅保留最終快照。這種廉價的技巧通常會使模型處於更平坦、更廣泛的損失區域中,這往往能夠更好地對未見過的數據進行泛化。

隨機權重平均是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。

深入探討

SWA 由 Izmailov、Wilson 及其同事於 2018 年提出,它利用了這樣的觀察結果:具有恆定或週期性學習率的 SGD 不會收斂到一個點 - 它會圍繞一個寬闊、平坦的山谷的邊緣反彈。 SWA 沒有選擇這些嘈雜的停止點之一,而是在最後的 epoch 中運行中等高的(通常是恆定的或循環的)學習率,並對它訪問的權重(通常是每個 epoch)進行平均。平均權重更靠近平坦區域的中心。由於批量歸一化統計資料是針對特定權重計算的,因此 SWA 需要對資料進行額外的前向傳遞,以重新計算平均模型的 BN 運行平均值和變異數。成本基本上是免費的,並且在影像分類器和其他分類器之間的準確性增益是一致的。

技術洞察

SWA 保持每個週期更新的運行平均值 w_SWA = (n·w_SWA + w_i)/(n+1),而即時 SGD 模型以相對較大的學習率不斷探索。權重空間中的平均近似於函數空間中的一個整體,但在推理時只需要一個模型,而不是很多。關鍵機制是平坦最小值對於權重擾動具有穩健性,因此訓練/測試損失表面保持對齊,從而減少泛化差距。

掌握隨機權重平均

隨機權重平均 (SWA) 對訓練後期的幾個點的模型權重進行簡單平均,而不是僅保留最終快照。這種廉價的技巧通常會使模型處於更平坦、更廣泛的損失區域中,這往往能夠更好地對未見過的數據進行泛化。隨機權重平均是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。為了建立深入的理解,請將隨機權重平均視為一種操作模型,而不是單一功能:定義期望的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,使用隨機權重平均的強大團隊根據可靠性和成本優化架構、資料和基礎設施選擇。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

多年來,架構決策決定著效能和營運成本。同時,優化一個基準測試可以隱藏更廣泛的系統弱點。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

多年來,架構決策決定著效能和營運成本。

多年來,架構決策決定著效能和營運成本。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。

技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

更好的工程選擇可以減少生產中的可靠性事故。

更好的工程選擇可以減少生產中的可靠性事故。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

隨機權重平均的未來

SWA 催生了諸如 SWA-Gaussian (SWAG) 之類的變體,以降低貝葉斯不確定性,而平均思想現在支撐著廣泛應用於擴散模型、自監督學習和大型模型預訓練中的指數移動平均技巧。預計體重平均仍將是訓練食譜中預設的“免費午餐”,研究將其擴展到合併獨立訓練的模型(模型湯)並改進校準和原始準確性。

現實世界的實施

提高 CIFAR 和 ImageNet 上 ResNet 和 DenseNet 影像分類器的測試準確性,無需額外的推理成本。

SWAG(SWA-高斯)透過單次訓練產生安全敏感預測的校準不確定性估計。

權重 EMA 穩定擴散影像產生器(如穩定擴散)中的取樣網路。

透過對多個微調檢查點進行平均來建立“模型湯”,以提高穩健性,而無需重新訓練。

實施模式

實踐中的隨機權重平均

提高 CIFAR 和 ImageNet 上 ResNet 和 DenseNet 影像分類器的測試準確性,無需額外的推理成本。

提高 CIFAR 和 ImageNet 上 ResNet 和 DenseNet 影像分類器的測試準確性,且無需額外的推理成本 團隊在預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的隨機權重平均

SWAG(SWA-高斯)透過單次訓練產生安全敏感預測的校準不確定性估計。

SWAG (SWA-Gaussian) 透過單次訓練為安全敏感預測產生校準的不確定性估計。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的隨機權重平均

權重 EMA 穩定擴散影像產生器(如穩定擴散)中的取樣網路。

權重 EMA 穩定擴散影像產生器中的取樣網路(例如穩定擴散團隊),當他們預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的隨機權重平均

透過對多個微調檢查點進行平均來建立“模型湯”,以提高穩健性,而無需重新訓練。

透過對多個微調檢查點進行平均來建立“模型湯”,以提高穩健性,而無需重新培訓。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

優化一項基準測試可以隱藏更廣泛的系統弱點。

!

基礎設施和維護成本常常被低估。

!

隨著系統變得更加複雜,安全性和可觀察性差距可能會擴大。

實施路線圖

1

在實施之前定義延遲、品質和成本目標。

在實施之前定義延遲、品質和成本目標。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在實際負載和資料條件下進行基準測試。

在實際負載和資料條件下進行基準測試。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

儀器監控錯誤、漂移和使用者影響。

儀器監控錯誤、漂移和使用者影響。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

在擴展之前準備回滾和事件回應路徑。

在擴展之前準備回滾和事件回應路徑。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索