基礎知識指南

雙下降現象

雙重下降是一個令人驚訝的觀察結果,即隨著模型變大,測試誤差首先在「插值閾值」附近變得更糟,但隨後又變得更好——這違背了經典教科書的權衡。

概述

雙重下降是一個令人驚訝的觀察結果,即隨著模型變大,測試誤差首先在「插值閾值」附近變得更糟,但隨後又變得更好——這違背了經典教科書的權衡。這很重要,因為它有助於解釋為什麼巨大的、過度參數化的神經網路能夠很好地泛化而不是過度擬合。

雙下降現象位於核心人工智慧工具包。當你理解它時,其他人工智慧主題就變得更容易評估和比較。

深入探討

經典統計學告訴我們一條 U 形曲線:隨著模型複雜度的增加,測試誤差下降,觸底,然後隨著模型過度擬合而上升。雙重下降法由 Belkin、Hsu、Ma 和 Mandal 在 2019 年推廣,並由 OpenAI 進行了大規模研究,顯示曲線有第二次下降。測試誤差在插值閾值處達到峰值,即模型具有足夠參數來準確擬合每個訓練點(零訓練誤差)的點。如果將其推入過度參數化的狀態,測試誤差會再次下降,通常低於經典的最佳點。同樣的效果出現在模型大小、訓練時間(「epoch-wise」雙重下降)和資料集大小。它重新建構了「更多參數總是意味著過度擬合」這一古老的擔憂。

技術洞察

在插值閾值處,本質上存在一種完全適合數據的解決方案,並且它被迫呈鋸齒狀和高範數,因此泛化能力很差。在過度參數化的情況下,存在無限多個零誤差解,且梯度下降的隱式偏差趨向最平滑、最低範數的解。對低複雜度插值器的偏好(而不是參數計數本身)是推動第二次下降以降低測試誤差的原因。

掌握雙下降現象

雙重下降是一個令人驚訝的觀察結果,即隨著模型變大,測試誤差首先在「插值閾值」附近變得更糟,但隨後又變得更好——這違背了經典教科書的權衡。這很重要,因為它有助於解釋為什麼巨大的、過度參數化的神經網路能夠很好地泛化而不是過度擬合。雙下降現象位於核心人工智慧工具包。當你理解它時,其他人工智慧主題就變得更容易評估和比較。為了建立深入的理解,請將雙下降現象視為一種操作模型,而不是單一特徵:定義期望的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,使用雙下降現象的強大團隊首先建立強大的概念模型,然後將這些模型映射到實際的生產限制。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

它可以幫助您將清晰的技術聲明與行銷語言分開。同時,不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

它可以幫助您將清晰的技術聲明與行銷語言分開。

它可以幫助您將清晰的技術聲明與行銷語言分開。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

在花費金錢或時間之前,您可以提出更好的實施問題。

在花費金錢或時間之前,您可以提出更好的實施問題。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

雙下降現象的未來

研究人員正在使用雙重下降來完善縮放法則並選擇何時停止訓練,因為「訓練時間更長,變得更糟,然後更好」具有真正的成本影響。期望有更嚴格的理論將其與隱式正則化、神經正切核和 grokking 連接起來。實際上,這個教訓——更大、更長可以幫助越過危險區域——已經支持了訓練更大的基礎模型而不是精心設計的模型的決定。

現實世界的實施

解釋為什麼 1750 億參數的語言模型儘管容量大得多,但比精心調整的中型語言模型具有更好的泛化能力

選擇訓練超過驗證損失暫時惡化的點,因為曆元雙下降預測稍後的恢復

診斷視覺模型,當參數數量與訓練集大小相符時,模型的準確性會下降,然後引導其更深入地過度參數化

在 AutoML 中告知模型大小決策,以便從業者避免脆弱的內插閾值區域

實施模式

實踐中的雙重下降現象

解釋為什麼 1750 億個參數的語言模型儘管容量大得多,但比精心調整的中型語言模型具有更好的泛化能力。

解釋為什麼擁有 1750 億個參數的語言模型在容量大得多的情況下比精心調整的中型語言模型具有更好的泛化能力。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的雙重下降現象

選擇訓練超過驗證損失暫時惡化的點,因為曆元雙下降預測稍後的恢復。

選擇訓練超過驗證損失暫時惡化的點,因為按時代的雙重下降預測稍後的恢復團隊通常會在預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時獲得更好的結果。

實踐中的雙重下降現象

診斷一個視覺模型,當參數數量與訓練集大小相符時,模型的準確性會下降,然後引導其更深入地過度參數化。

診斷視覺模型,當參數計數與訓練集大小相符時,其準確性會完全下降,然後引導其更深入地過度參數化。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

實踐中的雙重下降現象

在 AutoML 中告知模型大小決策,以便從業者避免脆弱的內插閾值區域。

在 AutoML 中告知模型大小決策,以便從業者避免脆弱的插值閾值區域 當團隊預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。

!

基準測試可能看起來很強大,但實際效能卻參差不齊。

!

忽視數據品質和評估計劃通常會產生脆弱的結果。

實施路線圖

1

從您需要的結果的簡單語言定義開始。

從您需要的結果的簡單語言定義開始。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在測試之前選擇一種成功指標和一種失敗條件。

在測試之前選擇一種成功指標和一種失敗條件。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

使用代表性資料運行小型試點,而不是完善的演示集。

使用代表性資料運行小型試點,而不是完善的演示集。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

記錄雙下降現像在哪些方面有幫助以及在哪些方面更簡單的方法更好。

記錄雙下降現像在哪些方面有幫助以及在哪些方面更簡單的方法更好。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索