基礎知識指南

過擬合與欠擬合

過度擬合是指模型記住了其訓練數據,但在新範例上卻失敗了;欠擬合是指過於簡單而無法捕捉真實模式。

概述

過度擬合是指模型記住了其訓練數據,但在新範例上卻失敗了;欠擬合是指過於簡單而無法捕捉真實模式。找到它們之間的最佳平衡點是機器學習的核心挑戰。

過擬合和欠擬合位於核心人工智慧工具包中。當你理解它時,其他人工智慧主題就變得更容易評估和比較。

深入探討

每個模型都適合有限的訓練集,但目標是在未見過的數據上表現良好。過度擬合模型將訓練集的雜訊和怪癖視為真實訊號:它可能在訓練資料上得分為 99%,但在測試集上得分卻​​下降到 70%。欠擬合模型是相反的問題,過於僵化而無法捕捉底層結構,因此它在訓練和測試資料上的表現都很差。訓練和測試表現之間的差距是一個明顯的跡象。欠擬合在任何地方都顯示為高誤差(高偏差);過度擬合表現為低訓練誤差但高測試誤差(高方差)。技巧是識別你遇到的問題,因為修復的方向是相反的。

技術洞察

過度擬合和欠擬合是偏差-方差權衡的兩端。偏差是由於過於簡單化的假設而產生的錯誤;方差是由於對特定訓練樣本過於敏感而產生的誤差。微小的線性模型具有高偏差和低方差(欠擬合);巨大的無約束模型具有低偏差和高方差(過度擬合)。總預期誤差大致分解為偏差平方加方差加上不可約雜訊。從業者透過將訓練集的準確性與保留的驗證集進行比較,觀察兩條曲線的分歧來檢測問題。

掌握過擬合與欠擬合

過度擬合是指模型記住了其訓練數據,但在新範例上卻失敗了;欠擬合是指過於簡單而無法捕捉真實模式。找到它們之間的最佳平衡點是機器學習的核心挑戰。過擬合和欠擬合位於核心人工智慧工具包中。當你理解它時,其他人工智慧主題就變得更容易評估和比較。為了建立深入的理解,請將過度擬合和欠擬合視為一種操作模型,而不是單一特徵:定義期望的結果,澄清假設,並將系統可以可靠地執行的操作與仍然需要專家判斷的操作分開。

在實踐中,使用過度擬合和欠擬合的強大團隊首先建立強大的概念模型,然後將這些模型對應到實際的生產限制。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

它可以幫助您將清晰的技術聲明與行銷語言分開。同時,不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

它可以幫助您將清晰的技術聲明與行銷語言分開。

它可以幫助您將清晰的技術聲明與行銷語言分開。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

在花費金錢或時間之前,您可以提出更好的實施問題。

在花費金錢或時間之前,您可以提出更好的實施問題。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

過擬合與欠擬合的未來

這些概念仍然是基礎概念,但非常大的神經網路使經典圖像變得複雜。現代模型可以擁有比數據點多得多的參數,但仍能很好地概括,這是一種令人驚訝的機制,有時被稱為“雙下降”,其中測試誤差在過度擬合峰值後再次下降。研究越來越關注過度參數化模型泛化的原因、優化器中隱式正則化的作用以及更好地自動檢測分佈偏移。當現實世界的數據偏離訓練數據時,預計會有更豐富的診斷來標記生產中的過度擬合。

現實世界的實施

垃圾郵件過濾器,標記包含特定寄件者姓名的每封電子郵件,因為該寄件者恰好在訓練資料中大量發送垃圾郵件,完全錯過了新的垃圾郵件發送者(過度擬合)。

僅使用平方英尺並忽略位置、臥室和條件的房價模型,因此它在昂貴的社區中嚴重缺失(擬合不足)。

醫學影像分類器學習檢測醫院的掃描器水印而不是疾病,但在其他醫院失敗(過度擬合虛假特徵)。

繪製訓練期間的訓練損失與驗證損失的圖,並在驗證損失開始上升而訓練損失持續下降時停止(及早發現過度擬合)。

實施模式

實踐中的過擬合與欠擬合

垃圾郵件過濾器,標記包含特定寄件者姓名的每封電子郵件,因為該寄件者恰好在訓練資料中大量發送垃圾郵件,完全錯過了新的垃圾郵件發送者(過度擬合)。

垃圾郵件過濾器會標記包含特定寄件者姓名的每封電子郵件,因為該寄件者在訓練資料中碰巧大量發送垃圾郵件,完全漏掉了新的垃圾郵件發送者(過度擬合)。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

實踐中的過擬合與欠擬合

僅使用平方英尺並忽略位置、臥室和條件的房價模型,因此它在昂貴的社區中嚴重缺失(擬合不足)。

僅使用平方英尺而忽略位置、臥室和條件的房價模型,因此在昂貴的社區中會嚴重失敗(擬合不足)。當團隊預先定義品質閾值、為邊緣情況保留人為升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

實踐中的過擬合與欠擬合

醫學影像分類器學習檢測醫院的掃描器水印而不是疾病,但在其他醫院失敗(過度擬合虛假特徵)。

醫學影像分類器學會檢測醫院的掃描器浮水印而不是疾病,但在其他醫院卻失敗了(對虛假特徵過度擬合)。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

實踐中的過擬合與欠擬合

繪製訓練期間的訓練損失與驗證損失的圖,並在驗證損失開始上升而訓練損失持續下降時停止(及早發現過度擬合)。

繪製訓練期間的訓練損失與驗證損失的圖,並在驗證損失開始上升而訓練損失持續下降時停止(及早發現過度擬合)。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。

!

基準測試可能看起來很強大,但實際效能卻參差不齊。

!

忽視數據品質和評估計劃通常會產生脆弱的結果。

實施路線圖

1

從您需要的結果的簡單語言定義開始。

從您需要的結果的簡單語言定義開始。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在測試之前選擇一種成功指標和一種失敗條件。

在測試之前選擇一種成功指標和一種失敗條件。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

使用代表性資料運行小型試點,而不是完善的演示集。

使用代表性資料運行小型試點,而不是完善的演示集。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

記錄過度擬合和欠擬合在哪些方面有幫助,以及哪些更簡單的方法更好。

記錄過度擬合和欠擬合在哪些方面有幫助,以及哪些更簡單的方法更好。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索