基礎知識指南

標籤平滑

標籤平滑是一種簡單的正規化技巧,可以軟化困難的單熱訓練目標,告訴模型正確的答案很有可能,但不是 100% 確定。

概述

標籤平滑是一種簡單的正規化技巧,可以軟化困難的單熱訓練目標,告訴模型正確的答案很有可能,但不是 100% 確定。它改進了影像和語言模型的校準和泛化,幾乎沒有額外的成本。

標籤平滑位於核心人工智慧工具包中。當你理解它時,其他人工智慧主題就變得更容易評估和比較。

深入探討

通常,分類器是在 one-hot 標籤上進行訓練的:真實類別的目標為 1.0,其他所有類別均為 0.0。與交叉熵和 softmax 結合,這會推動模型使正確的 logit 無限大於其餘的 logit,從而鼓勵過度自信和過度擬合。標籤平滑將真實類別的目標替換為 (1 - epsilon),並將 epsilon/(K-1) 分佈到其他 K 類別,其中 epsilon 較小(通常為 0.1)。該模型現在的目標是有信心但不是絕對的分佈。它在 2016 年的 Inception-v3 工作中引入,後來由 Hinton 小組進行了分析,它提高了 ImageNet 的準確性,並且是 Transformers 中的標準,其中最初的 Attention Is All You Need 論文使用了 0.1 的 epsilon。

技術洞察

使用硬標籤,最小化交叉熵可以使正確的 logit 相對於其他 logit 趨向正無窮大,這是無法實現的,並且會將權重推向極端。平滑設定了正確 logit 和其餘 logit 之間的有限最佳差距,因此 logit 保持有界,並且模型不再具有最大置信度。研究表明,這會收緊同類集群並產生更好的校準機率,預測的置信度與實際的準確性相符。權衡:它可以消除細粒度的類間相似性訊息,這有時會損害那些軟關係很重要的知識蒸餾。

掌握標籤平滑

標籤平滑是一種簡單的正規化技巧,可以軟化困難的單熱訓練目標,告訴模型正確的答案很有可能,但不是 100% 確定。它改進了影像和語言模型的校準和泛化,幾乎沒有額外的成本。標籤平滑位於核心人工智慧工具包中。當你理解它時,其他人工智慧主題就變得更容易評估和比較。為了建立深入的理解,請將標籤平滑視為一種操作模型,而不是單一功能:定義期望的結果,澄清假設,並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。

在實踐中,使用標籤平滑的強大團隊首先建立強大的概念模型,然後將這些模型對應到實際的生產限制。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

它可以幫助您將清晰的技術聲明與行銷語言分開。同時,不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

它可以幫助您將清晰的技術聲明與行銷語言分開。

它可以幫助您將清晰的技術聲明與行銷語言分開。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

在花費金錢或時間之前,您可以提出更好的實施問題。

在花費金錢或時間之前,您可以提出更好的實施問題。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

標籤平滑的未來

標籤平滑仍然是大規模訓練中的預設設置,但研究正在轉向自適應和學習平滑,即根據範例或類別調整 epsilon,而不是使用單一值。通常會權衡焦損和溫度縮放等以校準為重點的方法或與之結合。隨著模型的發展和可靠的不確定性估計變得對安全至關重要,預計平滑將成為產生值得信賴的置信度評分的眾多工具之一,並仔細注意其與蒸餾的已知衝突。

現實世界的實施

ImageNet 分類:Inception-v3 使用標籤平滑 (epsilon 0.1) 來提高 top-1 準確率並減少過度自信。

機器翻譯:原始 Transformer 應用了 0.1 的標籤平滑,用一點困惑換取了更高的 BLEU 分數。

語音識別:平滑的目標可減少過度自信的誤識別,並改善噪音音訊的校準。

醫學影像模型:平滑可以產生更好校準的機率,這在置信度分數為臨床決策提供資訊時很重要。

實施模式

標籤平滑實踐

ImageNet 分類:Inception-v3 使用標籤平滑 (epsilon 0.1) 來提高 top-1 準確率並減少過度自信。

ImageNet 分類:Inception-v3 使用標籤平滑(epsilon 0.1)來提高 top-1 準確性並減少過度自信。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力增益和錯誤成本時,通常會獲得更好的結果。

標籤平滑實踐

機器翻譯:原始 Transformer 應用了 0.1 的標籤平滑,用一點困惑換取了更高的 BLEU 分數。

機器翻譯:最初的 Transformer 應用了 0.1 的標籤平滑,以一點困惑換取更高的 BLEU 分數。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

標籤平滑實踐

語音識別:平滑的目標可減少過度自信的誤識別,並改善噪音音訊的校準。

語音辨識:平滑的目標可以減少過度自信的誤識別並改善對雜訊音訊的校準當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤隨著時間的推移提高的生產力和錯誤成本時,通常會得到更好的結果。

標籤平滑實踐

醫學影像模型:平滑可以產生更好校準的機率,這在置信度分數為臨床決策提供資訊時很重要。

醫學影像模型:平滑可以產生更好校準的機率,這在置信度分數為臨床決策提供資訊時非常重要。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。

!

基準測試可能看起來很強大,但實際效能卻參差不齊。

!

忽視數據品質和評估計劃通常會產生脆弱的結果。

實施路線圖

1

從您需要的結果的簡單語言定義開始。

從您需要的結果的簡單語言定義開始。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在測試之前選擇一種成功指標和一種失敗條件。

在測試之前選擇一種成功指標和一種失敗條件。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

使用代表性資料運行小型試點,而不是完善的演示集。

使用代表性資料運行小型試點,而不是完善的演示集。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

記錄標籤平滑在哪些方面有幫助以及在哪些方面更簡單的方法更好。

記錄標籤平滑在哪些方面有幫助以及在哪些方面更簡單的方法更好。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索