概述
DeepMind 於 2022 年推出的 Chinchilla 縮放法則表明,大多數大型語言模型都嚴重缺乏訓練:對於固定的計算預算,您應該大致以相等的比例縮放模型大小和訓練資料。這很重要,因為它重新定義了「最佳」模型大小的含義,並重塑了實驗室花費計算的方式。
Chinchilla Scaling Laws 是語言 AI 堆疊的一部分,用於大規模讀取、生成、分類和轉換文字和語音。
深入探討
在 Chinchilla 之前,趨勢是建立更大的模型(如 175B 參數 GPT-3),同時使用相對少量的資料進行訓練。 DeepMind 訓練了 400 多個跨多種規模和資料預算的模型,然後擬合曲線,在固定計算 (FLOP) 預算下將損失預測為參數和令牌的函數。他們的發現:參數和訓練標記應該一起縮放,大約是 1 比 1 的比例,這意味著每個參數大約有 20 個訓練資料標記。為了證明這一點,他們在 1.4 兆個代幣上訓練了 Chinchilla,這是一個 70B 參數模型,儘管使用相同的計算,但它的性能優於更大的 280B 參數 Gopher,因為它接受了更多數據的訓練。
技術洞察
這些定律來自擬合參數損失函數 L(N, D),其中 N 是參數,D 是標記,包括不可約損失、模型大小和資料大小項。在計算約束下最小化損失(計算大致與 N 乘以 D 成正比)會產生這樣的結果:最優 N 和 D 都隨著具有相似指數的計算冪而增長,因此計算最優比率保持在每個參數 20 個令牌附近。
掌握龍貓縮放法則
DeepMind 於 2022 年推出的 Chinchilla 縮放法則表明,大多數大型語言模型都嚴重缺乏訓練:對於固定的計算預算,您應該大致以相等的比例縮放模型大小和訓練資料。這很重要,因為它重新定義了「最佳」模型大小的含義,並重塑了實驗室花費計算的方式。 Chinchilla Scaling Laws 是語言 AI 堆疊的一部分,用於大規模讀取、生成、分類和轉換文字和語音。為了建立深入的理解,請將 Chinchilla Scaling Laws 視為一種操作模型,而不是單一功能:定義期望的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。
在實踐中,強大的團隊使用 Chinchilla Scaling Laws 將提示、檢索和審查循環設計為一個整合的通訊系統。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。
語言工作流程可以在不犧牲一致性的情況下更快地移動。同時,幻覺事實可以悄悄地進入報告、支持流程或研究成果。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。
戰略影響
語言工作流程可以在不犧牲一致性的情況下更快地移動。
語言工作流程可以在不犧牲一致性的情況下更快地移動。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
它擴展了跨語言和溝通方式的訪問。
它擴展了跨語言和溝通方式的訪問。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
團隊可以花更多時間進行判斷,而自動化則可以處理重複。
團隊可以花更多時間進行判斷,而自動化則可以處理重複。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。
現實世界的實施
DeepMind 的 70B 參數 Chinchilla 透過使用更多數據進行訓練,在使用同等計算的基準測試中擊敗了 280B Gopher
指導團隊在規劃從頭開始的模型時為每個參數預算約 20 個訓練令牌
證明 LLaMA 等較小、資料豐富的模型在推理時運行成本較低
估計計劃的模型是否“訓練不足”,並且從額外數據中獲得的收益比從額外參數中獲得的收益更多
實施模式
實踐中的龍貓縮放法則
DeepMind 的 70B 參數 Chinchilla 透過使用更多資料進行訓練,在使用同等計算的基準測試中擊敗了 280B Gopher。
DeepMind 的 70B 參數 Chinchilla 在使用同等計算的基準測試中擊敗了 280B Gopher,透過對更多數據進行訓練,當團隊預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。
實踐中的龍貓縮放法則
指導團隊在規劃從頭開始的模型時為每個參數預算約 20 個訓練代幣。
在規劃從頭開始的模型時,指導團隊為每個參數預算約 20 個訓練代幣。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。
實踐中的龍貓縮放法則
證明 LLaMA 等較小、數據豐富的模型在推理時運行成本較低。
證明像 LLaMA 這樣的小型、數據豐富的模型在推理時運行成本更低。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。
實踐中的龍貓縮放法則
估計計劃的模型是否“訓練不足”,並且從額外的數據而不是額外的參數中獲益更多。
估計計劃的模型是否“訓練不足”,以及從額外的數據中獲得的收益是否比從額外的參數中獲得的收益更多當團隊預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。
風險與防護欄
幻覺的事實可以悄悄地進入報告、支持流程或研究成果。
及時的敏感性可能會在類似的請求中產生不一致的結果。
如果存取控制薄弱,敏感文字資料可能會暴露。
實施路線圖
在推出之前定義輸出格式、語氣和品質標準。
在推出之前定義輸出格式、語氣和品質標準。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
當準確性很重要時,請使用可信任來源進行地面回應。
當準確性很重要時,請使用可信任來源進行地面回應。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
為高風險輸出保留人工審查檢查點。
為高風險輸出保留人工審查檢查點。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。
追蹤故障模式並定期重新訓練提示或工作流程。
追蹤故障模式並定期重新訓練提示或工作流程。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。