技術指南

SmoothQuant 和激活量化

SmoothQuant 是一種技術,可將大型語言模型的權重和活化壓縮為 8 位元整數,而無需重新訓練。

概述

SmoothQuant 是一種技術,可將大型語言模型的權重和活化壓縮為 8 位元整數,而無需重新訓練。這很重要,因為大模型中的活化包含通常會破壞低精度數學的極端異常值,而 SmoothQuant 可以馴服它們。

SmoothQuant 和活化量化是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。

深入探討

當您將模型從 16 位元浮點數縮小到 8 位元整數時,權重很容易壓縮,但啟動卻很麻煩:某些通道攜帶的值比其他通道大 10 到 100 倍,並且強制它們進入粗略的整數網格會破壞準確性。 SmoothQuant,由Xiao等人介紹。在 2022 年,觀察到權重是平滑且易於量化的,而活化是尖峰的。因此,它在數學上轉移了難度:它將激活通道除以每個通道的比例,並將相應的權重乘以相同的比例。這兩個操作取消,使模型輸出保持不變,但現在兩個張量都處於友好的範圍內。結果是 W8A8(8 位元權重和激活)推理,精度損失接近零,加速速度提高了大約 2 倍,並節省了記憶體。

技術洞察

核心技巧是每通道平滑因子 s,計算公式為 s = max(|X|)^alpha / max(|W|)^(1-alpha)。啟動以 1/s 縮放,權重按 s 縮放,因此矩陣乘積 XW 被保留。由於縮放被離線吸收到前一層的權重或融合操作中,因此它增加了零運行時間成本。 alpha 超參數(通常為 0.5)控制有多少異常值負擔從活化轉移到權重。

掌握 SmoothQuant 和活化量化

SmoothQuant 是一種技術,可將大型語言模型的權重和活化壓縮為 8 位元整數,而無需重新訓練。這很重要,因為大模型中的活化包含通常會破壞低精度數學的極端異常值,而 SmoothQuant 可以馴服它們。 SmoothQuant 和活化量化是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。為了建立深入的理解,請將 SmoothQuant 和 Activation Quantization 視為一種操作模型,而不是單一功能:定義所需的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,使用 SmoothQuant 和 Activation Quantization 的強大團隊根據可靠性和成本優化架構、資料和基礎架構選擇。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

多年來,架構決策決定著效能和營運成本。同時,優化一個基準測試可以隱藏更廣泛的系統弱點。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

多年來,架構決策決定著效能和營運成本。

多年來,架構決策決定著效能和營運成本。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。

技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

更好的工程選擇可以減少生產中的可靠性事故。

更好的工程選擇可以減少生產中的可靠性事故。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

SmoothQuant 與活化量化的未來

SmoothQuant 確定激活異常值是可遷移的而不是不可避免的,想法現在支援生產 INT8 和 FP8 服務。期望平滑與更細粒度的方案相結合,例如每組量化、學習縮放和 4 位激活研究(例如異常值感知方法)。隨著 FP8 硬體(Hopper、Blackwell)的成熟,平滑式平衡將繼續融入編譯器和推理引擎管道中,因此量化幾乎保持免費。

現實世界的實施

透過將記憶體和矩陣乘法成本減半,在 W8A8 上使用更少的 GPU 提供 70B 參數 LLM

在 NVIDIA Hopper/Blackwell 張量核心上啟用 INT8 推理,原生加速 8 位元整數數學

在成本受限的雲端點上部署聊天模型,其中吞吐量加倍可直接削減每個代幣的費用

壓縮 Transformer 編碼器以實現設備上語音或翻譯,其中 8 位元核心運行得更快、更涼爽

實施模式

SmoothQuant 和活化量化的實踐

透過將記憶體和矩陣乘法成本減半,在 W8A8 上使用更少的 GPU 提供 70B 參數 LLM。

透過將記憶體和矩陣乘法成本減半,在 W8A8 上以更少的 GPU 提供 70B 參數 LLM 服務 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

SmoothQuant 和活化量化的實踐

在 NVIDIA Hopper/Blackwell 張量核心上啟用 INT8 推理,原生加速 8 位元整數數學。

在原生加速 8 位元整數數學的 NVIDIA Hopper/Blackwell 張量核心上啟用 INT8 推理 團隊在預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。

SmoothQuant 和活化量化的實踐

在成本受限的雲端點上部署聊天模型,其中吞吐量加倍可以直接削減每個代幣的費用。

在成本受限的雲端點上部署聊天模型,其中吞吐量加倍可以直接削減每個代幣的費用。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力增益和錯誤成本時,通常會獲得更好的結果。

SmoothQuant 和活化量化的實踐

壓縮 Transformer 編碼器以實現設備上的語音或翻譯,其中 8 位元核心運行得更快、更涼爽。

壓縮用於設備上語音或翻譯的變壓器編碼器,其中 8 位元核心運行得更快、更酷 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

優化一項基準測試可以隱藏更廣泛的系統弱點。

!

基礎設施和維護成本常常被低估。

!

隨著系統變得更加複雜,安全性和可觀察性差距可能會擴大。

實施路線圖

1

在實施之前定義延遲、品質和成本目標。

在實施之前定義延遲、品質和成本目標。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在實際負載和資料條件下進行基準測試。

在實際負載和資料條件下進行基準測試。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

儀器監控錯誤、漂移和使用者影響。

儀器監控錯誤、漂移和使用者影響。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

在擴展之前準備回滾和事件回應路徑。

在擴展之前準備回滾和事件回應路徑。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索