技術指南

推測流和多令牌預測

推測流和多令牌預測通過一次猜測多個未來令牌並在一次傳遞中驗證它們而不是一次生成一個令牌來加速語言模型的生成。

概述

推測流和多令牌預測通過一次猜測多個未來令牌並在一次傳遞中驗證它們而不是一次生成一個令牌來加速語言模型的生成。他們在不更改模型編寫文字的情況下縮短了延遲。

推測流和多令牌預測是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。

深入探討

正常的自回歸解碼速度很慢,因為每個令牌都需要完整的前向傳遞,而令牌嚴格地一個接一個地生成,導致 GPU 未充分利用。推測性解碼透過一個廉價的起草者解決了這個問題,該起草者提出了一大塊候選標記,然後大型目標模型並行驗證這些候選標記;與目標生成的內容相匹配的任何前綴都會被免費接受,並且第一個不匹配會被糾正。推測流和美杜莎式多令牌預測將起草者折疊到模型本身:額外的輕量級預測頭(或推測令牌流)讓一個模型既起草又驗證,避免了單獨的草案模型。由於驗證是精確的,因此輸出分佈與標準解碼相同,因此您只需減少 2 到 3 倍的連續步驟。

技術洞察

關鍵在於,變換器可以在一次前向傳遞中對多個位置進行得分,成本與對一個位置的得分一樣便宜,因為在解碼過程中它是記憶體頻寬限制,而不是計算限制。多個預測頭髮出接下來幾個位置的候選標記;候選樹或序列被一起驗證,並且接受使用拒絕採樣(或貪婪匹配),因此接受的令牌遵循確切的目標分佈。每步可接受的長度決定了加速比。

掌握推測流和多令牌預測

推測流和多令牌預測通過一次猜測多個未來令牌並在一次傳遞中驗證它們而不是一次生成一個令牌來加速語言模型的生成。他們在不更改模型編寫文字的情況下縮短了延遲。推測流和多令牌預測是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。為了建立深入的理解,請將推測流和多令牌預測視為一種操作模型,而不是單一功能:定義所需的結果,澄清假設,並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。

在實踐中,使用推測流和多令牌預測的強大團隊根據可靠性和成本優化架構、資料和基礎設施選擇。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

多年來,架構決策決定著效能和營運成本。同時,優化一個基準測試可以隱藏更廣泛的系統弱點。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

多年來,架構決策決定著效能和營運成本。

多年來,架構決策決定著效能和營運成本。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。

技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

更好的工程選擇可以減少生產中的可靠性事故。

更好的工程選擇可以減少生產中的可靠性事故。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

推測流和多令牌預測的未來

不需要單獨草稿模型的自我推測方法正在成為推理引擎的預設方法,研究正在透過更好的草稿頭、樹結構候選以及聯合訓練基礎模型以進行多標記預測(這也可以提高品質)來提高接受率。希望這些技術能夠與量化和批次相結合,以便即使模型不斷增長,互動式助理也會感覺即時。

現實世界的實施

使用美杜莎式額外預測頭將聊天助理的回應延遲縮短 2 到 3 倍

將自推測解碼添加到推理伺服器,因此不需要託管單獨的草稿模型

加速程式碼完成,其中長的、可預測的令牌運行被大塊地接受

透過從每個記憶體綁定的前向傳遞中提取更多令牌來降低每個請求的 GPU 成本

實施模式

實踐中的推測流和多令牌預測

使用美杜莎式額外預測頭將聊天助理的回應延遲縮短 2 到 3 倍。

使用美杜莎式的額外預測頭將聊天助理的響應延遲縮短 2 到 3 倍當團隊預先定義質量閾值、為邊緣情況保留人工升級路徑並跟踪一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

實踐中的推測流和多令牌預測

將自推測解碼添加到推理伺服器,因此不需要託管單獨的草稿模型。

將自推測解碼添加到推理伺服器,因此不需要託管單獨的草稿模型當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的推測流和多令牌預測

加速程式碼完成,其中長的、可預測的令牌運行被大塊地接受。

加速程式碼完成,在大塊中接受長時間、可預測的令牌運行當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的推測流和多令牌預測

透過從每個記憶體綁定的前向傳遞中提取更多令牌來降低每個請求的 GPU 成本。

透過從每個受記憶體限制的前向傳遞中提取更多代幣來降低每個請求的 GPU 成本 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

優化一項基準測試可以隱藏更廣泛的系統弱點。

!

基礎設施和維護成本常常被低估。

!

隨著系統變得更加複雜,安全性和可觀察性差距可能會擴大。

實施路線圖

1

在實施之前定義延遲、品質和成本目標。

在實施之前定義延遲、品質和成本目標。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在實際負載和資料條件下進行基準測試。

在實際負載和資料條件下進行基準測試。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

儀器監控錯誤、漂移和使用者影響。

儀器監控錯誤、漂移和使用者影響。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

在擴展之前準備回滾和事件回應路徑。

在擴展之前準備回滾和事件回應路徑。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索