語言人工智慧指南

YaRN 上下文視窗縮放

YaRN(另一個 RoPE 擴展)是一種將 Transformer 的可用上下文視窗延伸到遠遠超出其訓練範圍的技術,只需進行最少的微調。

概述

YaRN(另一個 RoPE 擴展)是一種將 Transformer 的可用上下文視窗延伸到遠遠超出其訓練範圍的技術,只需進行最少的微調。這很重要,因為它可以讓現有模型處理更長的文檔,而無需從頭開始重新訓練。

YaRN 上下文視窗縮放是語言 AI ​​堆疊的一部分,用於大規模讀取、生成、分類和轉換文字和語音。

深入探討

大多數現代法學碩士都使用旋轉位置嵌入 (RoPE) 來編碼單字位置,這種方法只能在模型訓練期間看到的長度內有效。輸入較長的序列,模型會嚴重退化。 YaRN 透過以頻率感知的方式重新調整 RoPE 的旋轉頻率來解決這個問題:高頻維度(捕獲本地、附近的關係)大部分保持不變,而低頻維度(捕獲遠端位置)則進行插值。它還增加了注意力的溫度調節,以保持邏輯在遠距離表現良好。結果在 LLaMA 模型上得到了證明,僅使用約 0.1% 的原始訓練資料和數百個微調步驟,即可將上下文從 4K 擴展到 64K-128K 令牌。

技術洞察

RoPE 將查詢向量和鍵向量旋轉與位置和每維度頻率成比例的角度。樸素的線性內插(位置內插)會同等地壓縮所有頻率,進而損害局部細節。 YaRN 則相反地應用「NTK-by-parts」:它僅對低頻(長波長)維度進行插值,單獨保留高頻維度,並在它們之間進行斜坡。注意力溫度的縮放可以補償熵位移,從而在擴展長度下保持準確性。

掌握 YaRN 上下文視窗縮放

YaRN(另一個 RoPE 擴展)是一種將 Transformer 的可用上下文視窗延伸到遠遠超出其訓練範圍的技術,只需進行最少的微調。這很重要,因為它可以讓現有模型處理更長的文檔,而無需從頭開始重新訓練。 YaRN 上下文視窗縮放是語言 AI ​​堆疊的一部分,用於大規模讀取、生成、分類和轉換文字和語音。為了建立深入的理解,請將 YaRN 上下文視窗縮放視為一種操作模型,而不是單一功能:定義所需的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,使用 YaRN Context Window Scaling 的強大團隊將提示、檢索和審查循環設計為一個整合式通訊系統。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

語言工作流程可以在不犧牲一致性的情況下更快地移動。同時,幻覺事實可以悄悄地進入報告、支持流程或研究成果。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

語言工作流程可以在不犧牲一致性的情況下更快地移動。

語言工作流程可以在不犧牲一致性的情況下更快地移動。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

它擴展了跨語言和溝通方式的訪問。

它擴展了跨語言和溝通方式的訪問。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

團隊可以花更多時間進行判斷,而自動化則可以處理重複。

團隊可以花更多時間進行判斷,而自動化則可以處理重複。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

YaRN 上下文視窗縮放的未來

YaRN 風格的頻率感知擴展已成為發布長上下文模型的預設成分;隨著實驗室向百萬代幣窗口推進,變體和後繼者不斷出現。期望與高效關注、KV 快取壓縮和根據請求動態調整的動態擴展進行更緊密的整合。更廣泛的趨勢是將「模型訓練多長時間」與「模型可以有效讀取多長時間」脫鉤,使長上下文成為廉價的訓練後功能,而不是昂貴的架構承諾。

現實世界的實施

將開放的 LLaMA 模型從 4K 擴展到 128K 代幣,以便它可以一次攝取整個程式碼庫或長合約

讓聊天機器人保留很長的對話歷史記錄,而不會截斷先前的對話

總結超出基本模型本機視窗的書本長度文件或多小時轉錄本

僅使用少量微調運行即可廉價地調整預訓練模型以執行長上下文檢索任務

實施模式

YaRN 上下文視窗縮放實踐

將開放的 LLaMA 模型從 4K 代幣擴展到 128K 代幣,以便它可以一次攝取整個程式碼庫或長合約。

將開放的 LLaMA 模型從 4K 擴展到 128K 代幣,這樣它就可以一次攝取整個程式碼庫或長期合約。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

YaRN 上下文視窗縮放實踐

讓聊天機器人保留很長的對話歷史記錄,而不會截斷先前的對話。

讓聊天機器人保留很長的對話歷史記錄,而不會截斷早期的對話當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

YaRN 上下文視窗縮放實踐

總結超出基本模型本機視窗的書本長度的文件或多小時的文字記錄。

總結超出基本模型本機視窗的書本長度的文檔或多小時的記錄 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。

YaRN 上下文視窗縮放實踐

僅使用少量微調運行即可廉價地調整預訓練模型以執行長上下文檢索任務。

只需進行少量微調運行,即可廉價地調整預訓練模型來執行長上下文檢索任務。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

幻覺的事實可以悄悄地進入報告、支持流程或研究成果。

!

及時的敏感性可能會在類似的請求中產生不一致的結果。

!

如果存取控制薄弱,敏感文字資料可能會暴露。

實施路線圖

1

在推出之前定義輸出格式、語氣和品質標準。

在推出之前定義輸出格式、語氣和品質標準。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

當準確性很重要時,請使用可信任來源進行地面回應。

當準確性很重要時,請使用可信任來源進行地面回應。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

為高風險輸出保留人工審查檢查點。

為高風險輸出保留人工審查檢查點。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

追蹤故障模式並定期重新訓練提示或工作流程。

追蹤故障模式並定期重新訓練提示或工作流程。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索