語言人工智慧指南

QLoRA 和 4 位元微調

QLoRA 是一種技術,可讓您透過以每個權重僅 4 位元儲存凍結模型來微調單一消費級 GPU 上的大規模語言模型。

概述

QLoRA 是一種技術,可讓您透過以每個權重僅 4 位元儲存凍結模型來微調單一消費級 GPU 上的大規模語言模型。它使得在硬體上自訂 65B 參數模型成為可能,而以前只能處理該尺寸的一小部分模型。

QLoRA 和 4 位元微調是用於大規模讀取、生成、分類和轉換文字和語音的語言 AI ​​堆疊的一部分。

深入探討

通常,微調大型模型意味著以 16 位元精度加載每個權重並更新所有權重,這需要大量記憶體。 QLoRA 結合了兩種想法。首先,它凍結預訓練模型並將其量化為 4 位,將記憶體削減約四倍。其次,它使用 LoRA:它不是更新巨大的權重矩陣,而是在它們旁邊注入微小的可訓練低階適配器矩陣,因此只有幾百萬個參數更新。 4 位底座保持固定,而梯度僅流過小適配器。 QLoRA 由 Dettmers 及其同事於 2023 年推出,表明在一個 48GB GPU 上微調 65B 模型可以與完整 16 位元微調的品質相媲美。

技術洞察

QLoRA 引入了三個技巧。 NF4(4 位元 NormalFloat)是一種針對神經權重的鐘形曲線分佈進行最佳化的資料類型,比普通 int4 具有更好的準確性。雙量化會壓縮量化常數本身,從而節省額外的記憶體。分頁優化器使用 GPU-CPU 統一記憶體來吸收長序列期間的峰值,防止記憶體不足崩潰。在前向和後向傳遞過程中,4 位權重被反量化為 16 位,以便進行矩陣乘法,然後被丟棄。

掌握 QLoRA 和 4 位元微調

QLoRA 是一種技術,可讓您透過以每個權重僅 4 位元儲存凍結模型來微調單一消費級 GPU 上的大規模語言模型。它使得在硬體上自訂 65B 參數模型成為可能,而以前只能處理該尺寸的一小部分模型。 QLoRA 和 4 位元微調是用於大規模讀取、生成、分類和轉換文字和語音的語言 AI ​​堆疊的一部分。為了建立深入的理解,請將 QLoRA 和 4 位元微調視為一種操作模型,而不是單一功能:定義所需的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,使用 QLoRA 和 4 位元微調的強大團隊將提示、檢索和審查循環設計為一個整合式通訊系統。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

語言工作流程可以在不犧牲一致性的情況下更快地移動。同時,幻覺事實可以悄悄地進入報告、支持流程或研究成果。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

語言工作流程可以在不犧牲一致性的情況下更快地移動。

語言工作流程可以在不犧牲一致性的情況下更快地移動。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

它擴展了跨語言和溝通方式的訪問。

它擴展了跨語言和溝通方式的訪問。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

團隊可以花更多時間進行判斷,而自動化則可以處理重複。

團隊可以花更多時間進行判斷,而自動化則可以處理重複。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

QLoRA 與 4 位元微調的未來

4 位微調已成為標準做法,現在的研究正在朝著更低的精度方向發展,包括 2 位和 1 位(三進位)表示。 AWQ、GPTQ 和 HQQ 等較新的量化方案進一步提高了準確性,而 QA-LoRA 等技術的目標是即使在合併適配器後也能保持模型的量化。隨著開放重量模型的發展,愛好者可以期待工具能夠在單一遊戲 GPU 上微調 70B 以上的模型,從而成為常規的、民主化的客製化。

現實世界的實施

一家新創公司在單一 48GB GPU 上微調 70B Llama 模型,以自己的品牌聲音建立客戶支援助理,而無需租用伺服器叢集。

一名研究人員使用一台消費級 RTX 4090 一夜之間將開放式模型調整為利基醫療問答資料集。

開發人員為不同的任務創建了數十個小型、可交換的 LoRA 適配器,所有適配器都共享記憶體中載入的一個 4 位元基本模型。

業餘愛好者使用免費的 Colab 級硬體對個人聊天日誌上的模型進行微調,以模仿特定的寫作風格。

實施模式

QLoRA 和 4 位元微調實踐

一家新創公司在單一 48GB GPU 上微調 70B Llama 模型,以自己的品牌聲音建立客戶支援助理,而無需租用伺服器叢集。

一家新創公司在單一 48GB GPU 上微調 70B Llama 模型,以自己的品牌聲音建立客戶支援助理,而無需租用伺服器叢集。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

QLoRA 和 4 位元微調實踐

一名研究人員使用一台消費級 RTX 4090 一夜之間將開放式模型調整為利基醫療問答資料集。

擁有一台消費者 RTX 4090 的研究人員在一夜之間將開放式模型調整為利基醫療問答資料集。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

QLoRA 和 4 位元微調實踐

開發人員為不同的任務創建了數十個小型、可交換的 LoRA 適配器,所有適配器都共享記憶體中載入的一個 4 位元基本模型。

開發人員為不同的任務創建數十個小型、可交換的 LoRA 適配器,所有適配器都共享載入在記憶體中的一個 4 位元基本模型。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

QLoRA 和 4 位元微調實踐

業餘愛好者使用免費的 Colab 級硬體對個人聊天日誌上的模型進行微調,以模仿特定的寫作風格。

業餘愛好者使用免費的 Colab 級硬體對個人聊天日誌上的模型進行微調,以模仿特定的寫作風格。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

幻覺的事實可以悄悄地進入報告、支持流程或研究成果。

!

及時的敏感性可能會在類似的請求中產生不一致的結果。

!

如果存取控制薄弱,敏感文字資料可能會暴露。

實施路線圖

1

在推出之前定義輸出格式、語氣和品質標準。

在推出之前定義輸出格式、語氣和品質標準。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

當準確性很重要時,請使用可信任來源進行地面回應。

當準確性很重要時,請使用可信任來源進行地面回應。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

為高風險輸出保留人工審查檢查點。

為高風險輸出保留人工審查檢查點。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

追蹤故障模式並定期重新訓練提示或工作流程。

追蹤故障模式並定期重新訓練提示或工作流程。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索