語言人工智慧指南

比較解碼

對比解碼透過從大而強的語言模型的傾向中減去小而弱的語言模型的傾向來產生更高品質的文本。

概述

對比解碼透過從大而強的語言模型的傾向中減去小而弱的語言模型的傾向來產生更高品質的文本。它放大了專家知道的和業餘愛好者錯過的東西,減少了重複和乏味的輸出。

對比解碼是語言人工智慧堆疊的一部分,用於大規模讀取、生成、分類和轉換文字和語音。

深入探討

當語言模型選擇下一個單字時,它會產生其詞彙表的機率。對比解碼(由 Li 等人於 2022 年提出)在同一上下文中運行兩個模型:一個大的“專家”和一個小的“業餘”。它不相信專家的原始機率,而是根據專家的對數機率和業餘愛好者的對數機率之間的差異對每個候選標記進行評分。專家青睞的代幣,但業餘愛好者卻得不到提升;兩個模特兒都喜歡的通用詞(例如“the”或重複的短語)會被抑制,因為業餘愛好者也喜歡它們。合理性過濾器首先丟棄專家認為不太可能的標記,因此對比永遠不會促進無意義。與貪婪或核心採樣相比,結果是更流暢、連貫、重複性更少的長文本,並且不需要額外的訓練。

技術洞察

核心分數是 log p_expert(token) 減係數乘以 log p_amateur(token)。因為業餘愛好者共享專家的系統錯誤(偏好高頻標記、循環、簡併重複),所以減去其對數機率可以消除這些共享的故障模式,同時保留真正的專家知識。自適應合理性限制僅使標記高於頂級專家機率的一小部分(α),從而防止對比放大罕見的、不連貫的單字。

掌握比較解碼

對比解碼透過從大而強的語言模型的傾向中減去小而弱的語言模型的傾向來產生更高品質的文本。它放大了專家知道的和業餘愛好者錯過的東西,減少了重複和乏味的輸出。對比解碼是語言人工智慧堆疊的一部分,用於大規模讀取、生成、分類和轉換文字和語音。為了建立深入的理解,請將對比解碼視為一種操作模型,而不是單一功能:定義期望的結果,澄清假設,並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。

在實踐中,使用對比解碼的強大團隊將提示、檢索和審查循環設計為一個整合的通訊系統。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

語言工作流程可以在不犧牲一致性的情況下更快地移動。同時,幻覺事實可以悄悄地進入報告、支持流程或研究成果。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

語言工作流程可以在不犧牲一致性的情況下更快地移動。

語言工作流程可以在不犧牲一致性的情況下更快地移動。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

它擴展了跨語言和溝通方式的訪問。

它擴展了跨語言和溝通方式的訪問。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

團隊可以花更多時間進行判斷,而自動化則可以處理重複。

團隊可以花更多時間進行判斷,而自動化則可以處理重複。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

對比解碼的未來

對比解碼啟發了一系列「推理對比」方法,包括 DoLa(對比模型本身的早期層和後期層以減少幻覺)以及與檢索到的文檔和沒有檢索到的文檔進行對比的上下文感知變體。期望與檢索、事實性評分和小業餘愛好者精煉更緊密地集成,再加上與推測性解碼的結合,以便業餘愛好者既可以控製質量,又可以同時加速生成。

現實世界的實施

生成長的、非重複的故事或文章延續,其中核心採樣陷入循環

將 65B 專家與 1.5B 業餘愛好者配對,無需微調即可改進開放式生成

減少摘要和對話輸出中的退化重複

作為 DoLa 式自我對比的基礎,以降低事實幻覺

實施模式

比較解碼實踐

生成長的、非重複的故事或文章延續,其中核心採樣陷入循環。

產生長的、非重複性的故事或文章延續,其中核心採樣陷入循環當團隊預先定義質量閾值、為邊緣情況保留人工升級路徑並跟踪一段時間內的生產力增益和錯誤成本時,通常會得到更好的結果。

比較解碼實踐

將 65B 專家與 1.5B 業餘愛好者配對,無需微調即可改進開放式生成。

將 65B 專家與 1.5B 業餘愛好者配對,無需微調即可改進開放式生成 當團隊預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。

比較解碼實踐

減少摘要和對話輸出中的退化重複。

減少摘要和對話輸出中的退化重複當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

比較解碼實踐

作為多拉式自我對比的基礎,以降低事實幻覺。

作為 DoLa 式自我對比的基礎,以降低事實幻覺 團隊在預先定義品質閾值、為邊緣情況保留人性化升級路徑、並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

幻覺的事實可以悄悄地進入報告、支持流程或研究成果。

!

及時的敏感性可能會在類似的請求中產生不一致的結果。

!

如果存取控制薄弱,敏感文字資料可能會暴露。

實施路線圖

1

在推出之前定義輸出格式、語氣和品質標準。

在推出之前定義輸出格式、語氣和品質標準。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

當準確性很重要時,請使用可信任來源進行地面回應。

當準確性很重要時,請使用可信任來源進行地面回應。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

為高風險輸出保留人工審查檢查點。

為高風險輸出保留人工審查檢查點。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

追蹤故障模式並定期重新訓練提示或工作流程。

追蹤故障模式並定期重新訓練提示或工作流程。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索