視覺人工智慧指南

VQ-VAE 和離散潛伏

VQ-VAE 將影像、音訊或視訊壓縮為從學習的碼本中提取的離散程式碼的小網格，而不是連續的數字。

概述

VQ-VAE 將影像、音訊或視訊壓縮為從學習的碼本中提取的離散程式碼的小網格，而不是連續的數字。這種離散瓶頸使得像 Transformer 這樣強大的序列模型能夠將媒體視為“令牌”，就像單字一樣。

VQ-VAE 和 Discrete Latents 屬於電腦視覺工作流程，可解釋或產生用於分析、操作和創造力的視覺媒體。

深入探討

VQ-VAE（向量量化變分自動編碼器）由 DeepMind 的 van den Oord 及其同事於 2017 年提出，是一種潛在空間離散的自動編碼器。編碼器將影像轉換為連續向量的網格；然後，每個向量都會被捕捉到學習的嵌入碼本中最近的條目（向量量化）。解碼器根據這些量化程式碼重建影像。由於潛在變數現在是索引的有限詞彙，因此單獨的模型可以學習它們的分佈並產生新內容。這個兩階段配方為 DALL-E 1、音樂點唱機和 VQGAN 提供動力，它增加了感知和對抗性損失，以實現更清晰的重建。 VQ-VAE-2堆疊多種解析度以產生高保真影像。

技術洞察

量化步驟（argmin 最近鄰查找）是不可微的，因此 VQ-VAE 使用直通估計器：梯度直接從解碼器輸入複製回編碼器輸出，就好像量化是恆等式一樣。訓練結合了重建損失、將嵌入拉向編碼器輸出的碼本損失以及使編碼器致力於其所選代碼的承諾損失。常見的故障是碼本崩潰，即僅使用了少數代碼。

掌握 VQ-VAE 和離散潛伏

為了加深理解，請將 VQ-VAE 和離散潛伏期視為操作模型，而不是單一功能。定義期望的結果，澄清假設，並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。

在實踐中，使用 VQ-VAE 和離散潛伏期的強大團隊可以平衡準確性與數據品質、照明差異和標籤一致性等操作現實。他們記錄明確的成功標準，根據實際數據和工作流程進行測試，並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。同時，如果出處不明，肖像權和同意可能會成為法律風險。最具彈性的方法是將實驗速度與治理規則結合：運行試點、捕獲證據、發布決策日誌，並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

創意團隊可以透過更少的手動修改來更快地建立概念原型。

創意團隊可以透過更少的手動修改來更快地建立概念原型。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

操作可以使用以前難以處理的影像和視訊訊號。

操作可以使用以前難以處理的影像和視訊訊號。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

VQ-VAE 和離散潛在變數的未來

離散潛在變數是推動統一多模態模型的核心，該模型將圖像、音訊和視訊標記為與文字相同的詞彙表。殘差和有限標量量化、更大的碼本和更好的使用平衡等改進正在減少崩潰並提高保真度。由於模型的目標是跨模態理解和生成，基於 VQ-VAE 思想的強大分詞器仍將是一個基本要素，其競爭日益激烈，並與連續潛在擴散方法相結合。

現實世界的實施

DALL-E 1 使用離散 VQ-VAE 分詞器，因此 Transformer 可以產生圖像作為碼本索引序列。

VQGAN 將 VQ-VAE 與對抗性和感知損失相結合，為藝術生成生成清晰、高解析度的影像標記。

OpenAI 的 Jukebox 將 VQ-VAE 應用於原始音頻，將音樂壓縮為離散代碼以進行生成建模。

VQ-VAE-2 堆疊分層離散潛在影像來合成多樣化的高保真影像，可與同時代的 GAN 相媲美。

實施模式

VQ-VAE 和離散潛在變數的實踐

DALL-E 1 使用離散 VQ-VAE 分詞器，因此 Transformer 可以產生圖像作為碼本索引序列。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

VQ-VAE 和離散潛在變數的實踐

VQGAN 將 VQ-VAE 與對抗性和感知損失相結合，為藝術生成生成清晰、高解析度的影像標記。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

VQ-VAE 和離散潛在變數的實踐

OpenAI 的 Jukebox 將 VQ-VAE 應用於原始音頻，將音樂壓縮為離散代碼以進行生成建模。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

VQ-VAE 和離散潛在變數的實踐

VQ-VAE-2 堆疊分層離散潛在影像來合成多樣化的高保真影像，可與同時代的 GAN 相媲美。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

風險與防護欄

如果出處不明，肖像權和同意可能會成為法律風險。

模型表現可能因光照、人口統計和環境的不同而有所不同。

除非監控置信閾值，否則誤報可能會被忽略。

實施路線圖

定義精確度、召回率和錯誤成本的接受標準。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

使用符合實際生產條件的數據進行測試。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

為低置信度或高影響力的預測添加人工審核。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

追蹤模型漂移並在相機或資料集變更後重新驗證。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

不斷探索

電腦視覺

了解為視覺人工智慧提供動力的基礎系統。

閱讀指南

人工智慧圖像生成

探索創建工作流程和模型權衡。

閱讀指南

Check your understanding

Test yourself: take the VQ-VAE and Discrete Latents quiz

Start quiz →

VQ-VAE 和離散潛伏

概述

深入探討

技術洞察

掌握 VQ-VAE 和離散潛伏

戰略影響

VQ-VAE 和離散潛在變數的未來

現實世界的實施

實施模式

VQ-VAE 和離散潛在變數的實踐

VQ-VAE 和離散潛在變數的實踐

VQ-VAE 和離散潛在變數的實踐

VQ-VAE 和離散潛在變數的實踐

風險與防護欄

實施路線圖

不斷探索

電腦視覺

人工智慧圖像生成

Related guides