視覺人工智慧指南

自回歸影像生成

自回歸影像產生一次建立一張圖片,從先前產生的所有內容中預測每個標記。

概述

自回歸影像產生一次建立一張圖片,從先前產生的所有內容中預測每個標記。這很重要,因為為語言模型提供動力的相同的下一代機器可以產生連貫的、可控的圖像。

自回歸影像生成屬於電腦視覺工作流程,它解釋或產生視覺媒體以進行分析、操作和創造力。

深入探討

自回歸圖像生成將圖片視為序列並逐個元素預測它,其中每個新元素都以所有先前的元素為條件。 PixelRNN 和 PixelCNN 等早期工作每次都預測一個原始像素,逐行掃描,雖然速度很慢,但理論上是乾淨的。現代系統首先使用 VQ-VAE 式編碼器將影像壓縮為離散標記網格,然後 Transformer 從左到右預測這些標記。 OpenAI 的 DALL-E 1 和 Google 的 Parti 遵循此配方,產生以文字提示為條件的圖像標記,然後將其解碼回像素。最大的優點是精確的似然建模和與語言共享的統一架構。成本是連續的、緩慢的採樣。

技術洞察

此模型將所有標記的聯合機率分解為條件的乘積:p(x) = p(x_i 給定 x_1...x_{i-1}) 的乘積。具有因果(屏蔽)注意力的 Transformer 強制每個位置只能看到較早的標記。在訓練期間,它使用教師強制並行預測每個標記,但在推理時,它必須一次採樣一個標記,並將每個標記回饋回來。學習的密碼本將標記映射回圖像塊,解碼器將其上採樣為最終像素。

掌握自回歸影像生成

自回歸影像產生一次建立一張圖片,從先前產生的所有內容中預測每個標記。這很重要,因為為語言模型提供動力的相同的下一代機器可以產生連貫的、可控的圖像。自回歸影像生成屬於電腦視覺工作流程,它解釋或產生視覺媒體以進行分析、操作和創造力。為了建立深入的理解,請將自回歸影像生成視為一種操作模型,而不是單一功能:定義所需的結果,澄清假設,並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。

在實踐中,使用自回歸影像產生的強大團隊會平衡準確性與數據品質、照明方差和標籤一致性等操作現實。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。同時,如果出處不明,肖像權和同意可能會成為法律風險。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

創意團隊可以透過更少的手動修改來更快地建立概念原型。

創意團隊可以透過更少的手動修改來更快地建立概念原型。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

操作可以使用以前難以處理的影像和視訊訊號。

操作可以使用以前難以處理的影像和視訊訊號。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

自回歸影像生成的未來

速度是中心戰場。並行和屏蔽令牌解碼(MaskGIT、Muse)等技術可以同時產生許多令牌,並且從語言模型借用的推測性解碼正在適應圖像。研究人員也將文字和圖像標記統一在一個自回歸主幹中,以便一個模型可以讀取和繪圖,如多模態系統中所見。預計自回歸和擴散思想將繼續混合,混合模型捕獲代幣的可控性和擴散的品質。

現實世界的實施

DALL-E 1 透過從文字標題自回歸預測離散圖像標記網格來產生圖像。

Google 的 Parti 將自回歸文字到圖像 Transformer 擴展至 200 億個參數,以實現詳細、即時忠實的場景。

PixelCNN 和 PixelRNN 展示了原始的逐像素生成,並且仍然用作基於可能性的模型的教學基線。

MaskGIT 和 Muse 使用平行遮罩代幣解碼來加速基於代幣的影像合成,同時保持自迴歸式訓練。

實施模式

自回歸影像生成實踐

DALL-E 1 透過從文字標題自回歸預測離散圖像標記網格來產生圖像。

DALL-E 1 透過從文字標題自動迴歸預測離散影像標記網格來產生影像。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

自回歸影像生成實踐

Google 的 Parti 將自回歸文字到圖像 Transformer 擴展至 200 億個參數,以實現詳細、即時忠實的場景。

Google 的 Parti 將自回歸文字到圖像 Transformer 擴展至 200 億個參數,以實現詳細、即時忠實的場景。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力增益和錯誤成本時,通常會獲得更好的結果。

自回歸影像生成實踐

PixelCNN 和 PixelRNN 展示了原始的逐像素生成,並且仍然用作基於可能性的模型的教學基線。

PixelCNN 和 PixelRNN 展示了原始的逐像素生成,並且仍然用作基於可能性的模型的教學基線。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

自回歸影像生成實踐

MaskGIT 和 Muse 使用平行遮罩代幣解碼來加速基於代幣的影像合成,同時保持自迴歸式訓練。

MaskGIT 和 Muse 使用平行遮罩代幣解碼來加速基於代幣的影像合成,同時保持自迴歸式訓練。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

如果出處不明,肖像權和同意可能會成為法律風險。

!

模型表現可能因光照、人口統計和環境的不同而有所不同。

!

除非監控置信閾值,否則誤報可能會被忽略。

實施路線圖

1

定義精確度、召回率和錯誤成本的接受標準。

定義精確度、召回率和錯誤成本的接受標準。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

使用符合實際生產條件的數據進行測試。

使用符合實際生產條件的數據進行測試。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

為低置信度或高影響力的預測添加人工審核。

為低置信度或高影響力的預測添加人工審核。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

追蹤模型漂移並在相機或資料集變更後重新驗證。

追蹤模型漂移並在相機或資料集變更後重新驗證。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索