視覺人工智慧指南

DreamFusion 和分數蒸餾採樣

DreamFusion 使用 2D 影像擴散模型作為批評者,從文字產生 3D 對象,從不訓練任何 3D 資料。

概述

DreamFusion 使用 2D 影像擴散模型作為批評者,從文字產生 3D 對象,從不訓練任何 3D 資料。其核心發明「分數蒸餾採樣」成為整個文本轉 3D 領域的基礎配方。

DreamFusion 和 Score Distillation Sampling 屬於電腦視覺工作流程,可解釋或產生用於分析、操作和創造力的視覺媒體。

深入探討

來自 2022 年 Google 的 DreamFusion 問:2D 文本到圖像模型能否教導 3D 場景從各個角度看都是正確的?它優化了 NeRF(神經輻射場),以便來自隨機攝影機視點的渲染在加噪並顯示到凍結擴散模型 (Imagen) 時,可以為文字提示評分為合理的影像。至關重要的是,它不使用 3D 訓練資料。突破在於分數蒸餾取樣(SDS):SDS 不會透過擴散模型昂貴的 U-Net 進行反向傳播,而是使用模型的預測雜訊作為直接在渲染像素上的梯度訊號。透過數千個視點進行迭代,可以透過單一句子雕刻出連貫的 3D 資產,包括幾何圖形和依賴視圖的外觀。

技術洞察

SDS 將擴散模型視為凍結的評分函數。它渲染 NeRF,添加噪聲,要求擴散 U-Net 預測該噪聲,併計算推回到渲染圖像上的梯度(預測噪聲減去添加的噪聲),從而計算 NeRF 權重。跳過 U-Net 雅可比行列式使其易於處理。需要高的無分類器指導(大約 100)才能獲得清晰的結果,這會導致特徵過度飽和,有時模糊的「DreamFusion 外觀」。

掌握 DreamFusion 和乐谱蒸馏采样

DreamFusion 使用 2D 影像擴散模型作為批評者,從文字產生 3D 對象,從不訓練任何 3D 資料。其核心發明「分數蒸餾採樣」成為整個文本轉 3D 領域的基礎配方。 DreamFusion 和 Score Distillation Sampling 屬於電腦視覺工作流程,可解釋或產生用於分析、操作和創造力的視覺媒體。為了建立深入的理解,請將 DreamFusion 和分數蒸餾採樣視為一種操作模型,而不是單一功能:定義所需的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,使用 DreamFusion 和 Score Distillation Sampling 的強大團隊可以平衡準確性與數據品質、照明差異和標籤一致性等操作現實。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。同時,如果出處不明,肖像權和同意可能會成為法律風險。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

創意團隊可以透過更少的手動修改來更快地建立概念原型。

創意團隊可以透過更少的手動修改來更快地建立概念原型。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

操作可以使用以前難以處理的影像和視訊訊號。

操作可以使用以前難以處理的影像和視訊訊號。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

DreamFusion 和分数蒸馏采样的未来

SDS 催生了一系列豐富的工作來解決其弱點:Magic3D 提供分辨率和速度,ProlificDreamer 的變分蒸餾提供更清晰、更多樣化的輸出,以及攻擊「Janus」多面工件的方法。該領域越來越多地將 SDS 與多視圖擴散先驗和快速 3D 表示(例如高斯濺射)結合。預計文字轉 3D 會發展得更快、幾何形狀更忠實,從而縮小與手工建模資產的差距。

現實世界的實施

僅根據文字產生「戴著小帽子的松鼠的 DSLR 照片」的 3D 模型

創建草稿遊戲和 AR 資源,無需手動 3D 雕刻

產生可供藝術家改進的可匯出網格,而不是從頭開始構建

根據 SDS 評估較新的文本轉 3D 方法的研究基線

實施模式

DreamFusion 和 Score Distilling 採樣實踐

僅根據文字產生「戴著小帽子的松鼠的 DSLR 照片」的 3D 模型。

僅根據文字產生「戴著小帽子的松鼠的 DSLR 照片」的 3D 模型 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

DreamFusion 和 Score Distilling 採樣實踐

創建草稿遊戲和 AR 資源,無需手動 3D 雕刻。

無需手動 3D 雕刻即可創建草稿遊戲和 AR 資產 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

DreamFusion 和 Score Distilling 採樣實踐

產生可供藝術家改進的可匯出網格,而不是從頭開始建立。

產生可匯出的網格供美工人員完善,而不是從頭開始建立 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

DreamFusion 和 Score Distilling 採樣實踐

根據 SDS 評估較新的文本轉 3D 方法的研究基線。

用於評估較新的文本到 3D 方法與 SDS 的研究基線通常會在預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時獲得更好的結果。

風險與防護欄

!

如果出處不明,肖像權和同意可能會成為法律風險。

!

模型表現可能因光照、人口統計和環境的不同而有所不同。

!

除非監控置信閾值,否則誤報可能會被忽略。

實施路線圖

1

定義精確度、召回率和錯誤成本的接受標準。

定義精確度、召回率和錯誤成本的接受標準。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

使用符合實際生產條件的數據進行測試。

使用符合實際生產條件的數據進行測試。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

為低置信度或高影響力的預測添加人工審核。

為低置信度或高影響力的預測添加人工審核。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

追蹤模型漂移並在相機或資料集變更後重新驗證。

追蹤模型漂移並在相機或資料集變更後重新驗證。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索