視覺人工智慧指南

Plenoxels 和體素輻射場

Plenoxels 表明,您可以重建具有 NeRF 质量结果的 3D 场景,而无需任何神经网络——只需存储颜色和密度的体素网格。

概述

Plenoxels 表明,您可以重建具有 NeRF 质量结果的 3D 场景,而无需任何神经网络——只需存储颜色和密度的体素网格。結果訓練速度比原始 NeRF 快約 100 倍,同時符合其視覺品質。

Plenoxels 和 Voxel Radiance Fields 屬於電腦視覺工作流程,可解釋或產生用於分析、操作和創造力的視覺媒體。

深入探討

NeRF 实现了照片级真实感,但速度很慢,因为每个样本都需要通过深度神经网络进行前向传播,而训练可能需要数小时或数天。 Plenoxels(Sara Fridovich-Keil、Alex Yu 等人,2022)提出了一個挑釁性的問題:網路是否必要?他們的回答是否定的。它們將場景表示為稀疏的 3D 體素網格。每個佔用的體素儲存單一不透明度值以及編碼與視圖相關的顏色的球諧係數。為了渲染像素,系統沿著光線對這些值進行三線性插值,並將它們與標準體積渲染進行合成。因為沒有網絡,所以整個過程直接透過體素值的梯度下降進行最佳化,並進行正則化以獲得平滑度。整體結果是:品質與 NeRF 相當,在單一 GPU 上只需幾分鐘即可完成訓練。

技術洞察

依賴視圖的顏色是巧妙的部分。每個體素不是按視角輸出 RGB 的網絡,而是按顏色通道儲存一小組球諧 (SH) 係數。評估光線方向上的 SH 基礎可以重建該點的顏色如何隨視點變化 - 捕捉鏡面高光和反射。不透明度與方向無關。可微分三线性插值加上体积渲染使每个体素值都可以直接训练,因此优化是一种简单的、无网络的最小二乘式拟合。

掌握 Plenoxels 和體素輻射場

Plenoxels 表明,您可以重建具有 NeRF 质量结果的 3D 场景,而无需任何神经网络——只需存储颜色和密度的体素网格。結果訓練速度比原始 NeRF 快約 100 倍,同時符合其視覺品質。 Plenoxels 和 Voxel Radiance Fields 屬於電腦視覺工作流程,可解釋或產生用於分析、操作和創造力的視覺媒體。为了建立深入的理解,请将 Plenoxels 和体素辐射场视为一种操作模型,而不是单个功能:定义所需的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,使用 Plenoxels 和体素辐射场的强大团队会平衡准确性与数据质量、照明差异和标签一致性等操作现实。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。同時,如果出處不明,肖像權和同意可能會成為法律風險。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

創意團隊可以透過更少的手動修改來更快地建立概念原型。

創意團隊可以透過更少的手動修改來更快地建立概念原型。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

操作可以使用以前難以處理的影像和視訊訊號。

操作可以使用以前難以處理的影像和視訊訊號。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

Plenoxels 和體素輻射場的未來

Plenoxels 證明是表徵(而不是神經網路)推動了 NeRF 的品質——這一發現重塑了該領域。它直接启发了显式混合方法,例如 Instant-NGP 的哈希网格,以及最终的 3D 高斯泼溅法,后者现在在实时辐射渲染中占据主导地位。预计将继续朝着明确的、GPU 友好的基元方向发展,这些基元可以在几秒钟内训练并实时渲染,并有选择地使用神经网络而不是作为核心场景存储。

現實世界的實施

在幾分鐘內快速將捕獲的物件重建為 3D 資產,以實現電子商務或博物館數位化,而無需等待數小時。

在單一消費級 GPU 上快速建立小說視圖合成原型,用於研究和教育。

與不透明的網路權重不同,產生可編輯的、明確的體素場景,藝術家可以直接檢查和修剪。

作為一個教學範例,場景表示(而不是深度學習)產生了逼真的結果。

實施模式

Plenoxels 和體素輻射場的實踐

在幾分鐘內快速將捕獲的物件重建為 3D 資產,以實現電子商務或博物館數位化,而無需等待數小時。

在幾分鐘內將捕獲的物件快速重建為 3D 資產,以實現電子商務或博物館數位化,而無需等待數小時。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

Plenoxels 和體素輻射場的實踐

在單一消費級 GPU 上快速建立小說視圖合成原型,用於研究和教育。

在用于研究和教育的单个消费级 GPU 上快速构建新颖视图合成的原型 当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

Plenoxels 和體素輻射場的實踐

與不透明的網路權重不同,產生可編輯的、明確的體素場景,藝術家可以直接檢查和修剪。

與不透明的網路權重不同,產生可編輯的、明確的體素場景,藝術家可以直接檢查和修剪。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪随着时间的推移提高生产力和错误成本时,通常会得到更好的结果。

Plenoxels 和體素輻射場的實踐

作為一個教學範例,場景表示(而不是深度學習)產生了逼真的結果。

作為一個教學範例,場景表示(而不是深度學習)產生了逼真的結果。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會得到更好的結果。

風險與防護欄

!

如果出處不明,肖像權和同意可能會成為法律風險。

!

模型表現可能因光照、人口統計和環境的不同而有所不同。

!

除非監控置信閾值,否則誤報可能會被忽略。

實施路線圖

1

定義精確度、召回率和錯誤成本的接受標準。

定義精確度、召回率和錯誤成本的接受標準。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

使用符合實際生產條件的數據進行測試。

使用符合實際生產條件的數據進行測試。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

為低置信度或高影響力的預測添加人工審核。

為低置信度或高影響力的預測添加人工審核。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

追蹤模型漂移並在相機或資料集變更後重新驗證。

追蹤模型漂移並在相機或資料集變更後重新驗證。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索