視覺人工智慧指南

神經輻射場

神經輻射場 (NeRF) 從幾張普通照片重建完整的 3D 場景,讓您將相機帶到全新的視角。

概述

神經輻射場 (NeRF) 從幾張普通照片重建完整的 3D 場景,讓您將相機帶到全新的視角。它將 3D 捕獲重新定義為訓練微型神經網路而不是建立網格。

神經輻射場屬於電腦視覺工作流程,用於解釋或產生視覺媒體以進行分析、操作和創造力。

深入探討

NeRF 由 Mildenhall 及其同事於 2020 年推出,將整個場景儲存在小型神經網路(多層感知器)內。給定 3D 點和觀察方向,網路會輸出該點的顏色及其不透明程度。為了渲染像素,NeRF 將光線射入場景,沿其採樣點,查詢網絡,並使用體積渲染混合結果。由於整個過程是可微分的,因此透過將渲染像素與真實輸入照片進行比較並進行調整直到它們匹配來訓練網路。其回報是驚人的照片級真實感,包括依賴視圖的效果,例如隨著您移動而變化的反射和光澤高光。缺點是每個場景都需要自己的訓練運行,原始方法的訓練和渲染速度都很慢。

技術洞察

NeRF 將場景表示為連續的 5D 函數:輸入位置(x、y、z)加上觀察方向(兩個角度),MLP 傳回 RGB 顏色和體積密度。一個關鍵的細節是位置編碼,它透過高頻正弦和餘弦函數來映射座標,以便網路可以捕捉清晰的細節,而不是產生模糊的輸出。渲染沿著每個相機光線整合顏色和密度,對更近、更不透明的樣本進行更重的加權,這正是經典體積渲染的可訓練數學。

掌握神經輻射場

神經輻射場 (NeRF) 從幾張普通照片重建完整的 3D 場景,讓您將相機帶到全新的視角。它將 3D 捕獲重新定義為訓練微型神經網路而不是建立網格。神經輻射場屬於電腦視覺工作流程,用於解釋或產生視覺媒體以進行分析、操作和創造力。為了建立深入的理解,請將神經輻射場視為一種操作模型,而不是單一功能:定義期望的結果,澄清假設,並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。

在實踐中,使用神經輻射場的強大團隊會平衡準確性與數據品質、照明差異和標籤一致性等操作現實。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。同時,如果出處不明,肖像權和同意可能會成為法律風險。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

創意團隊可以透過更少的手動修改來更快地建立概念原型。

創意團隊可以透過更少的手動修改來更快地建立概念原型。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

操作可以使用以前難以處理的影像和視訊訊號。

操作可以使用以前難以處理的影像和視訊訊號。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

神經輻射場的未來

NeRF 研究在 2020 年後爆炸性成長,後續研究成果包括 Instant-NGP 使用哈希網格編碼將訓練時間從幾小時縮短為幾秒,以及 Mip-NeRF 提高了跨尺度的品質。該領域越來越多地與渲染速度更快的高斯潑濺技術融合或受到挑戰。期待 NeRF 衍生技術在地圖、電子商務產品視圖、電影視覺效果和 AR/VR 方面的發展,以及動態 NeRF 的發展,這些技術可以處理移動場景和隨光線變化而進行的「野外」捕捉。最大的主題是速度、可編輯性以及從更少、更混亂的照片中捕捉場景。

現實世界的實施

將手機拍攝的物件影片轉換為 3D 視圖,您可以在線上購物

將真實地點重建為電影和視覺效果的逼真背景

建立沉浸式 3D 場景以實現虛擬和擴增實境體驗

以數位方式保存照片集中的文化遺產和文物

實施模式

神經輻射場的實踐

將手機拍攝的物件影片轉換為 3D 視圖,您可以在軌道上進行線上購物。

將物件的電話視訊轉換為可線上購物的 3D 視圖 團隊在預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

神經輻射場的實踐

將真實地點重建為電影和視覺效果的逼真背景。

將真實位置重建為電影和視覺效果的逼真背景 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

神經輻射場的實踐

建立沉浸式 3D 場景以實現虛擬和擴增實境體驗。

為虛擬和擴增實境體驗建立沉浸式 3D 場景 當團隊在預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

神經輻射場的實踐

以數位方式保存照片集中的文化遺產和文物。

以數位方式保存照片集中的文化遺產和文物 團隊在預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

如果出處不明,肖像權和同意可能會成為法律風險。

!

模型表現可能因光照、人口統計和環境的不同而有所不同。

!

除非監控置信閾值,否則誤報可能會被忽略。

實施路線圖

1

定義精確度、召回率和錯誤成本的接受標準。

定義精確度、召回率和錯誤成本的接受標準。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

使用符合實際生產條件的數據進行測試。

使用符合實際生產條件的數據進行測試。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

為低置信度或高影響力的預測添加人工審核。

為低置信度或高影響力的預測添加人工審核。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

追蹤模型漂移並在相機或資料集變更後重新驗證。

追蹤模型漂移並在相機或資料集變更後重新驗證。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索