视觉人工智能指南

Plenoxels 和体素辐射场

Plenoxels 表明,您可以重建具有 NeRF 质量结果的 3D 场景,而无需任何神经网络——只需存储颜色和密度的体素网格。

概述

Plenoxels 表明,您可以重建具有 NeRF 质量结果的 3D 场景,而无需任何神经网络——只需存储颜色和密度的体素网格。结果训练速度比原始 NeRF 快大约 100 倍,同时匹配其视觉质量。

Plenoxels 和 Voxel Radiance Fields 属于计算机视觉工作流程,可解释或生成用于分析、操作和创造力的视觉媒体。

深入探讨

NeRF 实现了照片级真实感,但速度很慢,因为每个样本都需要通过深度神经网络进行前向传播,而训练可能需要数小时或数天。 Plenoxels(Sara Fridovich-Keil、Alex Yu 等人,2022)提出了一个挑衅性的问题:网络是否必要?他们的回答是否定的。它们将场景表示为稀疏的 3D 体素网格。每个占用的体素存储单个不透明度值以及编码与视图相关的颜色的球谐系数。为了渲染像素,系统沿光线对这些值进行三线性插值,并将它们与标准体积渲染进行合成。因为没有网络,所以整个过程直接通过体素值的梯度下降进行优化,并进行正则化以获得平滑度。总体结果是:质量与 NeRF 相当,在单个 GPU 上只需几分钟即可完成训练。

技术洞察

依赖于视图的颜色是巧妙的部分。每个体素不是按视角输出 RGB 的网络,而是按颜色通道存储一小组球谐 (SH) 系数。评估光线方向上的 SH 基础可以重建该点的颜色如何随视点变化 - 捕获镜面高光和反射。不透明度与方向无关。可微分三线性插值加上体积渲染使每个体素值都可以直接训练,因此优化是一种简单的、无网络的最小二乘式拟合。

掌握 Plenoxels 和体素辐射场

Plenoxels 表明,您可以重建具有 NeRF 质量结果的 3D 场景,而无需任何神经网络——只需存储颜色和密度的体素网格。结果训练速度比原始 NeRF 快大约 100 倍,同时匹配其视觉质量。 Plenoxels 和 Voxel Radiance Fields 属于计算机视觉工作流程,可解释或生成用于分析、操作和创造力的视觉媒体。为了建立深入的理解,请将 Plenoxels 和体素辐射场视为一种操作模型,而不是单个功能:定义所需的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,使用 Plenoxels 和体素辐射场的强大团队会平衡准确性与数据质量、照明差异和标签一致性等操作现实。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

视觉人工智能可以大规模自动化检查、检测和标记任务。同时,如果出处不明,肖像权和同意可能会成为法律风险。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

视觉人工智能可以大规模自动化检查、检测和标记任务。

视觉人工智能可以大规模自动化检查、检测和标记任务。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

创意团队可以通过更少的手动修改更快地构建概念原型。

创意团队可以通过更少的手动修改更快地构建概念原型。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

操作可以使用以前难以处理的图像和视频信号。

操作可以使用以前难以处理的图像和视频信号。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

Plenoxels 和体素辐射场的未来

Plenoxels 证明是表征(而不是神经网络)推动了 NeRF 的质量——这一发现重塑了该领域。它直接启发了显式混合方法,例如 Instant-NGP 的哈希网格,以及最终的 3D 高斯泼溅法,后者现在在实时辐射渲染中占据主导地位。预计将继续朝着明确的、GPU 友好的基元方向发展,这些基元可以在几秒钟内训练并实时渲染,并有选择地使用神经网络而不是作为核心场景存储。

现实世界的实施

在几分钟内快速将捕获的对象重建为 3D 资产,以实现电子商务或博物馆数字化,而无需等待数小时。

在单个消费级 GPU 上快速构建小说视图合成原型,用于研究和教育。

与不透明的网络权重不同,生成可编辑的、明确的体素场景,艺术家可以直接检查和修剪。

作为一个教学示例,场景表示(而不是深度学习)产生了逼真的结果。

实施模式

Plenoxels 和体素辐射场的实践

在几分钟内快速将捕获的对象重建为 3D 资产,以实现电子商务或博物馆数字化,而无需等待数小时。

在几分钟内将捕获的对象快速重建为 3D 资产,以实现电子商务或博物馆数字化,而无需等待数小时。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

Plenoxels 和体素辐射场的实践

在单个消费级 GPU 上快速构建小说视图合成原型,用于研究和教育。

在用于研究和教育的单个消费级 GPU 上快速构建新颖视图合成的原型 当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

Plenoxels 和体素辐射场的实践

与不透明的网络权重不同,生成可编辑的、明确的体素场景,艺术家可以直接检查和修剪。

与不透明的网络权重不同,生成可编辑的、明确的体素场景,艺术家可以直接检查和修剪。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪随着时间的推移提高生产力和错误成本时,通常会得到更好的结果。

Plenoxels 和体素辐射场的实践

作为一个教学示例,场景表示(而不是深度学习)产生了逼真的结果。

作为一个教学示例,场景表示(而不是深度学习)产生了逼真的结果。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

风险与防护栏

!

如果出处不明,肖像权和同意可能会成为法律风险。

!

模型性能可能因光照、人口统计和环境的不同而有所不同。

!

除非监控置信阈值,否则误报可能会被忽视。

实施路线图

1

定义精确度、召回率和错误成本的接受标准。

定义精确度、召回率和错误成本的接受标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

使用符合实际生产条件的数据进行测试。

使用符合实际生产条件的数据进行测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为低置信度或高影响力的预测添加人工审核。

为低置信度或高影响力的预测添加人工审核。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪模型漂移并在相机或数据集更改后重新验证。

跟踪模型漂移并在相机或数据集更改后重新验证。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索