视觉人工智能指南

潜在扩散模型

潜在扩散模型通过在压缩的潜在空间而不是原始像素中运行扩散过程来生成图像,从而大幅削减计算成本。

概述

潜在扩散模型通过在压缩的潜在空间而不是原始像素中运行扩散过程来生成图像,从而大幅削减计算成本。它们是稳定扩散和大多数现代开源图像生成器背后的引擎。

潜在扩散模型属于计算机视觉工作流程,它解释或生成视觉媒体以进行分析、操作和创造力。

深入探讨

标准扩散模型学习逆转噪声过程:它从纯噪声开始,逐渐去噪为图像。直接在像素上执行此操作的成本很高,因为 512x512 图像具有数十万个值。 Rombach 及其同事于 2022 年提出的潜在扩散技术,首先使用预训练的变分自动编码器 (VAE) 将图像压缩为小型潜在网格(通常为 64x64x4,大约小 48 倍)。然后,扩散 U-Net 在文本的交叉注意力引导下,学习在紧凑的潜在空间内进行去噪。最后,VAE 解码器重建全分辨率像素。这种感知压缩保留了语义上有意义的信息,同时丢弃了难以察觉的细节,从而在消费级 GPU 上实现高质量生成。

技术洞察

关键技巧是将感知压缩与生成建模分开。 VAE 处理一次高频像素细节,而 U-Net 仅对较低维的潜在分布进行建模。文本调节是通过交叉注意力层注入的,其中 U-Net 的空间特征负责来自 CLIP 等文本编码器的标记嵌入。由于潜在图像大约比像素小 48 倍,因此每个去噪步骤的内存和 FLOP 成本都显着降低。

掌握潜在扩散模型

潜在扩散模型通过在压缩的潜在空间而不是原始像素中运行扩散过程来生成图像,从而大幅削减计算成本。它们是稳定扩散和大多数现代开源图像生成器背后的引擎。潜在扩散模型属于计算机视觉工作流程,它解释或生成视觉媒体以进行分析、操作和创造力。为了建立深入的理解,请将潜在扩散模型视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中,使用潜在扩散模型的强大团队会平衡准确性与数据质量、照明差异和标签一致性等操作现实。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

视觉人工智能可以大规模自动化检查、检测和标记任务。同时,如果出处不明,肖像权和同意可能会成为法律风险。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

视觉人工智能可以大规模自动化检查、检测和标记任务。

视觉人工智能可以大规模自动化检查、检测和标记任务。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

创意团队可以通过更少的手动修改更快地构建概念原型。

创意团队可以通过更少的手动修改更快地构建概念原型。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

操作可以使用以前难以处理的图像和视频信号。

操作可以使用以前难以处理的图像和视频信号。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

潜在扩散模型的未来

潜在扩散正在从图像扩展到视频(稳定视频扩散)、3D 资产和音频频谱图,所有这些都使用相同的压缩然后降噪配方。研究正在推动通过蒸馏和一致性模型减少采样步骤、保留精细文本和面孔的更好 VAE,以及稳定扩散 3 中的整流流公式,以拉直生成轨迹以获得更快、更清晰的结果。

现实世界的实施

稳定扩散在单个消费级 GPU 上根据文本提示生成艺术作品和概念设计

Adobe 和 Canva 支持基于潜在扩散主干的文本到图像和生成填充功能

游戏工作室制作纹理贴图、精灵和环境概念艺术以加速预制作

库存图像和营销团队无需拍摄照片即可创建品牌产品模型和广告视觉效果

实施模式

实践中的潜在扩散模型

稳定扩散根据单个消费级 GPU 上的文本提示生成艺术作品和概念设计。

Stable Diffusion 在单个消费者 GPU 上根据文本提示生成艺术作品和概念设计。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

实践中的潜在扩散模型

Adobe 和 Canva 支持基于潜在扩散主干的文本到图像和生成填充功能。

Adobe 和 Canva 支持基于潜在扩散主干的文本到图像和生成填充功能。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

实践中的潜在扩散模型

游戏工作室制作纹理贴图、精灵和环境概念艺术以加速预制作。

游戏工作室制作纹理贴图、精灵和环境概念艺术以加速预制作团队在预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时通常会获得更好的结果。

实践中的潜在扩散模型

库存图像和营销团队无需拍摄照片即可创建品牌产品模型和广告视觉效果。

库存图像和营销团队无需拍摄照片即可创建品牌产品模型和广告视觉效果当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

如果出处不明,肖像权和同意可能会成为法律风险。

!

模型性能可能因光照、人口统计和环境的不同而有所不同。

!

除非监控置信阈值,否则误报可能会被忽视。

实施路线图

1

定义精确度、召回率和错误成本的接受标准。

定义精确度、召回率和错误成本的接受标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

使用符合实际生产条件的数据进行测试。

使用符合实际生产条件的数据进行测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为低置信度或高影响力的预测添加人工审核。

为低置信度或高影响力的预测添加人工审核。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪模型漂移并在相机或数据集更改后重新验证。

跟踪模型漂移并在相机或数据集更改后重新验证。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索