视觉人工智能指南

非极大值抑制

非极大值抑制 (NMS) 是一个清理步骤,它将一堆杂乱的重叠检测框变成每个对象一个整洁的框。

概述

非极大值抑制 (NMS) 是一个清理步骤,它将一堆杂乱的重叠检测框变成每个对象一个整洁的框。如果没有它,探测器将报告同一辆车五到十次。

非极大值抑制属于计算机视觉工作流程,它解释或生成视觉媒体以进行分析、操作和创造力。

深入探讨

对象检测器通常会预测每个真实对象周围的许多候选框,每个候选框都有一个置信度分数。 NMS 会修剪这种冗余。经典的贪婪算法按分数对所有框进行排序,保留得分最高的框,然后删除与其重叠(通过并集交集,IoU 测量)超过阈值(例如 0.5)的任何剩余框。它对幸存的盒子重复此操作,直到没有剩余。结果是每个对象都有一个代表框。 NMS 简单、快速且参数少,但它也有弱点:固定的 IoU 阈值可能会错误地抑制拥挤场景中真实的附近物体,并且它将重叠视为二值化。像 Soft-NMS 衰减分数这样的变体,而不是直接删除框来解决这个问题。

技术洞察

核心指标是 IoU:两个盒子的交集面积除以它们并集的面积。贪婪 NMS 在最坏情况下是 O(n^2),但在实践中速度很快。 IoU 阈值权衡精确度和召回率:低阈值会删除更多框(有错过附近对象的风险),而高阈值会保留更多框(有重复的风险)。 NMS 通常按类别应用,因此不同类别的框不会相互抑制。

掌握非极大值抑制

非极大值抑制 (NMS) 是一个清理步骤,它将一堆杂乱的重叠检测框变成每个对象一个整洁的框。如果没有它,探测器将报告同一辆车五到十次。非极大值抑制属于计算机视觉工作流程,它解释或生成视觉媒体以进行分析、操作和创造力。为了建立深入的理解,请将非极大值抑制视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,使用非极大值抑制的强大团队可以平衡准确性与数据质量、照明差异和标签一致性等操作现实。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

视觉人工智能可以大规模自动化检查、检测和标记任务。同时,如果出处不明,肖像权和同意可能会成为法律风险。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

视觉人工智能可以大规模自动化检查、检测和标记任务。

视觉人工智能可以大规模自动化检查、检测和标记任务。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

创意团队可以通过更少的手动修改更快地构建概念原型。

创意团队可以通过更少的手动修改更快地构建概念原型。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

操作可以使用以前难以处理的图像和视频信号。

操作可以使用以前难以处理的图像和视频信号。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

非极大值抑制的未来

NMS 仍然是默认的后处理器,但该领域正在朝着删除它的方向发展。 Soft-NMS、DIoU-NMS 和学习变体改进了拥挤场景处理,而 DETR 等端到端检测器使用基于集合的二分匹配来直接预测独特的框,从而完全消除了 NMS。预计手动调整的阈值将让位于学习或无 NMS 的设计,特别是当变压器检测器成熟且实时系统需要确定性、无分支后处理时。

现实世界的实施

在相机和照片标记应用程序中将数十个重叠的面部框折叠成每个面部一个

在自动驾驶探测器中为每辆车和行人生成干净的单一边界框

消除文档和车牌 OCR 管道中重叠文本区域框的重复数据

清理零售货架监控和库存盘点系统中的冗余对象建议

实施模式

实践中的非极大值抑制

在相机和照片标记应用程序中将数十个重叠的面部框折叠成每个面部一个。

在相机和照片标记应用程序中将数十个重叠的面部框折叠成每个面部一个团队在预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时通常会获得更好的结果。

实践中的非极大值抑制

在自动驾驶探测器中为每辆车和行人生成干净的单一边界框。

在自动驾驶探测器中为每辆车和行人生成干净的单一边界框当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

实践中的非极大值抑制

消除文档和车牌 OCR 管道中重叠文本区域框的重复数据。

在文档和车牌 OCR 管道中消除重复的文本区域框 团队在预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

实践中的非极大值抑制

清理零售货架监控和库存盘点系统中的冗余对象建议。

清理零售货架监控和库存盘点系统中的冗余对象建议当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

如果出处不明,肖像权和同意可能会成为法律风险。

!

模型性能可能因光照、人口统计和环境的不同而有所不同。

!

除非监控置信阈值,否则误报可能会被忽视。

实施路线图

1

定义精确度、召回率和错误成本的接受标准。

定义精确度、召回率和错误成本的接受标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

使用符合实际生产条件的数据进行测试。

使用符合实际生产条件的数据进行测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为低置信度或高影响力的预测添加人工审核。

为低置信度或高影响力的预测添加人工审核。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪模型漂移并在相机或数据集更改后重新验证。

跟踪模型漂移并在相机或数据集更改后重新验证。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索