視覺人工智慧指南

開放詞彙目標偵測

開放詞彙對象偵測允許模型尋找並框出由任意文字描述的對象，包括在訓練期間從未見過的標記類別。

概述

開放詞彙對象偵測允許模型尋找並框出由任意文字描述的對象，包括在訓練期間從未見過的標記類別。這很重要，因為傳統的偵測器被鎖定到固定的類別列表，而開放詞彙模型可以偵測幾乎任何你能命名的東西。

開放詞彙物件偵測屬於電腦視覺工作流程，它解釋或產生視覺媒體以進行分析、操作和創造力。

深入探討

經典偵測器在一組封閉的類別上進行訓練，例如 COCO 中的 80 個類別，並且無法識別該清單之外的「事物」。開放詞彙偵測透過將視覺區域特徵與共享視覺語言嵌入空間對齊來打破這一限制，通常從大量圖像文字對中學習（如 CLIP）。在推理時，您提供文字標籤，模型嵌入這些標籤，並將檢測到的區域與最接近的文字嵌入相匹配，因此只要您可以描述新的類別，它們就可以工作。 ViLD、GLIP、OWL-ViT、Detic 和 Grounding DINO 等系統透過將偵測主幹與語言基礎結合以及透過對大型、弱標記或基礎資料集進行訓練來普及此方法。

技術洞察

訣竅是用文字嵌入替換固定的分類器層。偵測器不是為每個已知類別學習一個權重向量，而是將每個區域投影到與語言編碼器相同的空間中；分類變成區域特徵與使用者提供的類別名稱或短語的嵌入之間的相似性比較。由於文字編碼器可以泛化到未見過的單詞，因此在測試時交換新的標籤字串可以檢測邊界框訓練資料中缺少的類別。

掌握開放詞彙目標偵測

為了加深理解，請將開放詞彙物件偵測視為一種操作模型，而不是單一功能。定義期望的結果，澄清假設，並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。

在實踐中，使用開放詞彙目標檢測的強大團隊可以平衡準確性與數據品質、照明差異和標籤一致性等操作現實。他們記錄明確的成功標準，根據實際數據和工作流程進行測試，並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。同時，如果出處不明，肖像權和同意可能會成為法律風險。最具彈性的方法是將實驗速度與治理規則結合：運行試點、捕獲證據、發布決策日誌，並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。

視覺人工智慧可以大規模自動化檢查、檢測和標記任務。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

創意團隊可以透過更少的手動修改來更快地建立概念原型。

創意團隊可以透過更少的手動修改來更快地建立概念原型。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

操作可以使用以前難以處理的影像和視訊訊號。

操作可以使用以前難以處理的影像和視訊訊號。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

開放詞彙目標偵測的未來

開放詞彙檢測正在與基礎和分割相融合，其中自由格式短語（不僅僅是單字）定位對象，並與提示系統結合模型（例如用於掩模的 SAM）。期望更強的零射擊精度、更長、更具組合性的文字查詢（「筆記型電腦後面的紅色杯子」），以及與按需檢測的多模式助手的緊密耦合。隨著網路規模的圖像文字訓練的改進，檢測、檢索和語言理解之間的界限將朝著一般視覺基礎不斷模糊。

現實世界的實施

透過輸入名稱來搜尋圖像中的稀有或自訂對象，無需重新訓練

機器人系統在抓取使用者以自然語言命名的物品之前對其進行定位

透過從文字清單中偵測許多新類別來自動標記資料集

內容審核，標記原始訓練標籤中不存在的描述對象

實施模式

實踐中的開放詞彙目標偵測

透過輸入名稱來搜尋圖像中的稀有或自訂對象，無需重新訓練。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

實踐中的開放詞彙目標偵測

機器人系統在抓取使用者以自然語言命名的物品之前對其進行定位。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

實踐中的開放詞彙目標偵測

透過從文字清單中偵測許多新類別來自動標記資料集。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

實踐中的開放詞彙目標偵測

內容審核，標記原始訓練標籤中不存在的所描述的物件。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

風險與防護欄

如果出處不明，肖像權和同意可能會成為法律風險。

模型表現可能因光照、人口統計和環境的不同而有所不同。

除非監控置信閾值，否則誤報可能會被忽略。

實施路線圖

定義精確度、召回率和錯誤成本的接受標準。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

使用符合實際生產條件的數據進行測試。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

為低置信度或高影響力的預測添加人工審核。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

追蹤模型漂移並在相機或資料集變更後重新驗證。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

不斷探索

電腦視覺

了解為視覺人工智慧提供動力的基礎系統。

閱讀指南

人工智慧圖像生成

探索創建工作流程和模型權衡。

閱讀指南

Check your understanding

Test yourself: take the Open-Vocabulary Object Detection quiz

Start quiz →

開放詞彙目標偵測

概述

深入探討

技術洞察

掌握開放詞彙目標偵測

戰略影響

開放詞彙目標偵測的未來

現實世界的實施

實施模式

實踐中的開放詞彙目標偵測

實踐中的開放詞彙目標偵測

實踐中的開放詞彙目標偵測

實踐中的開放詞彙目標偵測

風險與防護欄

實施路線圖

不斷探索

電腦視覺

人工智慧圖像生成

Related guides