基礎知識指南

異常檢測

異常檢測是教導機器標記與正常模式嚴重偏離的數據點的做法。

概述

異常檢測是教導機器標記與正常模式嚴重偏離的數據點的做法。這很重要,因為罕見的意外事件(詐欺、設備故障、入侵)通常隱藏在人類無法手動掃描的常規資料海洋中。

異常檢測位於核心人工智慧工具包。當你理解它時,其他人工智慧主題就變得更容易評估和比較。

深入探討

異常檢測可識別不符合預期行為的觀察結果,通常稱為異常值、新奇點或例外。大多數方法首先了解「正常」是什麼樣子,然後根據偏離的程度對新數據進行評分。統計方法標記點超出幾個標準差;基於距離的方法,例如 k 最近鄰標記遠離其同伴的點;密度方法,例如稀疏區域中的局部離群因子標誌點。機器學習添加了隔離森林和自動編碼器,前者利用了異常很容易通過少量隨機分割來隔離的事實,後者可以很好地重建正常數據,但無法處理異常數據。一個核心挑戰是,異常現像很少見,而且通常沒有標籤,因此模型必須主要從正常示例中學習,並容忍模棱兩可、不斷演變的「正常」定義。

技術洞察

許多系統僅在正常資料上進行訓練——稱為一類或半監督學習——因為標記的異常很少。例如,自動編碼器將輸入壓縮到一個小瓶頸並重建它;在正常樣本上進行訓練後,它會對從未見過的異常情況產生很高的重建誤差。隔離森林的工作方式不同:隨機分區以較少的分割隔離異常值,因此較短的平均路徑長度表示異常。兩者都將“怪異”轉換為帶有閾值的數字分數。

掌握異常檢測

異常檢測是教導機器標記與正常模式嚴重偏離的數據點的做法。這很重要,因為罕見的意外事件(詐欺、設備故障、入侵)通常隱藏在人類無法手動掃描的常規資料海洋中。異常檢測位於核心人工智慧工具包。當你理解它時,其他人工智慧主題就變得更容易評估和比較。為了建立深入的理解,請將異常檢測視為一種操作模型,而不是單一功能:定義所需的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,使用異常檢測的強大團隊首先建立強大的概念模型,然後將這些模型映射到實際的生產限制。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

它可以幫助您將清晰的技術聲明與行銷語言分開。同時,不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

它可以幫助您將清晰的技術聲明與行銷語言分開。

它可以幫助您將清晰的技術聲明與行銷語言分開。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

在花費金錢或時間之前,您可以提出更好的實施問題。

在花費金錢或時間之前,您可以提出更好的實施問題。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

異常檢測的未來

偵測正在轉向邊緣裝置上的即時串流,因此異常現象會在幾毫秒內出現,而不是在批次分析之後出現。深度學習和圖神經網路越來越多地捕捉微妙的多變量模式,例如協調的詐欺團夥。自監督和基礎模型承諾系統能夠隨著時間的推移適應「正常」漂移,從而減少手動重新調整。可解釋性也是優先考慮的因素:團隊希望模型不僅能顯示某些異常情況,還能顯示哪些功能觸發了警報,以便分析師可以放心採取行動。

現實世界的實施

在國內使用信用卡後幾秒鐘,信用卡網路就會標記國外的交易,從而在購買前阻止可能的詐欺行為。

工廠感測器可以檢測馬達​​中的異常振動或溫度,在故障導致生產線停機前幾天預測軸承故障。

網路安全工具發現一台伺服器在凌晨 3 點突然向未知 IP 發送千兆位元組的數據,這表明可能存在資料外洩。

醫院監視器在連續心電圖資料中捕捉到不規則的心律,提醒臨床醫師注意心律不整的發展。

實施模式

實踐中的異常檢測

在國內使用信用卡後幾秒鐘,信用卡網路就會標記國外的交易,從而在購買前阻止可能的詐欺行為。

信用卡網路會在信用卡在國內使用後數秒鐘內標記國外的交易,從而在購買前凍結可能的詐欺行為。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的異常檢測

工廠感測器可以檢測馬達​​中的異常振動或溫度,在故障導致生產線停機前幾天預測軸承故障。

工廠感測器檢測馬達中的異常振動或溫度,在故障導致生產線停止前幾天預測軸承故障。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力增益和錯誤成本時,通常會得到更好的結果。

實踐中的異常檢測

網路安全工具發現一台伺服器在凌晨 3 點突然向未知 IP 發送千兆位元組的數據,這表明可能存在資料外洩。

網路安全工具發現伺服器在凌晨 3 點突然向未知 IP 發送千兆位元組,這表明可能存在資料外洩。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會得到更好的結果。

實踐中的異常檢測

醫院監視器在連續心電圖資料中捕捉到不規則的心律,提醒臨床醫師注意心律不整的發展。

醫院監視器在連續心電圖資料中捕捉到不規則的心律,提醒臨床醫師注意正在發生的心律不整。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。

!

基準測試可能看起來很強大,但實際效能卻參差不齊。

!

忽視數據品質和評估計劃通常會產生脆弱的結果。

實施路線圖

1

從您需要的結果的簡單語言定義開始。

從您需要的結果的簡單語言定義開始。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在測試之前選擇一種成功指標和一種失敗條件。

在測試之前選擇一種成功指標和一種失敗條件。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

使用代表性資料運行小型試點,而不是完善的演示集。

使用代表性資料運行小型試點,而不是完善的演示集。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

記錄異常檢測在哪些方面有幫助以及在哪些方面更簡單的方法更好。

記錄異常檢測在哪些方面有幫助以及在哪些方面更簡單的方法更好。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索