基礎知識指南

降維

降維將資料從許多欄位(特徵)縮減到少數,同時保留重要的結構。

概述

降維將資料從許多欄位(特徵)縮減到少數,同時保留重要的結構。它可以對抗“維數災難”,加快模型速度,並讓您真正以 2D 或 3D 方式可視化複雜數據。

降維位於核心人工智慧工具包。當你理解它時,其他人工智慧主題就變得更容易評估和比較。

深入探討

真實的資料集通常具有數百或數千個特徵:影像中的每個像素、詞彙中的每個單字、機器上的每個感測器。在這樣的高維空間中,資料點變得稀疏且相距較遠,距離測量變得不可靠,模型往往會過度擬合雜訊。這就是維度的詛咒。降維將資料映射到更少的維度,同時保留有意義的關係。 PCA 透過尋找最大變異數的方向來線性地實現這一點。 t-SNE 和 UMAP 是非線性的,擅長揭示集群以進行可視化。降低維度可以消除冗餘或雜訊特徵,減少記憶體和計算量,並且經常提高下游模型的準確性,因為混淆它的不相關訊號較少。

技術洞察

PCA 的工作原理是計算特徵的協方差並尋找沿著最大方差方向指向的特徵向量(「主成分」)。您保留最前面的幾個組件並將資料投影到它們上,丟棄主要是雜訊的低方差方向。相反,t-SNE 和 UMAP 對鄰居關係進行建模:它們嘗試將高維中接近的點保持在低維地圖中接近的點。 UMAP 建構了附近點的圖,這使得它比 t-SNE 更快,並且能夠更好地保留更廣泛的全局結構。

掌握降維

降維將資料從許多欄位(特徵)縮減到少數,同時保留重要的結構。它可以對抗“維數災難”,加快模型速度,並讓您真正以 2D 或 3D 方式可視化複雜數據。降維位於核心人工智慧工具包。當你理解它時,其他人工智慧主題就變得更容易評估和比較。為了建立深入的理解,請將降維視為一種操作模型,而不是單一功能:定義期望的結果,澄清假設,並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。

在實踐中,使用降維的強大團隊首先建立強大的概念模型,然後將這些模型對應到實際的生產限制。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

它可以幫助您將清晰的技術聲明與行銷語言分開。同時,不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

它可以幫助您將清晰的技術聲明與行銷語言分開。

它可以幫助您將清晰的技術聲明與行銷語言分開。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

在花費金錢或時間之前,您可以提出更好的實施問題。

在花費金錢或時間之前,您可以提出更好的實施問題。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

降維度的未來

降維現在是大型人工智慧管道中的例行步驟,而不是獨立的任務。 UMAP 在很大程度上已成為探索大型語言和視覺模型嵌入的預設方式,工程師將數千個維度投影到 2D 地圖中以檢查模型學到了什麼。預計與互動式儀表板的整合更加緊密,十億行資料集的 GPU 加速實現速度更快,並且在可解釋性工作中的使用越來越多,研究人員可以減少模型的內部活化來理解和調試其行為。

現實世界的實施

使用 UMAP 以 2D 形式繪製語言模型中的單字或句子嵌入,以查看模型將哪些概念組合在一起

在對疾病亞型進行聚類之前,將每個患者的數千個基因表現測量值壓縮為幾個組成部分

在將影像特徵輸入分類器之前減少影像特徵,以便訓練速度更快且不易過度擬合

將數百個指標的客戶行為視覺化為二維散點圖,以發現不同的細分市場

實施模式

實踐中的降維

使用 UMAP 以 2D 形式繪製語言模型中的單字或句子嵌入,以查看模型將哪些概念分組在一起。

使用 UMAP 以 2D 形式繪製語言模型中的單字或句子嵌入,以查看模型將哪些概念組合在一起。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的降維

在對疾病亞型進行聚類之前,將每個患者的數千個基因表現測量結果壓縮為幾個組成部分。

在對疾病亞型進行聚類之前,將每個患者的數千個基因表現測量值壓縮為幾個組成部分當團隊預先定義質量閾值、為邊緣情況保留人工升級路徑並跟踪一段時間內的生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的降維

在將影像特徵輸入分類器之前減少影像特徵,以便訓練速度更快且不易過度擬合。

在將影像輸入分類器之前減少影像特徵,以便訓練速度更快且不易過度擬合。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

實踐中的降維

將數百個指標中的客戶行為視覺化為二維散點圖,以發現不同的細分市場。

將數百個指標中的客戶行為視覺化為 2D 散佈圖,以發現不同的細分市場 當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。

!

基準測試可能看起來很強大,但實際效能卻參差不齊。

!

忽視數據品質和評估計劃通常會產生脆弱的結果。

實施路線圖

1

從您需要的結果的簡單語言定義開始。

從您需要的結果的簡單語言定義開始。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在測試之前選擇一種成功指標和一種失敗條件。

在測試之前選擇一種成功指標和一種失敗條件。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

使用代表性資料運行小型試點,而不是完善的演示集。

使用代表性資料運行小型試點,而不是完善的演示集。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

記錄降維在哪些方面有幫助以及哪些更簡單的方法更好。

記錄降維在哪些方面有幫助以及哪些更簡單的方法更好。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索