基礎知識指南

特徵工程

特徵工程是一種將原始資料轉換為有助於模型學習的資訊輸入(特徵)的技術。

概述

特徵工程是一種將原始資料轉換為有助於模型學習的資訊輸入(特徵)的技術。在經典機器學習中,它通常是準確性的最大驅動因素,而不是演算法的選擇。

特徵工程位於核心人工智慧工具包。當你理解它時,其他人工智慧主題就變得更容易評估和比較。

深入探討

模型只能從您提供的輸入中學習,而原始資料很少以有用的形式到達。特徵工程重塑了它:從時間戳中提取星期幾,計算客戶的平均購買量,將類別編碼為數字,將值縮放到公共範圍,或將列組合成比率。如果做得好,它會暴露演算法所需的模式,因此基於重要特徵的簡單模型通常會擊敗基於原始資料的複雜模型。它還需要領域知識,因為知道「每分鐘交易數」訊號詐欺是創造強大功能的原因。典型的風險是資料洩漏,意外地根據預測時不可用的信息構建了一個特徵,這會誇大測試分數但在生產中失敗。深度學習使其中一些自動化,但結構化/表格問題仍然嚴重依賴它。

技術洞察

常見技術包括歸一化或標準化(縮放數字,以便沒有單一特徵占主導地位)、分類變數的單熱或目標編碼、對連續值進行分箱以及創建交互或聚合特徵。一個關鍵的原則是僅在訓練資料上擬合轉換(例如縮放器的平均值和標準差),然後將它們應用於驗證和測試集。在完整資料集上計算它們會洩漏資訊並產生過於樂觀的結果,而這些結果在部署中無法保持。

掌握特徵工程

特徵工程是一種將原始資料轉換為有助於模型學習的資訊輸入(特徵)的技術。在經典機器學習中,它通常是準確性的最大驅動因素,而不是演算法的選擇。特徵工程位於核心人工智慧工具包。當你理解它時,其他人工智慧主題就變得更容易評估和比較。為了建立深入的理解,請將特徵工程視為一種操作模型,而不是單一特徵:定義所需的結果,澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,使用特徵工程的強大團隊首先建立強大的概念模型,然後將這些模型對應到實際的生產限制。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

它可以幫助您將清晰的技術聲明與行銷語言分開。同時,不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

它可以幫助您將清晰的技術聲明與行銷語言分開。

它可以幫助您將清晰的技術聲明與行銷語言分開。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

在花費金錢或時間之前,您可以提出更好的實施問題。

在花費金錢或時間之前,您可以提出更好的實施問題。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

特徵工程的未來

深度學習可以自動提取圖像、音訊和文字的特徵,其中網路直接從原始輸入中學習表示。但對於表格資料和業務資料(大多數企業資料)來說,深思熟慮的特徵工程仍然具有決定性作用。該領域正在轉向自動化(AutoML,自動特徵生成)和可重用的“特徵存儲”,讓團隊可以跨模型共享一致的、經過充分測試的特徵。預計會有更多工具來建議功能並防止洩漏,而人類領域的專業知識對於最高價值的功能仍然至關重要。

現實世界的實施

詐欺偵測:得出交易頻率、自上次購買以來的時間以及與通常位置的距離等特徵。

需求預測:從原始銷售時間戳記中提取星期幾、假期標誌和滾動平均值。

信用評分:將原始歷史轉化為債務與收入之類的比率以及最近逾期付款的計數。

客戶流失:將活動匯總到功能中,例如每月登入次數和自上次參與以來的天數。

實施模式

特徵工程實踐

詐欺偵測:得出交易頻率、自上次購買以來的時間以及與通常位置的距離等特徵。

詐欺偵測:匯出交易頻率、自上次購買以來的時間以及與通常位置的距離等特徵。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力增益和錯誤成本時,通常會獲得更好的結果。

特徵工程實踐

需求預測:從原始銷售時間戳記中提取星期幾、假期標誌和滾動平均值。

需求預測:從原始銷售時間戳記中提取星期幾、假日標誌和滾動平均值當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力增益和錯誤成本時,通常會獲得更好的結果。

特徵工程實踐

信用評分:將原始歷史轉化為債務與收入之類的比率以及最近逾期付款的計數。

信用評分:將原始歷史記錄轉化為債務與收入之類的比率以及最近逾期付款的數量當團隊預先定義質量閾值、為邊緣情況保留人工升級路徑並隨著時間的推移跟踪生產力增益和錯誤成本時,通常會得到更好的結果。

特徵工程實踐

客戶流失:將活動匯總到功能中,例如每月登入次數和自上次參與以來的天數。

客戶流失:將活動聚合到功能中,例如每月登入次數和自上次參與以來的天數。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

不同的團隊可能會以不同的方式使用相同術語,因此請儘早定義範圍。

!

基準測試可能看起來很強大,但實際效能卻參差不齊。

!

忽視數據品質和評估計劃通常會產生脆弱的結果。

實施路線圖

1

從您需要的結果的簡單語言定義開始。

從您需要的結果的簡單語言定義開始。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在測試之前選擇一種成功指標和一種失敗條件。

在測試之前選擇一種成功指標和一種失敗條件。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

使用代表性資料運行小型試點,而不是完善的演示集。

使用代表性資料運行小型試點,而不是完善的演示集。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

記錄特徵工程在哪些方面有幫助以及在哪些方面更簡單的方法更好。

記錄特徵工程在哪些方面有幫助以及在哪些方面更簡單的方法更好。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索