基礎知識指南

特徵工程

特徵工程是一種將原始資料轉換為有助於模型學習的資訊輸入（特徵）的技術。

概述

特徵工程是一種將原始資料轉換為有助於模型學習的資訊輸入（特徵）的技術。在經典機器學習中，它通常是準確性的最大驅動因素，而不是演算法的選擇。

特徵工程位於核心人工智慧工具包。當你理解它時，其他人工智慧主題就變得更容易評估和比較。

深入探討

模型只能從您提供的輸入中學習，而原始資料很少以有用的形式到達。特徵工程重塑了它：從時間戳中提取星期幾，計算客戶的平均購買量，將類別編碼為數字，將值縮放到公共範圍，或將列組合成比率。如果做得好，它会暴露算法所需的模式，因此基于重要特征的简单模型通常会击败基于原始数据的复杂模型。它還需要領域知識，因為知道「每分鐘交易數」訊號詐欺是創造強大功能的原因。典型的風險是資料洩漏，意外地根據預測時不可用的信息構建了一個特徵，這會誇大測試分數但在生產中失敗。深度学习使其中一些自动化，但结构化/表格问题仍然严重依赖它。

技術洞察

常見技術包括歸一化或標準化（縮放數字，以便沒有單一特徵占主導地位）、分類變數的單熱或目標編碼、對連續值進行分箱以及創建交互或聚合特徵。一個關鍵的原則是僅在訓練資料上擬合轉換（例如縮放器的平均值和標準差），然後將它們應用於驗證和測試集。在完整資料集上計算它們會洩漏資訊並產生過於樂觀的結果，而這些結果在部署中無法保持。

掌握特徵工程

為了加深理解，請將特徵工程視為一種操作模型，而不是單一特徵。定義期望的結果，澄清假設，並將系統可以可靠地完成的任務與仍需要專家判斷的任務分開。

在實踐中，使用特徵工程的強大團隊首先建立強大的概念模型，然後將這些模型對應到實際的生產限制。他們記錄明確的成功標準，根據實際數據和工作流程進行測試，並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

它可以幫助您將清晰的技術聲明與行銷語言分開。同時，不同的團隊可能會以不同的方式使用相同術語，因此請儘早定義範圍。最具彈性的方法是將實驗速度與治理規則結合：運行試點、捕獲證據、發布決策日誌，並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

它可以幫助您將清晰的技術聲明與行銷語言分開。

它可以幫助您將清晰的技術聲明與行銷語言分開。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

在花費金錢或時間之前，您可以提出更好的實施問題。

在花費金錢或時間之前，您可以提出更好的實施問題。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。

具有共同理解的團隊可以做出更好的產品、政策和學習決策。在高品質部署中，這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式，以便團隊可以增強信心，而不是擴大模糊性。

特徵工程的未來

深度学习可以自动提取图像、音频和文本的特征，其中网络直接从原始输入中学习表示。但对于表格数据和业务数据（大多数企业数据）来说，深思熟虑的特征工程仍然具有决定性作用。該領域正在轉向自動化（AutoML，自動特徵生成）和可重用的“特徵存儲”，讓團隊可以跨模型共享一致的、經過充分測試的特徵。預計會有更多工具來建議功能並防止洩漏，而人類領域的專業知識對於最高價值的功能仍然至關重要。

現實世界的實施

詐欺偵測：得出交易頻率、自上次購買以來的時間以及與通常位置的距離等特徵。

需求預測：從原始銷售時間戳記中提取星期幾、假期標誌和滾動平均值。

信用評分：將原始歷史轉化為債務與收入之類的比率以及最近逾期付款的計數。

客戶流失：將活動匯總到功能中，例如每月登入次數和自上次參與以來的天數。

實施模式

特徵工程實踐

詐欺偵測：得出交易頻率、自上次購買以來的時間以及與通常位置的距離等特徵。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

特徵工程實踐

需求預測：從原始銷售時間戳記中提取星期幾、假期標誌和滾動平均值。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

特徵工程實踐

信用評分：將原始歷史轉化為債務與收入之類的比率以及最近逾期付款的計數。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

特徵工程實踐

客戶流失：將活動匯總到功能中，例如每月登入次數和自上次參與以來的天數。

當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時，通常會獲得更好的結果。

風險與防護欄

不同的團隊可能會以不同的方式使用相同術語，因此請儘早定義範圍。

基準測試可能看起來很強大，但實際效能卻參差不齊。

忽視數據品質和評估計劃通常會產生脆弱的結果。

實施路線圖

從您需要的結果的簡單語言定義開始。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

在測試之前選擇一種成功指標和一種失敗條件。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

使用代表性資料運行小型試點，而不是完善的演示集。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

記錄特徵工程在哪些方面有幫助以及在哪些方面更簡單的方法更好。

將此視為證據門：如果不符合標準，則暫停推出，縮小差距，然後再擴大使用。

不斷探索

什麼是人工智慧？

在深入研究之前先了解基本概念。

閱讀指南

人工智慧如何學習

了解現代系統背後的訓練過程。

閱讀指南

Check your understanding

Test yourself: take the Feature Engineering quiz

Start quiz →

特徵工程

概述

深入探討

技術洞察

掌握特徵工程

戰略影響

特徵工程的未來

現實世界的實施

實施模式

特徵工程實踐

特徵工程實踐

特徵工程實踐

特徵工程實踐

風險與防護欄

實施路線圖

不斷探索

什麼是人工智慧？

人工智慧如何學習

Related guides