基础知识指南

过拟合和欠拟合

过度拟合是指模型记住了其训练数据,但在新示例上却失败了;欠拟合是指过于简单而无法捕捉真实模式。

概述

过度拟合是指模型记住了其训练数据,但在新示例上却失败了;欠拟合是指过于简单而无法捕捉真实模式。找到它们之间的最佳平衡点是机器学习的核心挑战。

过拟合和欠拟合位于核心人工智能工具包中。当你理解它时,其他人工智能主题就变得更容易评估和比较。

深入探讨

每个模型都适合有限的训练集,但目标是在未见过的数据上表现良好。过拟合模型将训练集的噪声和怪癖视为真实信号:它可能在训练数据上得分为 99%,但在测试集上得分却下降到 70%。欠拟合模型是相反的问题,过于僵化而无法捕获底层结构,因此它在训练和测试数据上的表现都很差。训练和测试表现之间的差距是一个明显的迹象。欠拟合在任何地方都显示为高误差(高偏差);过度拟合表现为低训练误差但高测试误差(高方差)。技巧是识别你遇到的问题,因为修复的方向是相反的。

技术洞察

过拟合和欠拟合是偏差-方差权衡的两端。偏差是由于过于简单化的假设而产生的错误;方差是由于对特定训练样本过于敏感而产生的误差。微小的线性模型具有高偏差和低方差(欠拟合);巨大的无约束模型具有低偏差和高方差(过度拟合)。总预期误差大致分解为偏差平方加方差加上不可约噪声。从业者通过将训练集的准确性与保留的验证集进行比较,观察两条曲线的分歧来检测问题。

掌握过拟合和欠拟合

过度拟合是指模型记住了其训练数据,但在新示例上却失败了;欠拟合是指过于简单而无法捕捉真实模式。找到它们之间的最佳平衡点是机器学习的核心挑战。过拟合和欠拟合位于核心人工智能工具包中。当你理解它时,其他人工智能主题就变得更容易评估和比较。为了建立深入的理解,请将过度拟合和欠拟合视为一种操作模型,而不是单一特征:定义期望的结果,澄清假设,并将系统可以可靠地执行的操作与仍然需要专家判断的操作分开。

在实践中,使用过拟合和欠拟合的强大团队首先构建强大的概念模型,然后将这些模型映射到实际的生产约束。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

它可以帮助您将清晰的技术声明与营销语言分开。同时,不同的团队可能会以不同的方式使用同一术语,因此请尽早定义范围。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

它可以帮助您将清晰的技术声明与营销语言分开。

它可以帮助您将清晰的技术声明与营销语言分开。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

在花费金钱或时间之前,您可以提出更好的实施问题。

在花费金钱或时间之前,您可以提出更好的实施问题。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

具有共同理解的团队可以做出更好的产品、政策和学习决策。

具有共同理解的团队可以做出更好的产品、政策和学习决策。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

过拟合和欠拟合的未来

这些概念仍然是基础概念,但非常大的神经网络使经典图像变得复杂。现代模型可以拥有比数据点多得多的参数,但仍能很好地概括,这是一种令人惊讶的机制,有时被称为“双下降”,其中测试误差在过度拟合峰值后再次下降。研究越来越关注过度参数化模型泛化的原因、优化器中隐式正则化的作用以及更好地自动检测分布偏移。当现实世界的数据偏离训练数据时,预计会有更丰富的诊断来标记生产中的过度拟合。

现实世界的实施

垃圾邮件过滤器,标记包含特定发件人姓名的每封电子邮件,因为该发件人恰好在训练数据中大量发送垃圾邮件,完全错过了新的垃圾邮件发送者(过度拟合)。

仅使用平方英尺并忽略位置、卧室和条件的房价模型,因此它在昂贵的社区中严重缺失(拟合不足)。

医学图像分类器学习检测医院的扫描仪水印而不是疾病,但在其他医院失败(过度拟合虚假特征)。

绘制训练期间的训练损失与验证损失的图,并在验证损失开始上升而训练损失持续下降时停止(及早发现过度拟合)。

实施模式

实践中的过拟合和欠拟合

垃圾邮件过滤器,标记包含特定发件人姓名的每封电子邮件,因为该发件人恰好在训练数据中大量发送垃圾邮件,完全错过了新的垃圾邮件发送者(过度拟合)。

垃圾邮件过滤器会标记包含特定发件人姓名的每封电子邮件,因为该发件人在训练数据中碰巧大量发送垃圾邮件,完全漏掉了新的垃圾邮件发送者(过度拟合)。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

实践中的过拟合和欠拟合

仅使用平方英尺并忽略位置、卧室和条件的房价模型,因此它在昂贵的社区中严重缺失(拟合不足)。

仅使用平方英尺而忽略位置、卧室和条件的房价模型,因此在昂贵的社区中会严重失败(拟合不足)。当团队预先定义质量阈值、为边缘情况保留人为升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

实践中的过拟合和欠拟合

医学图像分类器学习检测医院的扫描仪水印而不是疾病,但在其他医院失败(过度拟合虚假特征)。

医学图像分类器学会检测医院的扫描仪水印而不是疾病,但在其他医院却失败了(对虚假特征过度拟合)。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

实践中的过拟合和欠拟合

绘制训练期间的训练损失与验证损失的图,并在验证损失开始上升而训练损失持续下降时停止(及早发现过度拟合)。

绘制训练期间的训练损失与验证损失的图,并在验证损失开始上升而训练损失持续下降时停止(及早发现过度拟合)。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

不同的团队可能会以不同的方式使用同一术语,因此请尽早定义范围。

!

基准测试可能看起来很强大,但实际性能却参差不齐。

!

忽视数据质量和评估计划通常会产生脆弱的结果。

实施路线图

1

从您需要的结果的简单语言定义开始。

从您需要的结果的简单语言定义开始。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

在测试之前选择一种成功指标和一种失败条件。

在测试之前选择一种成功指标和一种失败条件。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

使用代表性数据运行小型试点,而不是完善的演示集。

使用代表性数据运行小型试点,而不是完善的演示集。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

记录过度拟合和欠拟合在哪些方面有帮助,以及哪些更简单的方法更好。

记录过度拟合和欠拟合在哪些方面有帮助,以及哪些更简单的方法更好。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索