基础知识指南

课程学习

课程学习按照故意的顺序在示例上训练人工智能模型——先简单，后困难——而不是以随机顺序输入数据。

概述

课程学习按照故意的顺序在示例上训练人工智能模型——先简单，后困难——而不是以随机顺序输入数据。它反映了学校的教学方式：先掌握算术，再掌握微积分，模型通常学得更快，概括能力也更好。

课程学习位于核心人工智能工具包中。当你理解它时，其他人工智能主题就变得更容易评估和比较。

深入探讨

Yoshua Bengio 及其同事在 2009 年的一篇论文中提出，课程学习组织训练，以便模型在更难的例子之前看到更简单、更明确的例子。直觉是，早期的简单示例塑造了良好的初始参数并平滑了损失景观，帮助优化器避免了不良的局部最小值。 “难度”可以通过手动（短句在长句之前）、启发式（图像清晰度、噪声水平）或自动学习来定义。变体包括自定进度的学习，模型本身会评估它准备好哪些示例，以及有时会有所帮助的反课程（硬优先）方法。数据有限或硬优化时课程效果最强；借助海量数据和现代优化器，收益可能会缩小或消失。

技术洞察

从机械上来说，课程学习会随着时间的推移重新调整培训分配的权重或重新排序。常见的实现方式是使用节奏函数，随着训练的进行，合格示例池的数量从最简单到最难逐渐增加。这是延续方法的一种形式：首先优化平滑的、更容易的目标，然后针对真实的、更难的目标进行退火。自定进度学习通过添加一个正则化器来形式化这一点，让模型尽早选择低损耗（简单）的样本，并在可调阈值放宽时接纳较难的样本。

掌握课程学习

为了建立深入的理解，请将课程学习视为一种操作模型，而不是单一功能。定义期望的结果，澄清假设，并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中，使用课程学习的强大团队首先构建强大的概念模型，然后将这些模型映射到实际的生产约束。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

它可以帮助您将清晰的技术声明与营销语言分开。同时，不同的团队可能会以不同的方式使用同一术语，因此请尽早定义范围。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

它可以帮助您将清晰的技术声明与营销语言分开。

它可以帮助您将清晰的技术声明与营销语言分开。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

在花费金钱或时间之前，您可以提出更好的实施问题。

在花费金钱或时间之前，您可以提出更好的实施问题。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

具有共同理解的团队可以做出更好的产品、政策和学习决策。

具有共同理解的团队可以做出更好的产品、政策和学习决策。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

课程学习的未来

课程理念在大型语言模型训练中重新兴起，其中数据排序、混合调度和难度感知采样显着影响效率。根据人类反馈和推理模型进行强化学习越来越多地使用分阶段课程——简单的任务先于多步骤的任务。自动化的模型判断难度（让一个模型为另一个模型评分）和适应训练中期的动态课程是活跃的研究领域。期望与数据质量过滤和合成数据生成更紧密地集成，其中课程是动态生成的，以针对模型当前的弱点。

现实世界的实施

语音识别系统在嘈杂、带口音或快速的音频之前对清晰、缓慢的语音进行训练，以稳定早期学习。

机器翻译模型首先输入简短的句子对，然后逐渐输入更长、更惯用的句子。

玩游戏的强化学习代理，在面对完整的、稀疏奖励的游戏之前，从简单的关卡开始或塑造子目标。

数学和推理法学硕士微调，将单步问题安排在多步链之前，以构建可靠的推理。

实施模式

课程学习实践

语音识别系统在嘈杂、带口音或快速的音频之前对清晰、缓慢的语音进行训练，以稳定早期学习。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

课程学习实践

机器翻译模型首先输入简短的句子对，然后逐渐输入更长、更惯用的句子。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

课程学习实践

玩游戏的强化学习代理，在面对完整的、稀疏奖励的游戏之前，从简单的关卡开始或塑造子目标。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

课程学习实践

数学和推理法学硕士微调，将单步问题安排在多步链之前，以构建可靠的推理。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

风险与防护栏

不同的团队可能会以不同的方式使用同一术语，因此请尽早定义范围。

基准测试可能看起来很强大，但实际性能却参差不齐。

忽视数据质量和评估计划通常会产生脆弱的结果。

实施路线图

从您需要的结果的简单语言定义开始。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

在测试之前选择一种成功指标和一种失败条件。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

使用代表性数据运行小型试点，而不是完善的演示集。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

记录课程学习在哪些方面有帮助以及哪些更简单的方法更好。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

什么是人工智能？

在深入研究之前先了解基本概念。

阅读指南

人工智能如何学习

了解现代系统背后的培训过程。

阅读指南

Check your understanding

Test yourself: take the Curriculum Learning quiz

Start quiz →

课程学习

概述

深入探讨

技术洞察

掌握课程学习

战略影响

课程学习的未来

现实世界的实施

实施模式

课程学习实践

课程学习实践

课程学习实践

课程学习实践

风险与防护栏

实施路线图

不断探索

什么是人工智能？

人工智能如何学习

Related guides