基础知识指南

迁移学习

迁移学习重用已经在大型数据集上训练的模型,并将其适应新的相关任务。

概述

迁移学习重用已经在大型数据集上训练的模型,并将其适应新的相关任务。您无需从头开始,而是站在已经学习了有用的一般特征的模型的肩膀上,从而节省大量时间、数据和计算。

迁移学习位于核心人工智能工具包中。当你理解它时,其他人工智能主题就变得更容易评估和比较。

深入探讨

从零开始训练强大的模型通常需要数百万个标记示例和强大的硬件。迁移学习回避了这一点。在大型数据集上进行预训练的模型,例如在 ImageNet 上训练的图像网络或在网络文本上训练的语言模型,已经学习了广泛有用的模式:视觉的边缘和形状、文本的语法和含义。您采用该预训练模型并使其知识适应您较小的具体问题。主要有两种风格。在特征提取中,您冻结大部分网络并仅在顶部训练一个新的输出层。在微调过程中,您还可以解冻一些更深的层,并继续以低学习率训练它们,以便模型轻轻地调整您的数据,而不会忘记它所知道的内容。

技术洞察

预训练的网络学习层次结构:早期层捕获通用特征(边缘、纹理、基本单词关系),而后面的层捕获特定于任务的概念。迁移学习利用了这一点。如果您的任务与原始任务类似,请将早期层冻结为固定特征提取器并仅重新训练头部。如果您的数据差异较大,请使用非常小的学习率微调更深的层,以便更新是温和的。最大的风险是领域转移:如果新数据看起来与预训练数据差异太大,那么借用的特征就不太适合。

掌握迁移学习

迁移学习重用已经在大型数据集上训练的模型,并将其适应新的相关任务。您无需从头开始,而是站在已经学习了有用的一般特征的模型的肩膀上,从而节省大量时间、数据和计算。迁移学习位于核心人工智能工具包中。当你理解它时,其他人工智能主题就变得更容易评估和比较。为了建立深入的理解,请将迁移学习视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中,使用迁移学习的强大团队首先构建强大的概念模型,然后将这些模型映射到实际的生产约束。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

它可以帮助您将清晰的技术声明与营销语言分开。同时,不同的团队可能会以不同的方式使用同一术语,因此请尽早定义范围。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

它可以帮助您将清晰的技术声明与营销语言分开。

它可以帮助您将清晰的技术声明与营销语言分开。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

在花费金钱或时间之前,您可以提出更好的实施问题。

在花费金钱或时间之前,您可以提出更好的实施问题。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

具有共同理解的团队可以做出更好的产品、政策和学习决策。

具有共同理解的团队可以做出更好的产品、政策和学习决策。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

迁移学习的未来

迁移学习已成为构建人工智能的默认方式。如今,几乎没有人从头开始训练大型视觉或语言模型;团队改为采用预先训练的基础模型。最前沿的是 LoRA 和适配器等参数高效的方法,它们只需调整一小部分权重即可以低成本定制巨型模型。预计这种趋势将会加深:从大型模型中提取和微调的更小的、专业的模型,加上人们越来越关注在模型反复调整时减轻领域转移和避免“灾难性遗忘”。

现实世界的实施

微调 ImageNet 预训练网络,仅用几千张照片即可检测工厂生产线上的特定缺陷

通过对较小的专业语料库进行微调,采用大型预训练语言模型来起草法律或医学摘要

使用一般语音训练的模型作为起点来构建特定口音或方言的识别器

重新训练视觉模型的最后一层,以根据农业应用程序的叶子图像对植物病害进行分类

实施模式

迁移学习实践

微调 ImageNet 预训练网络,仅用几千张照片即可检测工厂生产线上的特定缺陷。

微调 ImageNet 预训练网络,仅用几千张照片即可检测工厂生产线上的特定缺陷。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

迁移学习实践

通过对较小的专业语料库进行微调,采用大型预训练语言模型来起草法律或医学摘要。

通过在较小的专业语料库上进行微调,采用大型预训练语言模型来起草法律或医学摘要当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

迁移学习实践

使用一般语音训练的模型作为起点来构建特定口音或方言的识别器。

使用在一般语音上训练的模型作为起点来构建特定口音或方言的识别器当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

迁移学习实践

重新训练视觉模型的最后一层,以根据农业应用程序的叶子图像对植物病害进行分类。

重新训练视觉模型的最后一层,以根据农业应用程序的叶子图像对植物病害进行分类 当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

不同的团队可能会以不同的方式使用同一术语,因此请尽早定义范围。

!

基准测试可能看起来很强大,但实际性能却参差不齐。

!

忽视数据质量和评估计划通常会产生脆弱的结果。

实施路线图

1

从您需要的结果的简单语言定义开始。

从您需要的结果的简单语言定义开始。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

在测试之前选择一种成功指标和一种失败条件。

在测试之前选择一种成功指标和一种失败条件。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

使用代表性数据运行小型试点,而不是完善的演示集。

使用代表性数据运行小型试点,而不是完善的演示集。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

记录迁移学习在哪些方面有帮助以及哪些更简单的方法更好。

记录迁移学习在哪些方面有帮助以及哪些更简单的方法更好。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索