技术指南

多任务网络中的硬参数共享

硬参数共享是经典的多任务学习设计,其中多个任务共享相同的隐藏层,并且仅在最后分成单独的输出“头”。

概述

硬参数共享是经典的多任务学习设计,其中多个任务共享相同的隐藏层,并且仅在最后分成单独的输出“头”。它可以节省内存,加快推理速度,并充当内置正则化器,减少过度拟合。

多任务网络中的硬参数共享是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。

深入探讨

当一个网络必须同时执行多项相关工作时,硬参数共享会保留每个任务使用的单个共享层主干,然后在每个输出的顶部附加一个特定于任务的小头。由于共享权重必须同时服务于所有任务,因此网络被迫学习足够通用的特征,以便在任何地方都有用,从而降低了过度拟合任何单个任务的风险。这与软参数共享形成鲜明对比,软参数共享中每个任务都保留自己的完整参数集,只是通过惩罚来鼓励这些参数保持相似。硬共享的参数效率更高,是推荐引擎、自动驾驶感知堆栈和多语言模型等生产系统中的主导模式。

技术洞察

训练将每个任务的损失合并为一个目标,通常是加权总和。选择这些权重很重要:具有更大或更快缩小梯度的任务可能会主导共享主干并导致其他任务挨饿。不确定性加权(学习每个任务的损失权重)等技术和 GradNorm 或 PCGrad 等梯度平衡方法可以解决这个问题。 PCGrad 甚至可以投影掉冲突的梯度分量,因此一个任务的更新不会直接取消共享层中另一个任务的更新。

掌握多任务网络中的硬参数共享

硬参数共享是经典的多任务学习设计,其中多个任务共享相同的隐藏层,并且仅在最后分成单独的输出“头”。它可以节省内存,加快推理速度,并充当内置正则化器,减少过度拟合。多任务网络中的硬参数共享是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。为了建立深入的理解,请将多任务网络中的硬参数共享视为一种操作模型,而不是单个功能:定义所需的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中,强大的团队在多任务网络中使用硬参数共享,根据可靠性和成本来优化架构、数据和基础设施选择。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

多年来,架构决策决定着性能和运营成本。与此同时,优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

多年来,架构决策决定着性能和运营成本。

多年来,架构决策决定着性能和运营成本。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。

技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

更好的工程选择可以减少生产中的可靠性事故。

更好的工程选择可以减少生产中的可靠性事故。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

多任务网络中硬参数共享的未来

硬参数共享仍然是大型多任务和多语言基础模型的支柱,其中一个主干服务于数十个任务。前沿将其与条件计算混合在一起,因此共享主体很大,但每个任务仅部分激活,并且适配器或 LoRA 模块可以添加微小的特定于任务的参数,而无需重新训练主干。更好的自动损失平衡以及检测和分割互相伤害的任务(“负转移”)的方法是活跃的研究领域。

现实世界的实施

自动驾驶感知网络共享视觉主干,而单独的头部则处理对象检测、车道分割和深度估计。

推荐系统通过具有两个任务头的一个共享嵌入主干来预测点击率和观看时间。

多语言翻译模型在多种语言之间共享编码器,并且仅在特定于语言的输出处进行分割。

面部分析模型通过共享的卷积特征提取器联合预测年龄、性别和情绪。

实施模式

多任务网络中的硬参数共享实践

自动驾驶感知网络共享视觉主干,而单独的头部则处理对象检测、车道分割和深度估计。

自动驾驶感知网络共享视觉主干,而单独的头部处理对象检测、车道分割和深度估计。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

多任务网络中的硬参数共享实践

推荐系统通过具有两个任务头的一个共享嵌入主干来预测点击率和观看时间。

推荐系统通过具有两个任务头的一个共享嵌入主干来预测点击率和观看时间当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

多任务网络中的硬参数共享实践

多语言翻译模型在多种语言之间共享编码器,并且仅在特定于语言的输出处进行分割。

多语言翻译模型在多种语言之间共享编码器,并仅在特定于语言的输出上进行分割。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

多任务网络中的硬参数共享实践

面部分析模型通过共享的卷积特征提取器联合预测年龄、性别和情绪。

面部分析模型通过共享的卷积特征提取器联合预测年龄、性别和情绪。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

风险与防护栏

!

优化一项基准测试可以隐藏更广泛的系统弱点。

!

基础设施和维护成本常常被低估。

!

随着系统变得更加复杂,安全性和可观察性差距可能会扩大。

实施路线图

1

在实施之前定义延迟、质量和成本目标。

在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

在实际负载和数据条件下进行基准测试。

在实际负载和数据条件下进行基准测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

仪器监控错误、漂移和用户影响。

仪器监控错误、漂移和用户影响。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

在扩展之前准备回滚和事件响应路径。

在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索