语言人工智能指南

指令调优

指令调整是将原始文本预测器转变为实际遵循“总结”或“写礼貌回复”等指令的模型的训练步骤。

概述

指令调整是将原始文本预测器转变为实际遵循“总结”或“写礼貌回复”等指令的模型的训练步骤。这就是让基础模型感觉有用且可操纵的原因。

指令调优是语言 AI ​​堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。

深入探讨

基本语言模型仅经过训练来预测网络文本上的下一个标记,因此,如果您输入问题,它可能会继续提出更多问题,而不是回答。指令调整解决了这个问题。它是一种监督微调的形式:该模型在许多对(指令、理想响应)上进行训练,涵盖数千个任务——翻译、摘要、分类、问答、编码等等。通过重复查看相同的指令然后提供有用的答案模式,该模型可以学习“按照用户要求执行操作”的一般行为,并且这可以推广到它在训练中从未见过的指令。该方法是在 2021 年左右由 FLAN、T0 和 Natural instructions 等工作建立的,并且是 OpenAI 的 InstructGPT 的核心,该方法根据一组精选的指令提示对 GPT-3 进行了微调。它是大多数聊天助手构建的基础。

技术洞察

从机制上讲,指令调整是标准的监督学习:通过梯度更新权重,最小化模型预测标记与参考答案之间的差异。它与 RLHF(基于人类反馈的强化学习)不同,后者是使用奖励模型针对人类偏好进行优化的。通常的方法是分层的:预训练,然后指令调整(SFT)来教授任务跟踪,然后可选的 RLHF 来改进语气、帮助性和安全性。数据多样性比纯粹的数量更重要——广泛的任务覆盖范围推动了泛化。

掌握指令调整

指令调整是将原始文本预测器转变为实际遵循“总结”或“写礼貌回复”等指令的模型的训练步骤。这就是让基础模型感觉有用且可操纵的原因。指令调优是语言 AI ​​堆栈的一部分,用于大规模读取、生成、分类和转换文本和语音。为了建立深入的理解,请将指令调优视为一种操作模型,而不是单个功能:定义所需的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。

在实践中,使用指令调优的强大团队将提示、检索和审查循环设计为一个集成的通信系统。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时,幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

团队可以花更多时间进行判断,而自动化则可以处理重复。

团队可以花更多时间进行判断,而自动化则可以处理重复。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

指令调优的未来

在发现数据质量可以胜过数量之后,该领域正在从巨大的手写数据集转向更高质量的、部分合成的数据——有时只是几千个精心挑选的例子。预计会有更多特定领域的指令调整(医学、法律、编码)、多语言和多模式指令集,以及生成和过滤指令数据的自动化管道。指令调整将仍然是原始预训练模型和可用助手之间的重要桥梁,并越来越多地与偏好优化相结合以进行对齐。

现实世界的实施

将基本的 GPT 风格模型转变为回答问题而不是回应问题的聊天助手

FLAN-T5,在许多任务中进行了微调,因此它可以遵循从未明确训练过的指令

InstructGPT,其中 GPT-3 根据策划的提示进行指令调整,以产生更有帮助的响应

通过微调支持和法律团队编写的指令响应对来构建公司内部助理

实施模式

实践中的指令调整

将基本的 GPT 风格模型转变为聊天助手,可以回答问题而不是回应问题。

将基本的 GPT 风格模型转变为回答问题而不是回应问题的聊天助手 当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

实践中的指令调整

FLAN-T5,在许多任务中进行了微调,因此它可以遵循从未明确训练过的指令。

FLAN-T5 在许多任务中进行了微调,因此可以遵循从未明确培训过的指令。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。

实践中的指令调整

InstructGPT,其中 GPT-3 根据策划的提示进行指令调整,以产生更有帮助的响应。

InstructGPT,其中 GPT-3 根据策划的提示进行指令调整,以产生更有帮助的响应。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

实践中的指令调整

通过微调支持和法律团队编写的指令响应对来构建公司内部助理。

通过对支持和法律团队编写的指令响应对进行微调来构建公司内部助理当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

风险与防护栏

!

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

!

及时的敏感性可能会在类似的请求中产生不一致的结果。

!

如果访问控制薄弱,敏感文本数据可能会暴露。

实施路线图

1

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

当准确性很重要时,请使用可信来源进行地面响应。

当准确性很重要时,请使用可信来源进行地面响应。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索