语言人工智能指南

情境学习

上下文学习是大型语言模型令人惊讶的能力,可以从提示中的几个示例中获取新任务,而无需任何重新训练。

概述

上下文学习是大型语言模型令人惊讶的能力,可以从提示中的几个示例中获取新任务,而无需任何重新训练。这就是为什么你可以通过向模型展示你想要的内容来即时“教授”模型。

情境学习是语言人工智能堆栈的一部分,用于大规模阅读、生成、分类和转换文本和语音。

深入探讨

通常,向神经网络教授新任务意味着通过训练更新其权重。上下文学习是不同的:您直接在提示(“上下文”)中编写一些示例,模型推断模式并将其应用到新的输入。模型内部没有任何变化;这些例子只是引导下一个标记的预测。您将听到“零次”(仅说明)、“一次”(一个示例)和“几次”(几个示例)。这种行为在 2020 年由 GPT-3 推广,并被证明是一种新兴能力:微小的模型无法做到这一点,但超过大约 1000 亿个参数的规模,几次提示的准确性急剧上升。该模型在预训练期间有效地学会了识别和继续模式,因此它可以在推理时重用该技能。

技术洞察

可解释性研究将这种能力很大程度上追溯到“归纳头”——训练过程中出现的注意回路,并执行模糊前缀匹配:它们回扫相似标记出现的位置,然后复制其后面的内容。因此,当您的提示显示“苹果 -> 水果、胡萝卜 -> 蔬菜”时,模型会匹配结构并预测下一个项目的正确标签。至关重要的是,推理时没有梯度流动,也没有权重更新。这些示例只是重塑了提供下一个标记概率分布的激活。

掌握情境学习

上下文学习是大型语言模型令人惊讶的能力,可以从提示中的几个示例中获取新任务,而无需任何重新训练。这就是为什么你可以通过向模型展示你想要的内容来即时“教授”模型。情境学习是语言人工智能堆栈的一部分,用于大规模阅读、生成、分类和转换文本和语音。为了建立深入的理解,请将情境学习视为一种操作模型,而不是单一功能:定义期望的结果,澄清假设,并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中,使用情境学习的强大团队将提示、检索和审查循环设计为一个集成的通信系统。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

语言工作流程可以在不牺牲一致性的情况下更快地移动。与此同时,幻觉事实可以悄悄地进入报告、支持流程或研究成果。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

语言工作流程可以在不牺牲一致性的情况下更快地移动。

语言工作流程可以在不牺牲一致性的情况下更快地移动。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

它扩展了跨语言和沟通方式的访问。

它扩展了跨语言和沟通方式的访问。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

团队可以花更多时间进行判断,而自动化则可以处理重复。

团队可以花更多时间进行判断,而自动化则可以处理重复。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。

情境学习的未来

扩大上下文窗口(现在有数十万个标记)将上下文学习推向“多次”模式,其中数十或数百个示例可以与某些任务的微调相媲美,而无需培训成本。期望与检索更紧密地集成,以便自动获取相关示例,并在上下文学习失败或分散注意力时提供更好的理论。它将仍然是适应模型的快速、廉价的方式,补充(而不是取代)对稳定、大批量任务的微调。

现实世界的实施

为聊天机器人提供三个示例支持票证及其类别,然后让它以相同的方式对新票证进行分类

显示一个模型,前后两对混乱的文本被重新格式化为干净的 JSON,以便它转换其余的文本

以您的品牌基调粘贴一些示例产品描述,以便新产品与风格相匹配

逐步演示棘手的数学单词问题,以便模型使用相同的推理格式解决类似的问题

实施模式

实践中的情境学习

为聊天机器人提供三个示例支持票证及其类别,然后让它以相同的方式对新票证进行分类。

为聊天机器人提供三个示例支持票证及其类别,然后让它以相同的方式对新票证进行分类。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会获得更好的结果。

实践中的情境学习

显示一个模型,前后两对混乱的文本被重新格式化为干净的 JSON,以便它转换其余的文本。

显示模型之前/之后的两对混乱文本,它们被重新格式化为干净的 JSON,以便将其余文本转换。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。

实践中的情境学习

以您的品牌基调粘贴一些示例产品描述,以便新产品与风格相匹配。

以您的品牌基调粘贴几个示例产品描述,以便新产品与风格相匹配。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时,通常会获得更好的结果。

实践中的情境学习

逐步演示棘手的数学单词问题,因此模型可以使用相同的推理格式解决类似的问题。

逐步演示棘手的数学单词问题,以便模型能够使用相同的推理格式解决类似的问题。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。

风险与防护栏

!

幻觉的事实可以悄悄地进入报告、支持流程或研究成果。

!

及时的敏感性可能会在类似的请求中产生不一致的结果。

!

如果访问控制薄弱,敏感文本数据可能会暴露。

实施路线图

1

在推出之前定义输出格式、语气和质量标准。

在推出之前定义输出格式、语气和质量标准。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

2

当准确性很重要时,请使用可信来源进行地面响应。

当准确性很重要时,请使用可信来源进行地面响应。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

3

为高风险输出保留人工审查检查点。

为高风险输出保留人工审查检查点。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

4

跟踪故障模式并定期重新训练提示或工作流程。

跟踪故障模式并定期重新训练提示或工作流程。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。

不断探索