基础知识指南

自玩微调

自对弈微调通过让它与自己过去的输出竞争或学习，生成自己的训练信号来改进模型。

概述

自对弈微调通过让它与自己过去的输出竞争或学习，生成自己的训练信号来改进模型。这很重要，因为它可以使用很少或不使用额外的人工标签来将性能提升到超出监督数据的水平。

自我对弈微调位于核心人工智能工具包中。当你理解它时，其他人工智能主题就变得更容易评估和比较。

深入探讨

自对弈在游戏人工智能中有着深厚的根源：AlphaGo Zero 和 AlphaZero 纯粹是通过与自己进行数百万局比赛而达到超人的水平，没有人类的对局记录。同样的精神现在也出现在语言模型微调中。在SPIN（自玩微调）中，当前模型生成对提示的响应，训练推动模型将自己生成的答案与原始人类编写的答案区分开来，将自己视为玩家和对手。经过连续的迭代，“对手”（前一个检查点）变得更强，因此模型必须不断改进，逐渐缩小与目标分布的差距。最大的吸引力在于数据效率：可以压缩固定的监督数据集以获得更多收益，而无需收集新的人类演示或偏好。

技术洞察

SPIN 将微调作为具有 DPO 式损失的两人游戏：模型经过训练，可以为人类参考响应分配比在先前迭代中自己生成的响应更高的可能性。由于之前的检查点提供了负数，因此难度会随着模型的改进而自动缩放。在游戏系统中，自我游戏与搜索（例如 MCTS）和价值网络相结合，在没有外部数据的情况下生成越来越难的对手的无尽课程。

掌握自我调节微调

为了建立深入的理解，请将自我调整微调视为一种操作模型，而不是单一功能。定义期望的结果，澄清假设，并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中，使用自我微调微调的强大团队首先构建强大的概念模型，然后将这些模型映射到实际的生产约束。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

它可以帮助您将清晰的技术声明与营销语言分开。同时，不同的团队可能会以不同的方式使用同一术语，因此请尽早定义范围。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

它可以帮助您将清晰的技术声明与营销语言分开。

它可以帮助您将清晰的技术声明与营销语言分开。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

在花费金钱或时间之前，您可以提出更好的实施问题。

在花费金钱或时间之前，您可以提出更好的实施问题。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

具有共同理解的团队可以做出更好的产品、政策和学习决策。

具有共同理解的团队可以做出更好的产品、政策和学习决策。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

自玩微调的未来

自我游戏是打破数据墙的主要候选者，因为它制作自己的课程，而不是依赖稀缺的人类标签。预计数学、代码和定理证明等可验证领域的增长，其中自动检查器会对自我生成的尝试进行评分。风险包括奖励黑客和模型因过多的合成输出训练而崩溃，因此未来的系统可能会将自我游戏与接地信号、验证器以及定期的人类或现实世界反馈结合起来。

现实世界的实施

AlphaGo Zero 和 AlphaZero 完全通过自我对弈达到超人的围棋、国际象棋和将棋水平，无需人类对弈

SPIN 通过迭代区分自己的输出和人类参考答案来提高 LLM 的基准分数

数学和编码模型生成解决方案尝试，然后对自动检查器或单元测试验证的模型进行训练

谈判和对话代理通过反复让对话双方互相对抗来改进策略

实施模式

实践中的自我对弈微调

AlphaGo Zero 和 AlphaZero 完全通过自我对弈而达到了超人的围棋、国际象棋和将棋水平，没有人类对弈。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

实践中的自我对弈微调

SPIN 通过迭代地将自己的输出与人类参考答案区分开来提高法学硕士的基准分数。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

实践中的自我对弈微调

数学和编码模型生成解决方案尝试，然后对自动检查器或单元测试验证的模型进行训练。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

实践中的自我对弈微调

谈判和对话代理通过反复让对话双方互相对抗来改进策略。

当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

风险与防护栏

不同的团队可能会以不同的方式使用同一术语，因此请尽早定义范围。

基准测试可能看起来很强大，但实际性能却参差不齐。

忽视数据质量和评估计划通常会产生脆弱的结果。

实施路线图

从您需要的结果的简单语言定义开始。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

在测试之前选择一种成功指标和一种失败条件。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

使用代表性数据运行小型试点，而不是完善的演示集。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

记录自玩微调在哪些方面有帮助以及在哪些方面更简单的方法更好。

将此视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

什么是人工智能？

在深入研究之前先了解基本概念。

阅读指南

人工智能如何学习

了解现代系统背后的培训过程。

阅读指南

Check your understanding

Test yourself: take the Self-Play Fine-Tuning quiz

Start quiz →

自玩微调

概述

深入探讨

技术洞察

掌握自我调节微调

战略影响

自玩微调的未来

现实世界的实施

实施模式

实践中的自我对弈微调

实践中的自我对弈微调

实践中的自我对弈微调

实践中的自我对弈微调

风险与防护栏

实施路线图

不断探索

什么是人工智能？

人工智能如何学习

Related guides