概述
ML 模型的 A/B 测试意味着将实时流量同时路由到两个模型版本,并衡量哪一个模型在真实用户和真实结果上实际上表现更好。这很重要,因为离线准确性指标通常无法预测业务影响,因此唯一诚实的测试是生产中的受控实验。
ML 模型的 A/B 测试是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。
深入探讨
离线模型可能看起来很棒——AUC更高,错误率更低——但仍然会损害你关心的指标,比如收入或留存率。 A/B 测试通过将用户随机分为由现有模型 (A) 服务的对照组和由候选模型 (B) 服务的治疗组,然后比较所选的成功指标来解决此问题。随机化确保各组具有可比性,因此任何差异都可以归因于模型。团队使用统计假设检验来确定观察到的差距是真实的还是噪音,设置显着性水平(通常为 5%)并计算足够的统计功效所需的样本量。相关技术包括金丝雀发布(一小部分流量首先尝试新模型)和影子测试(新模型在不影响用户的情况下对请求进行评分)。
技术洞察
核心是假设检验。原假设表示两个模型的表现相同;仅当在给定方差和样本量的情况下差异具有统计显着性时,您才拒绝它。 p 值低于阈值(例如 0.05)表明纯偶然情况下结果不太可能出现。功率分析预先告诉您需要多少用户才能可靠地检测到有意义的效果 - 较小的预期改进需要更大的样本来确认。
掌握 ML 模型的 A/B 测试
ML 模型的 A/B 测试意味着将实时流量同时路由到两个模型版本,并衡量哪一个模型在真实用户和真实结果上实际上表现更好。这很重要,因为离线准确性指标通常无法预测业务影响,因此唯一诚实的测试是生产中的受控实验。 ML 模型的 A/B 测试是一个技术构建块,会大规模影响模型质量、基础设施成本、延迟和可靠性。为了加深理解,请将 ML 模型的 A/B 测试视为一种操作模型,而不是单一功能:定义所需的结果、澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。
在实践中,使用 A/B 测试进行 ML 模型的强大团队可以根据可靠性和成本来优化架构、数据和基础设施选择。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。
多年来,架构决策决定着性能和运营成本。与此同时,优化一个基准测试可以隐藏更广泛的系统弱点。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。
战略影响
多年来,架构决策决定着性能和运营成本。
多年来,架构决策决定着性能和运营成本。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。
技术教育帮助团队选择正确的堆栈,而不仅仅是最新的堆栈。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
更好的工程选择可以减少生产中的可靠性事故。
更好的工程选择可以减少生产中的可靠性事故。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
现实世界的实施
流媒体服务 A/B 测试了新的推荐模型,测量每个用户的观看时间而不是离线排名准确性。
一家电子商务网站金丝雀在全面推出之前发布了新的搜索排名模型,占流量的 5%。
一家银行并行对新的欺诈模型进行影子测试,将其警报与实时模型进行比较,而不会阻止任何交易。
一款叫车应用程序使用多臂老虎机在定价模型之间路由请求,有利于驾驶更多完整行程的模型。
实施模式
ML 模型的 A/B 测试实践
流媒体服务 A/B 测试了新的推荐模型,测量每个用户的观看时间而不是离线排名准确性。
流媒体服务 A/B 测试新的推荐模型,测量每个用户的观看时间而不是离线排名准确性。当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力增益和错误成本时,通常会得到更好的结果。
ML 模型的 A/B 测试实践
一家电子商务网站金丝雀在全面推出之前发布了新的搜索排名模型,占流量的 5%。
电子商务网站金丝雀在全面推出之前将新的搜索排名模型发布到 5% 的流量。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
ML 模型的 A/B 测试实践
一家银行并行对新的欺诈模型进行影子测试,将其警报与实时模型进行比较,而不会阻止任何交易。
银行并行对新的欺诈模型进行影子测试,将其警报与实时模型进行比较,而不会阻止任何交易。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。
ML 模型的 A/B 测试实践
一款叫车应用程序使用多臂老虎机在定价模型之间路由请求,有利于驾驶更多完整行程的模型。
打车应用程序使用多臂老虎机在定价模型之间路由请求,有利于驾驶更多完成的乘车的模型。当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会得到更好的结果。
风险与防护栏
优化一项基准测试可以隐藏更广泛的系统弱点。
基础设施和维护成本常常被低估。
随着系统变得更加复杂,安全性和可观察性差距可能会扩大。
实施路线图
在实施之前定义延迟、质量和成本目标。
在实施之前定义延迟、质量和成本目标。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
在实际负载和数据条件下进行基准测试。
在实际负载和数据条件下进行基准测试。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
仪器监控错误、漂移和用户影响。
仪器监控错误、漂移和用户影响。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
在扩展之前准备回滚和事件响应路径。
在扩展之前准备回滚和事件响应路径。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。