概述
BigScience 是 1,000 多名研究人员进行的为期一年的开放研究合作,产生了 BLOOM,这是第一个真正的多语言、公开发布的大型语言模型。作为在大型科技公司之外构建的透明、社区驱动的人工智能的里程碑,它具有重要意义。
BigScience 和 BLOOM 模型在战略、模型访问、平台决策和生态系统合作伙伴关系的背景下可以得到最好的理解。
深入探讨
BigScience 是一个为期一年的研究研讨会,从 2021 年到 2022 年举办,由 Hugging Face 协调,汇集了来自 60 多个国家和 250 个机构的 1,000 多名志愿者研究人员。其主要成果于 2022 年 7 月发布,是 BLOOM,一个 1760 亿参数的自回归语言模型。 BLOOM 有意采用多种语言,在涵盖 46 种自然语言和 13 种编程语言的 ROOTS 语料库上进行训练,对代表性不足的语言(例如几种非洲和南亚语言)具有很强的代表性。训练在法国公共资助的 Jean Zay 超级计算机上运行了几个月,使用了大约 384 个 GPU。 BLOOM 是根据 Responsible AI 许可证发布的,并提供其数据、训练和预期用途的完整文档,与类似模型的封闭开发形成鲜明对比。
技术洞察
BLOOM 是一个与 GPT-3 规模相似的纯解码器转换器,使用 ALiBi 位置嵌入而不是学习的位置向量,这有助于它推断出比训练中看到的更长的序列。它还应用了嵌入层归一化,提高了大规模训练的稳定性。多语言 ROOTS 语料库经过精心组装和记录,因此语言组合和数据源是透明且可审核的,这是故意偏离不透明的抓取数据集。
掌握大科学和 BLOOM 模型
BigScience 是 1,000 多名研究人员进行的为期一年的开放研究合作,产生了 BLOOM,这是第一个真正的多语言、公开发布的大型语言模型。作为在大型科技公司之外构建的透明、社区驱动的人工智能的里程碑,它具有重要意义。 BigScience 和 BLOOM 模型在战略、模型访问、平台决策和生态系统合作伙伴关系的背景下可以得到最好的理解。为了建立深入的理解,请将 BigScience 和 BLOOM 模型视为一个操作模型,而不是一个单一功能:定义期望的结果,澄清假设,并将系统可以可靠地执行的操作与仍需要专家判断的操作分开。
在实践中,使用 BigScience 和 BLOOM 模型的强大团队在做出承诺之前会评估供应商策略、路线图可靠性和锁定风险。他们记录明确的成功标准,根据实际数据和工作流程进行测试,并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。
供应商路线图会影响您的团队接下来可以构建的功能。与此同时,发布公告可能会超过实际生产工作流程的稳定性。最具弹性的方法是将实验速度与治理规则结合起来:运行试点、捕获证据、发布决策日志,并随着模型行为、用户期望和监管要求的发展不断更新保障措施。
战略影响
供应商路线图会影响您的团队接下来可以构建的功能。
供应商路线图会影响您的团队接下来可以构建的功能。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
商业条款和部署选项会影响长期成本和风险。
商业条款和部署选项会影响长期成本和风险。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
公司激励措施塑造了产品默认、安全态势和开放性。
公司激励措施塑造了产品默认、安全态势和开放性。在高质量部署中,这会转化为可衡量的操作规则、所有权边界和定期审查仪式,以便团队可以增强信心,而不是扩大模糊性。
现实世界的实施
生成并完成多种语言的文本,包括商业模式服务不足的语言
作为研究偏见、多语言迁移和扩展行为的开放研究基线
微调为特定于任务或遵循指令的变体,例如针对非英语社区的 BLOOMZ
为研究训练数据来源和负责任的人工智能许可的学者提供完整记录的模型
实施模式
BigScience 和 BLOOM 模型的实践
生成并完成多种语言的文本,包括商业模式服务不足的语言。
跨数十种语言(包括商业模型服务不足的语言)生成和完成文本当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力提高和错误成本时,通常会获得更好的结果。
BigScience 和 BLOOM 模型的实践
作为研究偏见、多语言迁移和扩展行为的开放研究基线。
作为研究偏见、多语言迁移和扩展行为的开放研究基线当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
BigScience 和 BLOOM 模型的实践
微调为特定于任务或遵循指令的变体,例如针对非英语社区的 BLOOMZ。
微调到特定于任务或遵循指令的变体,例如针对非英语社区的 BLOOMZ 当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
BigScience 和 BLOOM 模型的实践
为研究训练数据来源和负责任的人工智能许可的学者提供完整记录的模型。
为研究训练数据来源和负责任的人工智能许可的学者提供完整记录的模型当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时,通常会获得更好的结果。
风险与防护栏
发布公告可能会超过实际生产工作流程的稳定性。
API 定价或政策转变可能会在一夜之间打破假设。
单一供应商依赖性增加了锁定和迁移成本。
实施路线图
使用您自己的任务和数据集评估提供商。
使用您自己的任务和数据集评估提供商。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
在集成之前查看隐私、安全和法律条款。
在集成之前查看隐私、安全和法律条款。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
维护跨模型或供应商的后备计划。
维护跨模型或供应商的后备计划。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。
监控发行说明,以便路线图的更改不会让团队感到意外。
监控发行说明,以便路线图的更改不会让团队感到意外。将每个步骤视为证据门:如果不满足标准,则暂停推出,缩小差距,然后再扩大使用。