公司指南

GPT-4 和 GPT-4o

GPT-4 (2023) 是 OpenAI 的突破性大型多模态模型，可以接受图像和文本，而 GPT-4o (2024) 使其更快、更便宜，并且本身能够在单个模型中处理音频、视觉和文本。

概述

GPT-4 (2023) 是 OpenAI 的突破性大型多模态模型，可以接受图像和文本，而 GPT-4o (2024) 使其更快、更便宜，并且本身能够在单个模型中处理音频、视觉和文本。他们共同定义了 ChatGPT 的现代时代。

GPT-4 和 GPT-4o 在战略、模型访问、平台决策和生态系统合作伙伴关系的背景下得到最好的理解。

深入探讨

GPT-4 于 2023 年 3 月发布，是 GPT-3.5 的重大飞跃：它在 Bar 和 AP 测试等考试中得分最高，可以处理更长的提示，并且可以推理图像。 GPT-4 Turbo 后来添加了 128k 代币上下文窗口和更便宜的定价。 2024 年 5 月，OpenAI 引入了 GPT-4o，其中“o”代表“omni”，这是跨文本、音频和视觉进行端到端训练的单一模型。早期的语音模式链接了三个独立的模型（语音到文本，然后是 GPT，然后是文本到语音），增加了延迟； GPT-4o 直接处理音频，实现近乎实时的带有情感语气的语音对话，并且能够被打断。通过 API，它的速度大约是 GPT-4 Turbo 的两倍，成本是 GPT-4 Turbo 的一半，并且 OpenAI 使其可供免费的 ChatGPT 用户使用，从而极大地扩大了访问范围。

技术洞察

两者都是仅解码器的 Transformer 模型，经过训练来预测下一个标记，然后通过人类反馈 (RLHF) 的强化学习进行改进，以遵循指令并安全地运行。 GPT-4o 的关键进步是端到端多模态：一个网络不再通过单独的转录和合成模型路由语音，而是直接摄取和发出音频令牌，保留语气、时间和非语言提示，同时将延迟缩短到大约对话速度（几百毫秒）。

掌握 GPT-4 和 GPT-4o

GPT-4 (2023) 是 OpenAI 的突破性大型多模态模型，可以接受图像和文本，而 GPT-4o (2024) 使其更快、更便宜，并且本身能够在单个模型中处理音频、视觉和文本。他们共同定义了 ChatGPT 的现代时代。 GPT-4 和 GPT-4o 在战略、模型访问、平台决策和生态系统合作伙伴关系的背景下得到最好的理解。为了建立深入的理解，请将 GPT-4 和 GPT-4o 视为一种操作模型，而不是单个功能：定义期望的结果，澄清假设，并将系统可以可靠地完成的任务与仍需要专家判断的任务分开。

在实践中，使用 GPT-4 和 GPT-4o 的强大团队在提交之前会评估供应商策略、路线图可靠性和锁定风险。他们记录明确的成功标准，根据实际数据和工作流程进行测试，并根据观察到的失败模式而不是一次性基准测试胜利进行迭代。这就是理论理解转变为跨产品、政策和运营的持久能力的地方。

供应商路线图会影响您的团队接下来可以构建的功能。与此同时，发布公告可能会超过实际生产工作流程的稳定性。最具弹性的方法是将实验速度与治理规则结合起来：运行试点、捕获证据、发布决策日志，并随着模型行为、用户期望和监管要求的发展不断更新保障措施。

战略影响

供应商路线图会影响您的团队接下来可以构建的功能。

供应商路线图会影响您的团队接下来可以构建的功能。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

商业条款和部署选项会影响长期成本和风险。

商业条款和部署选项会影响长期成本和风险。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

公司激励措施塑造了产品默认、安全态势和开放性。

公司激励措施塑造了产品默认、安全态势和开放性。在高质量部署中，这会转化为可衡量的操作规则、所有权边界和定期审查仪式，以便团队可以增强信心，而不是扩大模糊性。

GPT-4 和 GPT-4o 的未来

GPT-4o 为流畅、实时的多模式助手设定了模板，OpenAI 的后继者正在进一步推动推理（在回答之前进行深思熟虑的 o 系列“思考”模型）、更长的上下文和代理工具的使用。期望更低的成本、更丰富的实时语音和视频交互、更紧密的应用程序和设备集成，以及根据任务难度在快速响应和缓慢、仔细的推理之间流畅切换的模型。本地生成图像和音频的多模式生成将不断扩展。

现实世界的实施

使用 ChatGPT 的高级语音模式进行近乎实时的口语对话，包括在句子中打断

上传冰箱内物品的照片并要求 GPT-4o 建议食谱

将长法律合约粘贴到 128k 代币上下文窗口中以进行摘要和风险发现

使用视觉功能阅读和解释图表、手写注释或错误消息的屏幕截图

实施模式

GPT-4 和 GPT-4o 的实践

使用 ChatGPT 的高级语音模式进行近乎实时的语音对话，包括在句子中打断。

使用 ChatGPT 的高级语音模式进行近乎实时的口头对话，包括在句子中打断当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

GPT-4 和 GPT-4o 的实践

上传冰箱内物品的照片并要求 GPT-4o 建议食谱。

上传冰箱内物品的照片并要求 GPT-4o 建议菜谱当团队预先定义质量阈值、针对边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

GPT-4 和 GPT-4o 的实践

将长法律合同粘贴到 128k 代币上下文窗口中以进行摘要和风险发现。

将长法律合同粘贴到 128k 代币上下文窗口中以进行摘要和风险发现当团队预先定义质量阈值、为边缘情况保留人工升级路径并随着时间的推移跟踪生产力增益和错误成本时，通常会获得更好的结果。

GPT-4 和 GPT-4o 的实践

使用视觉功能阅读和解释图表、手写注释或错误消息的屏幕截图。

使用视觉功能来阅读和解释图表、手写笔记或错误消息的屏幕截图当团队预先定义质量阈值、为边缘情况保留人工升级路径并跟踪一段时间内的生产力提升和错误成本时，通常会获得更好的结果。

风险与防护栏

发布公告可能会超过实际生产工作流程的稳定性。

API 定价或政策转变可能会在一夜之间打破假设。

单一供应商依赖性增加了锁定和迁移成本。

实施路线图

使用您自己的任务和数据集评估提供商。

使用您自己的任务和数据集评估提供商。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

在集成之前查看隐私、安全和法律条款。

在集成之前查看隐私、安全和法律条款。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

维护跨模型或供应商的后备计划。

维护跨模型或供应商的后备计划。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

监控发行说明，以便路线图的更改不会让团队感到意外。

监控发行说明，以便路线图的更改不会让团队感到意外。将每个步骤视为证据门：如果不满足标准，则暂停推出，缩小差距，然后再扩大使用。

不断探索

OpenAI

了解领先的基础模型供应商如何运作。

阅读指南

开源人工智能

比较开放和封闭模型生态系统。

阅读指南