GPT-5 来了,OpenAI 发布了迄今为止最快最智能的模型

0
(0)

8月7日,OpenAI 发布了迄今为止最智能、最快、最有用的模型:GPT-5,相较之前的模型在智能方面的重大飞跃,GPT-5 在编码、数学、写作、健康、视觉感知等方面具有最先进的性能。GPT-5 可供所有用户使用,Plus 订阅者可以使用更多,而 Pro 订阅者可以访问 GPT-5 pro,该版本具有扩展推理功能,可提供更全面、更准确的答案。让我们一起看看 GPT-5 模型有哪些进步?

GPT-5 来了,OpenAI 发布了迄今为止最快最智能的模型

一个统一的系统

GPT-5 是一个统一的系统,它具有智能、高效的模型,可以回答大多数问题;更深层次的推理模型(GPT-5 思维),用于解决更复杂的问题;以及一个实时路由器,可以根据对话类型、复杂性、工具需求和您的明确意图。该路由器持续基于真实数据进行训练,包括用户切换模型的时间、响应的偏好率和测量的准确性,并随着时间的推移而改进。当使用限制达到上限时,每个模型的精简版本将处理剩余的查询。未来,OpenAI 计划将这些功能整合到一个模型中。

更智能、更具实用性的模型

GPT-5 不仅在基准测试中表现优于前代模型,并且且回答问题速度更快。最重要的是,它在处理现实世界查询时更为实用。OpenAI 在减少幻觉、提升指令遵循能力及减少阿谀奉承方面取得了显著进展,同时在 ChatGPT 最常见的三大应用场景(写作、编程和健康领域)中进一步提升了 GPT-5 的性能。

编程

GPT-5 是 OpenAI 迄今为止最强大的编程模型。它在复杂的前端生成和调试大型代码库方面表现出显著提升。它能够仅凭一个提示词,以直观且富有美感的方式,将创意转化为现实,创建出美观且响应迅速的网站、应用程序和游戏。早期测试者还注意到了其设计选择,对间距、排版和留白等元素有着更深入的理解。

创意表达和写作

GPT-5 能够帮助您将粗略的想法转化为富有文学深度和节奏感的引人入胜的文字。它能够更可靠地处理涉及结构模糊性的写作,例如维持不押韵的抑扬五步格或自然流畅的自由体诗,同时兼顾形式的尊重与表达的清晰度。这些改进的写作能力意味着 ChatGPT 在帮助您完成日常任务,例如起草和编辑报告、电子邮件、备忘录等方面更加得心应手。

健康助手

GPT-5 是 OpenAI 迄今为止针对健康相关问题的最佳模型,能够帮助用户更好地了解并倡导自己的健康。该模型在其团队今年早些时候基于真实场景和医生定义的标准发布的评估工具 HealthBench 上,得分显著高于以往任何模型。与之前模型相比,它更像是一个积极的思考伙伴,能够主动识别潜在问题并提出问题,从而提供更具帮助性的答案。

该模型现在还能提供更精准可靠的回答,能够适应用户的上下文、知识水平和地理位置,从而在各种场景下提供更安全、更有帮助的回答。需要注意的是,ChatGPT 并不能替代医疗专业人士,它更像是一个合作伙伴,帮助你理解检测结果、在与医护人员交流时提出正确的问题,并在做出决策时权衡各种选择。

遵循指令和代理工具使用

GPT-5 在测试指令遵循和代理工具使用的基准测试中取得了显着进展,这些功能使其能够可靠地执行多步骤请求、跨不同工具进行协调并适应上下文变化。在实践中,这意味着它更擅长处理复杂的、不断变化的任务;GPT-5 可以更忠实地遵循您的指示,并使用其可用的工具端到端完成更多工作。

GPT-5 来了,OpenAI 发布了迄今为止最快最智能的模型

更快、更高效的思维能力

GPT-5 在更短的推理时间内能获得更大的价值。在其团队的评估中,GPT-5(启用推理功能)的表现优于 OpenAI o3,在视觉推理、代理编码和研究生水平的科学问题解决等各个功能中的输出令牌减少了 50-80%。

构建更强大、更可靠且更具帮助性的模型

对实际查询提供更准确的答案

与之前的模型相比,GPT-5 出现幻觉的可能性显著降低。 在启用网页搜索功能并使用代表 ChatGPT 生产流量的匿名提示词时,GPT-5 的回答出现事实错误的概率比 GPT-4o 低约 45%,而在处理开放式问题时,GPT-5 的回答出现事实错误的概率比 OpenAI o3 低约 80%。

更诚实的回应

除了提高真实性外,GPT-5(具备推理能力)在与用户沟通时会更诚实地说明其行为和能力。尤其是在面对不可能完成、定义不清或缺少关键工具的任务时。为了在训练过程中获得高奖励,推理模型可能会学会谎称已成功完成任务,或对不确定的答案表现出过分自信。例如,为了测试这一点,我们从多模态基准 CharXiv 的提示中删除了所有图像,发现 OpenAI o3 在86.7%的情况下仍对不存在的图像给出自信的回答,而GPT-5仅为9%。

在推理过程中,GPT-5 能更准确地识别任务无法完成的情况,并清晰地传达其局限性。OpenAI 团队在涉及不可能的编码任务和缺失多模态资产的设置中评估了欺骗率,发现 GPT-5(启用思考功能)在所有情况下都比 o3 欺骗性低。在代表实际生产环境中 ChatGPT 流量的庞大对话数据集上,已将欺骗率从 o3 的4.8%降至 GPT-5 推理响应的 2.1%。尽管这为用户带来了显著改善,但仍有更多工作待完成,OpenAI 将继续研究以提升模型的事实准确性和诚实性。

更安全、更有用的响应

GPT-5 在安全性方面取得了重大突破。过去,ChatGPT 主要依赖于基于拒绝的安全训练:根据用户的提示,模型应选择服从或拒绝。虽然这种类型的训练适用于明显的恶意提示,但它可能难以处理用户意图不明确或信息可能以良性或恶意用途的情境。拒绝训练在病毒学等双用途领域尤其缺乏灵活性,在这些领域,良性请求可以在高级别上安全地完成,但如果详细完成,可能会被恶意行为者利用。

针对 GPT-5,OpenAI 团队引入了一种新的安全训练形式——安全完成——该训练教导模型在可能的情况下提供最有帮助的答案,同时仍保持在安全边界内。有时,这可能意味着部分回答用户的问题或仅在高层次上回答。如果模型需要拒绝,GPT-5经过训练可以透明地告诉你为什么拒绝,并提供安全替代方案。在受控实验和生产模型中,我们发现这种方法更为细致,能够更好地处理双用途问题,对模糊意图具有更强的鲁棒性,并减少不必要的过度拒绝。

减少阿谀奉承,提升风格

总体而言,与 GPT-4o 相比,GPT-5 在表达上更为克制,使用不必要的表情符号更少,且在后续回复中表现得更为细腻和周到。它应该让人感觉更像是与一位拥有博士级智力的友好伙伴聊天,而非与 AI 对话。

今年早些时候,OpenAI 发布了 GPT-4o 的更新,该更新意外导致模型变得过于阿谀奉承或讨人喜欢,其团队迅速撤回了该更改,并此后致力于理解并减少这种行为,具体措施包括:

  • 开发新的评估方法来衡量阿谀奉承程度
  • 优化训练流程以减少阿谀奉承倾向。例如,添加通常会导致过度附和的示例,并训练模型避免此类行为。

在针对阿谀奉承行为的评估中,通过专门设计以诱发该行为响应的提示词,GPT-5 显著降低了阿谀奉承回复的比例(从14.5%降至不足6%)。有时,减少阿谀奉承可能伴随用户满意度的下降,但其所做的改进在将阿谀奉承减少超过一半的同时,也带来了其他可量化的提升,因此用户仍能进行高质量、建设性的对话,这与 OpenAI 团队帮助人们善用 ChatGPT 的目标一致。

更多自定义 ChatGPT 的方式

GPT-5 在遵循指令方面有了显著提升,OpenAI 团队为所有 ChatGPT 用户推出了四个新预设个性的研究预览版,这得益于可控性方面的改进。这些个性最初适用于文本聊天,未来将扩展到语音功能,让您无需编写自定义提示即可设置 ChatGPT 的互动方式—无论是简洁专业、体贴支持,还是略带讽刺。首批四种选项包括“愤世嫉俗者”、“机器人”、“倾听者”和“极客”,这些选项可随时在设置中开启或调整,旨在与您的沟通风格相匹配。这些新个性均符合或超过在内部评估中降低阿谀奉承行为的标准。

生物风险的全面防护措施

OpenAI 决定将“GPT-5思维”模型在生物和化学领域归类为“高能力”级别,并已实施强有力的防护措施以充分降低相关风险。其团队在“准备框架”下对该模型进行了严格的安全评估测试,与 CAISI 和英国 AISI 等合作伙伴完成了 5000 小时的红队测试。

与 ChatGPT Agent 的处理方式类似,尽管我们目前没有确凿证据表明该模型能实质性地帮助新手造成严重生物危害—即其定义的“高能力”阈值,但采取了预防性措施,现已启动必要的安全保障措施,以提升应对这类能力出现时的准备度。因此,“GPT-5 思维”具备强大的安全架构,其生物安全防护系统采用多层防御机制:全面威胁建模、通过全新安全完成范式训练模型以避免输出有害内容、持续运行的分类器与推理监控,以及明确的执行管道。

GPT-5 Pro(专业版)

对于最复杂、最具挑战性的任务,OpenAI 还推出了 GPT-5 Pro,取代 OpenAI O3-Pro。GPT-5 Pro是 GPT-5 的一个变体,能够进行更长时间的推理,通过扩展但高效的并行测试时间计算,提供最高质量和最全面的答案。GPT-5 Pro 在 GPT-5 家族中于多个具有挑战性的智能基准测试中表现最佳,其中包括在 GPQA 测试中达到最先进水平,该测试包含极具难度的科学问题。

在对超过 1000 个具有经济价值的现实世界推理提示的评估中,外部专家在 67.8% 的情况下更倾向于选择 GPT-5 Pro 而不是 “GPT-5 思考”。GPT-5 Pro 的重大错误减少了 22%,并在健康、科学、数学和编码方面表现出色。专家们认为其回答相关、有用且全面。

如何使用 GPT-5

GPT-5 现已成为 ChatGPT 的默认模型,取代了 GPT-4o、OpenAI o3、OpenAI o4-mini、GPT-4.1 和 GPT-4.5,适用于已登录用户。只需打开 ChatGPT 并输入您的问题;GPT-5 将自动处理后续操作,并在回复需要推理时自动应用推理。付费用户仍可通过模型选择器选择“GPT-5 Thinking”模式,或在提示词中输入类似“认真思考这个问题”的指令,以确保在生成回复时使用推理功能。

可用性和访问权限

GPT-5 现已开始向所有 Plus、Pro、Team 和 Free 用户推出,Enterprise 和 Edu 用户的访问权限将于下周开放。Pro、Plus 和 Team 用户还可通过在 Codex CLI 中使用 ChatGPT 登录,开始使用 GPT-5 进行编码。

与 GPT-4o 类似,GPT-5 的免费与付费访问差异在于使用量。Pro 订阅者可以无限制地访问 GPT-5 和 GPT-5 Pro。Plus 用户可将其作为日常问题的默认模型舒适使用,其使用量显著高于免费用户。团队、企业及教育客户也可将 GPT-5 作为日常工作的默认模型,其宽松的配额设置使整个组织都能轻松依赖 GPT-5。对于 ChatGPT 免费套餐用户,完整的推理功能可能需要几天时间才能全面推出。当免费用户达到 GPT-5 使用配额上限时,将自动切换至 GPT-5 mini,这是一款体积更小、速度更快且功能强大的模型。

这篇文章有用吗?

点击星号为它评分!

平均评分 0 / 5. 投票数: 0

目前为止还没有人投票,成为第一位评论者!

很抱歉,这篇文章对您没有用!

让我们改善这篇文章!

告诉我们我们如何改善这篇文章?

© 版权声明

相关文章

暂无评论

none
暂无评论...