Skip to content
调查总结:探索 OpenAI GPT-4.5 发布

调查总结:探索 OpenAI GPT-4.5 发布

Updated on

一篇调查性的总结文章,探索 OpenAI 代号为 Orion 的 GPT-4.5 发布,涵盖技术规范、基准测试性能、与其他模型的比较以及更多内容。

引言

人工智能研究与部署领域的领军企业 OpenAI 于2025年2月发布了 GPT-4.5,代号为 Orion,这是其持续推进大语言模型(LLM)的重要一步。这一模型于2025年2月27日宣布发布,被定位为迄今为止规模最大、知识最丰富的模型,旨在提升用户交互体验并减少失真现象。本文将深入探讨 GPT-4.5 的技术规范、基准测试性能、与之前模型及竞争对手的对比,为科技爱好者和专业人士提供全面综合的介绍。

背景与发布情况

GPT-4.5 的发布正值人工智能快速发展的阶段,竞争对手如 Anthropic 和 DeepSeek 正在推动推理能力和效率的边界。OpenAI 的发布公告最初通过 TechCrunch (opens in a new tab)WIRED (opens in a new tab) 等科技媒体发布,指出该模型以月费200美元的方式面向 ChatGPT Pro 用户率先推出研究预览,随后计划推广到其他收费等级。这体现了 OpenAI 收集用户反馈再更广泛推广的策略,正如 josuenunez_ai (opens in a new tab) 在 X 平台发文指出的那样。

技术规格

虽然 OpenAI 未公开 GPT-4.5 的详细参数数量和训练数据的具体规模,但官方描述它为迄今规模最大的模型,这与以往发布 GPT-4 时的惯例一致(参见 GPT-4 Wikipedia (opens in a new tab))。

重要的技术指标包括:

  • 上下文窗口:显著升级至128,000个 token,正如 josuenunez_ai (opens in a new tab) 所提到的。这使得模型能够处理更长时间的对话和文档,大大超越 GPT-4 的能力。
  • 计算效率:据 Iamtoxix (opens in a new tab) 指出,GPT-4.5 在运算效率方面提高了超过10倍。意味着尽管规模变大,但却更加节省资源。
  • 非前沿模型(Non-Frontier Model):OpenAI 强调 GPT-4.5 并非前沿模型,不会显著推动可能带来风险的AI能力边界,正如 TechCrunch (opens in a new tab) 报道。

尽管 OpenAI 对具体技术细节保持沉默,但推特上的一些推测(例如 daniel_nguyenx (opens in a new tab) 提及的多模态功能)未经证实,或不属于此次发布的实际内容。

基准测试表现

一些科技平台进行的基准测评揭示了 GPT-4.5 模型的能力:

  • 简单问答(SimpleQA)准确性及幻觉(Hallucination)率:GPT-4.5 的幻觉率降至37.1%,而 GPT-4o 为59.8%、o3-mini 为80.3%,详见 MIT Technology Review (opens in a new tab)。表明在事实准确性上有显著提升。
  • 数学和科学领域:据 Vellum (opens in a new tab) 报道,它比 GPT-4o 在数学领域提升27.4%、科学领域提升17.8%,可用于更可靠的事实型推理任务。
  • 编程和多语言任务:在 SWE-Lancer Diamond 测试中,它胜过 o3-mini(32.6% 对 23.3%),显示在自主编码上的优势。同时,多语言表现也增加了3.6%。
  • 人类偏好测试:根据 ZDNET (opens in a new tab) 所提供的人类测试结果,用户在日常、专业和创作任务(如诗歌、ASCII艺术)上更青睐 GPT-4.5。

然而,GPT-4.5 在数学和科学等专门领域推理任务表现逊色于 o3-mini(WIRED (opens in a new tab)),表明其在泛用和专业性能之间的妥协取舍。

与过往模型的比较

为理解 GPT-4.5 的定位,我们对其与 OpenAI 之前的模型进行比较:

  • 与 GPT-4 相比,GPT-4.5 拥有更深入的世界知识、更高的情感智能、更大的上下文窗口(128k,而 GPT-4 仅为 8k 或 32k),且幻觉率显著下降,表现更为可靠(TechTarget (opens in a new tab))。
  • GPT-4o 为多模态(文本、图片与音频)模型,而 GPT-4.5 更侧重于增强文本交互的知识深度。在数学与科学任务上,GPT-4.5 表现优于 GPT-4o,但多模态特性方面比较尚不足(Vellum (opens in a new tab))。
  • 与专门推理模型(例如 o1、o3-mini)相比,GPT-4.5 虽在专业任务表现稍差,但泛用性能明显更优,适用于广泛的应用场景(MIT Technology Review (opens in a new tab))。

与竞争对手的比较

虽然 GPT-4.5 与竞品直接对比的细节较少,但我们可基于有限信息得出一些推断:

  • Anthropic 的 Claude 模型例如 Claude 3.5 在高级问题推理方面的表现强大,GPT-4.5 在一般交互方面可能较具竞争优势(Vellum (opens in a new tab))。
  • 谷歌的 Gemini 1.5 Pro 在视频理解方面强大(Bito (opens in a new tab)),但在纯文本处理方面 GPT-4.5 具备更大的上下文与高效能力,可构成优势。

定价与可访问性

GPT-4.5 API 的定价高昂(输入每百万 token 75美元、输出每百万 token 150美元),远高于 GPT-4o(TechCrunch (opens in a new tab)),对开发者的成本效益构成挑战。

结论

GPT-4.5 扩展了 OpenAI 的产品组合,更广泛应用与挑战之间的平衡仍然值得关注。

📚