调查总结：探索 OpenAI GPT-4.5 发布

Name: Antonio Di Nicola

更新于 2025/2/28

一篇调查性的总结文章，探索 OpenAI 代号为 Orion 的 GPT-4.5 发布，涵盖技术规范、基准测试性能、与其他模型的比较以及更多内容。

引言

人工智能研究与部署领域的领军企业 OpenAI 于2025年2月发布了 GPT-4.5，代号为 Orion，这是其持续推进大语言模型（LLM）的重要一步。这一模型于2025年2月27日宣布发布，被定位为迄今为止规模最大、知识最丰富的模型，旨在提升用户交互体验并减少失真现象。本文将深入探讨 GPT-4.5 的技术规范、基准测试性能、与之前模型及竞争对手的对比，为科技爱好者和专业人士提供全面综合的介绍。

背景与发布情况

GPT-4.5 的发布正值人工智能快速发展的阶段，竞争对手如 Anthropic 和 DeepSeek 正在推动推理能力和效率的边界。OpenAI 的发布公告最初通过 TechCrunch (opens in a new tab) 和 WIRED (opens in a new tab) 等科技媒体发布，指出该模型以月费200美元的方式面向 ChatGPT Pro 用户率先推出研究预览，随后计划推广到其他收费等级。这体现了 OpenAI 收集用户反馈再更广泛推广的策略，正如 josuenunez_ai (opens in a new tab) 在 X 平台发文指出的那样。

技术规格

虽然 OpenAI 未公开 GPT-4.5 的详细参数数量和训练数据的具体规模，但官方描述它为迄今规模最大的模型，这与以往发布 GPT-4 时的惯例一致（参见 GPT-4 Wikipedia (opens in a new tab)）。

重要的技术指标包括：

上下文窗口：显著升级至128,000个 token，正如 josuenunez_ai (opens in a new tab) 所提到的。这使得模型能够处理更长时间的对话和文档，大大超越 GPT-4 的能力。
计算效率：据 Iamtoxix (opens in a new tab) 指出，GPT-4.5 在运算效率方面提高了超过10倍。意味着尽管规模变大，但却更加节省资源。
非前沿模型（Non-Frontier Model）：OpenAI 强调 GPT-4.5 并非前沿模型，不会显著推动可能带来风险的AI能力边界，正如 TechCrunch (opens in a new tab) 报道。

尽管 OpenAI 对具体技术细节保持沉默，但推特上的一些推测（例如 daniel_nguyenx (opens in a new tab) 提及的多模态功能）未经证实，或不属于此次发布的实际内容。

基准测试表现

一些科技平台进行的基准测评揭示了 GPT-4.5 模型的能力：

简单问答（SimpleQA）准确性及幻觉（Hallucination）率：GPT-4.5 的幻觉率降至37.1%，而 GPT-4o 为59.8%、o3-mini 为80.3%，详见 MIT Technology Review (opens in a new tab)。表明在事实准确性上有显著提升。
数学和科学领域：据 Vellum (opens in a new tab) 报道，它比 GPT-4o 在数学领域提升27.4%、科学领域提升17.8%，可用于更可靠的事实型推理任务。
编程和多语言任务：在 SWE-Lancer Diamond 测试中，它胜过 o3-mini（32.6% 对 23.3%），显示在自主编码上的优势。同时，多语言表现也增加了3.6%。
人类偏好测试：根据 ZDNET (opens in a new tab) 所提供的人类测试结果，用户在日常、专业和创作任务（如诗歌、ASCII艺术）上更青睐 GPT-4.5。

然而，GPT-4.5 在数学和科学等专门领域推理任务表现逊色于 o3-mini（WIRED (opens in a new tab)），表明其在泛用和专业性能之间的妥协取舍。

与过往模型的比较

为理解 GPT-4.5 的定位，我们对其与 OpenAI 之前的模型进行比较：

与 GPT-4 相比，GPT-4.5 拥有更深入的世界知识、更高的情感智能、更大的上下文窗口（128k，而 GPT-4 仅为 8k 或 32k），且幻觉率显著下降，表现更为可靠（TechTarget (opens in a new tab)）。
GPT-4o 为多模态（文本、图片与音频）模型，而 GPT-4.5 更侧重于增强文本交互的知识深度。在数学与科学任务上，GPT-4.5 表现优于 GPT-4o，但多模态特性方面比较尚不足（Vellum (opens in a new tab)）。
与专门推理模型（例如 o1、o3-mini）相比，GPT-4.5 虽在专业任务表现稍差，但泛用性能明显更优，适用于广泛的应用场景（MIT Technology Review (opens in a new tab)）。

与竞争对手的比较

虽然 GPT-4.5 与竞品直接对比的细节较少，但我们可基于有限信息得出一些推断：

Anthropic 的 Claude 模型例如 Claude 3.5 在高级问题推理方面的表现强大，GPT-4.5 在一般交互方面可能较具竞争优势（Vellum (opens in a new tab)）。
谷歌的 Gemini 1.5 Pro 在视频理解方面强大（Bito (opens in a new tab)），但在纯文本处理方面 GPT-4.5 具备更大的上下文与高效能力，可构成优势。

定价与可访问性

GPT-4.5 API 的定价高昂（输入每百万 token 75美元、输出每百万 token 150美元），远高于 GPT-4o（TechCrunch (opens in a new tab)），对开发者的成本效益构成挑战。

结论

GPT-4.5 扩展了 OpenAI 的产品组合，更广泛应用与挑战之间的平衡仍然值得关注。

📚

如何使用谷歌的A2A协议构建两个Python代理 - 分步教程 Databricks vs Snowflake，2025年哪个更好？