Nota de Encuesta: Explorando el Lanzamiento de GPT-4.5 de OpenAI

Name: Antonio Di Nicola

Actualizado el 28/2/2025

Una nota de encuesta explorando el lanzamiento de GPT-4.5 de OpenAI, con nombre en clave Orion, cubriendo especificaciones técnicas, desempeño en benchmarks, comparaciones y más.

Introducción

OpenAI, líder en investigación y despliegue de inteligencia artificial, lanzó GPT-4.5 en febrero de 2025, con nombre en clave Orion, como parte de sus constantes esfuerzos por avanzar en modelos de lenguaje grande (LLMs). Este lanzamiento, anunciado el 27 de febrero de 2025, se posiciona como el modelo más grande y con mayor conocimiento hasta la fecha, buscando mejorar la interacción con el usuario y reducir las imprecisiones. Esta nota de encuesta profundiza en sus especificaciones técnicas, desempeño en benchmarks y comparaciones con modelos anteriores y competidores, ofreciendo un panorama completo para entusiastas tecnológicos y profesionales.

Contexto y antecedentes del lanzamiento

El lanzamiento de GPT-4.5 llega en una coyuntura de rápido avance en inteligencia artificial, con competidores como Anthropic y DeepSeek llevando al límite las capacidades de razonamiento y eficiencia. El anuncio de OpenAI, inicialmente compartido a través de distintos medios tecnológicos como TechCrunch (opens in a new tab) y WIRED (opens in a new tab), destacó su disponibilidad como una vista previa para investigación dirigida a suscriptores de ChatGPT Pro con una tarifa mensual de $200, planeando posteriormente una expansión a otras categorías pagadas. Esto refleja la estrategia de OpenAI de recopilar opiniones de los usuarios antes de un lanzamiento más amplio, como se indica en una publicación en X por josuenunez_ai (opens in a new tab).

Especificaciones técnicas

GPT-4.5 es descrito como el modelo más grande de OpenAI hasta ahora, aunque los detalles específicos, como el número de parámetros y tamaño del conjunto de datos de entrenamiento no son divulgados públicamente, alineándose con la práctica de OpenAI para proteger información propietaria, vista en lanzamientos anteriores como GPT-4 (Wikipedia (opens in a new tab)). Aspectos técnicos clave incluyen:

Ventana de Contexto: Una significativa mejora hasta 128,000 tokens, como lo menciona josuenunez_ai (opens in a new tab), permitiendo conversaciones y documentos más extensos, superando ampliamente las capacidades de GPT-4.
Eficiencia computacional: Reportes sugieren una mejora más de 10 veces respecto a GPT-4, mencionado por Iamtoxix (opens in a new tab), volviéndolo más eficiente en el uso de recursos a pesar de su tamaño.
Modelo no-frontera: OpenAI aclaró que GPT-4.5 no busca romper límites como modelo frontera, lo que indica que no lleva al máximo las capacidades de la IA en términos de riesgos potenciales, según TechCrunch (opens in a new tab).

Esta ausencia de detalles técnicos, aunque común, deja espacio para la especulación, como publicaciones en X de usuarios como daniel_nguyenx (opens in a new tab) en 2023 mencionando posibles capacidades multimodales, aunque estas parecen especulativas y no confirmadas para el lanzamiento de 2025.

Resultados en benchmarks

Los resultados en benchmarks proporcionan información sobre las capacidades de GPT-4.5, con varias pruebas conducidas y reportadas en plataformas tecnológicas:

Precisión en SimpleQA y Alucinaciones: En SimpleQA, GPT-4.5 muestra una tasa de alucinación del 37.1%, comparado con 59.8% para GPT-4o y 80.3% para o3-mini, según MIT Technology Review (opens in a new tab), indicando una mejora en precisión factual.
Matemáticas y Ciencia: Muestra mejoras del 27.4% en matemáticas y 17.8% en ciencia sobre GPT-4o, según Vellum (opens in a new tab), destacando su razonamiento factual.
Codificación y tareas multilingües: En SWE-Lancer Diamond, supera a o3-mini (32.6% vs. 23.3%), lo que sugiere un sólido desempeño en codificación agentica, según Vellum (opens in a new tab). El desempeño multilingüe muestra mejoría moderada de 3.6%.
Preferencia Humana: Según ZDNET (opens in a new tab), evaluadores prefieren GPT-4.5 en tareas diarias, profesionales, y creativas, indicando fortalezas conversacionales.

Sin embargo, queda atrás en ciertas tareas especializadas en comparación con o3-mini, particularmente en benchmarks de matemáticas y ciencias, según WIRED (opens in a new tab), sugiriendo un intercambio entre capacidades generales y especializadas.

Comparativa con modelos previos

Para entender la posición de GPT-4.5, lo comparamos con previos modelos de OpenAI:

GPT-4: GPT-4.5 ofrece mayor conocimiento y empatía emocional, con una ventana de contexto superior (128k vs. 32k o 8k dependiendo de la versión de GPT-4). También presenta menos alucinaciones, según TechTarget (opens in a new tab).
GPT-4o: GPT-4o es multimodal (texto, audio e imagen), mientras que GPT-4.5 parece priorizar interacciones basadas en texto. Mejora en benchmarks de matemáticas y ciencias ante GPT-4o.
Modelos de razonamiento (o1, o3-mini): Estos modelos especializados pueden superar a GPT-4.5 en tareas concretas, pero GPT-4.5 es más versátil en aplicaciones amplias.

Comparativa con competidores

Las comparativas directas con competidores son menos detalladas:

Claude de Anthropic: Claude es fuerte en tareas de razonamiento. GPT-4.5 podría competir bien en entornos conversacionales generales.
Gemini de Google: Gemini tiene fortalezas multimedia, pero GPT-4.5 tiene una ventana de contexto mayor para tareas textuales extensas.

Precios y Accesibilidad

El alto coste del API (entradas $75, salidas $150 por millón de tokens), según TechCrunch (opens in a new tab), plantea dudas sobre su costo-beneficio.

Conclusión

GPT-4.5 es una sólida adición al portafolio de OpenAI, destacando por conocimiento ampliado, precisión y eficiencia conversacional. La ventana de contexto y eficiencia son valiosos, siendo versátil aunque con costos elevados de API, generando dudas sobre viabilidad al largo plazo.

📚

Cómo Construir Dos Agentes en Python con el Protocolo A2A de Google - Tutorial Paso a Paso Top 15 de Herramientas de Visualización de Datos de Código Abierto para 2025