Desplegando GPT-OSS de OpenAI localmente con Ollama

Name: Viktor Zinchenko

Updated on 6/8/2025

Los nuevos modelos GPT-OSS-120B y GPT-OSS-20B de OpenAI amplían los límites de la IA open source, ofreciendo un rendimiento robusto en escenarios reales a bajo coste. El modelo 120B alcanza prácticamente la paridad con el modelo propietario o4-mini de OpenAI en pruebas de razonamiento esenciales (es decir, casi a nivel de GPT-4), mientras que el modelo 20B se comporta similar a o3-mini – todo esto sin necesidad de servidores en la nube. Lo más importante es que estos modelos son “open-weight”, lo que significa que puedes descargar los pesos y ejecutarlos localmente en tu propio hardware. En este tutorial, explicaremos cómo desplegar GPT-OSS en una máquina local usando Ollama, una herramienta muy cómoda para ejecutar LLMs de forma offline.

Tamaños de modelo y requisitos de hardware

GPT-OSS está disponible en dos tamaños: gpt-oss-20b (20 mil millones de parámetros) y gpt-oss-120b (120 mil millones de parámetros). OpenAI optimizó ambos modelos con una cuantización especial de 4.25 bits (MXFP4) para reducir drásticamente el uso de memoria. Gracias a esto, el modelo 20B puede ejecutarse en sistemas con aproximadamente 16 GB de memoria, y el modelo 120B cabe en unos 80 GB de memoria. En la práctica, OpenAI recomienda alrededor de 16 GB de VRAM (o memoria unificada) para el modelo 20B —ideal para GPUs de gama alta de consumo o Macs con Apple Silicon— y al menos 60–80 GB para el modelo 120B.

Nota: Los Mac con chips de la serie M de Apple son especialmente adecuados para LLMs locales porque su memoria unificada permite que la GPU use toda la RAM del sistema. Por ejemplo, un MacBook con 32 GB de memoria unificada puede ejecutar cómodamente el modelo 20B, y un Mac Studio con 64–128 GB podría incluso manejar el 120B. En ordenadores Windows/Linux, una GPU con mucha VRAM (por ejemplo, una RTX 4090 de 24 GB) puede ejecutar el modelo 20B, mientras que el modelo 120B requeriría una A100 de 80 GB o repartir la carga entre varias GPUs (o recurrir a CPU con gran cantidad de RAM, aunque mucho más lento).

Instalación de Ollama

Ollama es un runtime open source y gratuito que facilita descargar y ejecutar LLMs localmente. Es compatible con macOS, Windows y Linux. Para configurarlo:

macOS: Descarga la app de Ollama desde el sitio oficial y ejecuta el instalador. Esto instalará el escritorio de Ollama (que también incluye la herramienta de línea de comandos).
Windows: Descarga el instalador de Windows desde el sitio de Ollama y sigue los pasos para instalar el runtime de Ollama.
Linux: Instala a través del script de una sola línea. Por ejemplo, en Ubuntu puedes ejecutar:
```
curl -fsSL https://ollama.com/install.sh | sh
```
Este script descarga e instala la CLI y el servidor Ollama en tu sistema.

Una vez instalado, puedes ejecutar comandos ollama desde la terminal. Es recomendable verificar la instalación ejecutando ollama --version o simplemente ollama para ver los comandos disponibles. Deberías ver subcomandos como ollama pull, ollama run, ollama serve, etc., que usaremos a continuación.

Descarga de los modelos GPT-OSS

Con Ollama listo, el siguiente paso es descargar los pesos de GPT-OSS. OpenAI ofrece ambos modelos, 20B y 120B, de manera gratuita. Puedes obtenerlos desde el registro de modelos integrado en Ollama. Hay dos maneras de conseguir los modelos: descargarlos por adelantado o dejar que Ollama los descargue la primera vez que los ejecutes.

1. Descargar explícitamente los modelos (opcional): Ollama permite pull de un modelo por nombre. Esto descarga los pesos para que estén listos para su uso. En la terminal, ejecuta:

ollama pull gpt-oss:20b    # Descarga el modelo 20B (~13–14 GB)
ollama pull gpt-oss:120b   # Descarga el modelo 120B (~65 GB)

Verás barras de progreso mientras cada archivo del modelo se descarga y desempaqueta. Cuando finalice, puedes confirmar la descarga listando los modelos instalados:

ollama list

Deberían aparecer entradas para gpt-oss:20b y gpt-oss:120b con sus tamaños (aproximadamente 13 GB para el 20B y 65 GB para el 120B en formato cuantizado).

2. Dejar que ollama run descargue automáticamente: También puedes omitir la descarga manual — Ollama descargará el modelo automáticamente la primera vez que lo ejecutes. Por ejemplo, si ejecutas directamente ollama run gpt-oss:20b, detectará que el modelo no está presente y procederá a descargarlo por ti. Este método es práctico si quieres empezar a usar el modelo enseguida.

💡 Consejo: El modelo 20B es mucho más pequeño y rápido de descargar, así que puedes empezar con él para verificar que todo funciona. El modelo 120B es enorme; asegúrate de tener espacio suficiente en disco y un poco de paciencia (son decenas de GB) antes de descargarlo. La licencia Apache 2.0 te permite usar e incluso afinar estos modelos en tus propios proyectos.

Ejecución de GPT-OSS con Ollama (uso en CLI)

Ahora viene la parte divertida: ¡ejecutar el modelo y chatear con él! Ollama puede ejecutar modelos bajo demanda en tu terminal o alojarlos como un servicio local. Empezaremos con el uso simple e interactivo en la CLI.

1. Iniciar una sesión interactiva: En tu terminal, ejecuta el modelo 20B con el siguiente comando:

ollama run gpt-oss:20b

Tras unos segundos (cuando el modelo se cargue), verás un prompt >>> indicando que está listo para recibir tus preguntas. Ahora puedes escribir una pregunta o petición para que GPT-OSS la responda. Por ejemplo, puedes pedirle que resuelva un acertijo creativo o que resuma un documento. Después de pulsar enter, el modelo mostrará “Thinking…” mientras procesa tu solicitud y luego generará una respuesta detallada.

Ejemplo: Después de ejecutar ollama run gpt-oss:20b, podrías ver: >>> (esperando entrada) Tú: “Explica la importancia del alunizaje en un tono poético.” (El modelo piensa…) GPT-OSS: “El alunizaje marcó un gran salto para toda la humanidad, una noche donde los sueños dejaron huellas sobre el suelo lunar…” (y continúa con una explicación rica y poética.)

La primera respuesta puede llevar algo de tiempo (especialmente si usas únicamente CPU o tienes una GPU justa), pero las siguientes consultas serán más rápidas una vez que el modelo esté cargado. A pesar de su tamaño compacto, GPT-OSS-20B demuestra ya un razonamiento sólido y elocuencia, gracias al fine-tuning de OpenAI. Para consultas más complejas (razonamiento avanzado, ejecución de código, etc.), el modelo 120B ofrecerá resultados aún más potentes, aunque requiriendo más memoria y recursos de cómputo.

2. Probar el modelo 120B (si tienes los recursos): Si tu sistema cumple los requisitos para el modelo grande, puedes iniciarlo de manera similar con:

ollama run gpt-oss:120b

Entrarás de nuevo en un prompt interactivo. El modelo gpt-oss-120b está diseñado para un rendimiento “de frontera”: puede seguir instrucciones complejas, realizar razonamiento en cadena y hasta utilizar herramientas (por ejemplo, realizar peticiones web o ejecutar código) de manera agente. OpenAI afirma que gpt-oss-120b se acerca al desempeño de un GPT-4 reducido, pero puede ejecutarse en una sola GPU de gama alta o una estación de trabajo avanzada. Si planteas una consulta compleja (por ejemplo, un problema de varios pasos o una petición que requiera usar herramientas), verás cómo el modelo razona paso a paso gracias a sus capacidades de chain-of-thought.

3. Salir: Para salir del chat interactivo, normalmente puedes presionar Ctrl+C o escribir exit, según el diseño de la CLI de Ollama. (Con ollama run, Ctrl+C debería detener el modelo.)

4. Uso de ollama serve (opcional): Si deseas que el modelo permanezca cargado y disponible para varias consultas o para otras aplicaciones, puedes ejecutar ollama serve. Este comando inicia el servidor Ollama en segundo plano. Por defecto, escucha en un puerto local (por ejemplo, localhost:11434). Una vez en marcha, puedes seguir chateando desde la CLI (ya que ollama run se conecta al servidor), pero lo más interesante es que puedes conectar otras herramientas o APIs a este servidor para usar GPT-OSS.

Usar una interfaz gráfica de chat para mejor experiencia

Interactuar por terminal es sencillo, pero una interfaz gráfica de chat mejora mucho la experiencia de usuario. Por suerte, existen interfaces de chat open source que pueden conectarse a tu instancia local de Ollama. Un ejemplo destacado es LobeChat — una UI moderna y elegante que permite chatear con múltiples backends de IA, incluyendo modelos locales en Ollama.

LobeChat: Esta aplicación de chat open source te permite conversar con distintos modelos de IA a través de una interfaz agradable. Es compatible de forma nativa con Ollama, lo que significa que, si tienes ollama serve ejecutando GPT-OSS en tu máquina, puedes usar LobeChat como front-end. En la configuración de LobeChat, seleccionas Ollama como proveedor y así usará tu modelo local para la conversación. La interfaz ofrece historial de chat, plantillas de prompts y otras características prácticas que la terminal no proporciona. (LobeChat incluso permite síntesis de voz, entradas multimodales y plugins, logrando una experiencia muy similar a ChatGPT completamente local.)
Otras opciones de UI: El ecosistema de UIs para LLM locales crece rápido. Por ejemplo, Open WebUI (una interfaz web originalmente creada para Ollama) o proyectos como Text Generation WebUI también pueden conectarse a modelos locales. Algunas herramientas de la comunidad son aplicaciones de escritorio multiplataforma que detectan automáticamente los modelos de Ollama. Aunque configurar estas opciones excede el alcance de este tutorial, es bueno saber que no estás limitado a la línea de comandos: con un poco de configuración puedes disfrutar de una experiencia completa de chat con GPT-OSS desde tu propio hardware.

El uso de una UI de chat no cambia cómo se ejecuta el modelo — sigue siendo todo local y privado — pero hace que la interacción con la IA sea más intuitiva (botones, cuadros de texto, hilos de conversación, etc.). Tanto si utilizas el terminal como una UI, GPT-OSS puede ahora servir como tu asistente personal de IA sin depender de la nube.

Conclusión

En este artículo presentamos GPT-OSS, los más recientes modelos open-weight de OpenAI, y mostramos cómo desplegarlos localmente usando Ollama. En resumen, instalaste el runtime de Ollama, descargaste el modelo GPT-OSS-20B (y opcionalmente el 120B) y lo ejecutaste en tu dispositivo — convirtiendo tu ordenador en un servicio tipo ChatGPT. También discutimos cómo cada tamaño de modelo tiene distintas necesidades de hardware (20B es accesible para entusiastas con un PC o Mac decente, mientras que el 120B requiere capacidad de memoria/GPU avanzada). Por último, exploramos cómo usar una interfaz gráfica como LobeChat para interactuar con el modelo de forma más cómoda.

GPT-OSS inaugura una nueva era en el desarrollo local de IA — puedes experimentar con un potente modelo de lenguaje en tu propia máquina, afinarlo para tu dominio, o integrarlo en tus aplicaciones, todo sin depender de una API externa. Lo mejor de todo es que, al ser open-weight y con licencia Apache, desarrolladores e investigadores pueden construir sobre él y compartir mejoras. Con herramientas como Ollama simplificando el proceso, ejecutar un modelo puntero de 120B parámetros en casa deja de ser ciencia ficción y se convierte en un simple tutorial. ¡Disfruta explorando con GPT-OSS!

Fuentes: Los detalles y comandos anteriores se basan en el anuncio oficial de GPT-OSS de OpenAI, la documentación de Ollama y guías de la comunidad. ¡Disfruta tu aventura con los LLMs locales!

Top 10 herramientas de Vibe Coding en 2025 Burlando a la IA: Cómo evitar la detección de ChatGPT con GPT Zero