Déployer GPT-OSS d’OpenAI en local avec Ollama

Name: Viktor Zinchenko

Updated on 06/08/2025

Les nouveaux modèles GPT-OSS-120B et GPT-OSS-20B d’OpenAI repoussent les frontières de l’IA open source, offrant d’excellentes performances dans des scénarios réels à faible coût. Le modèle 120B atteint quasiment le niveau du modèle propriétaire o4-mini d’OpenAI sur les principaux benchmarks de raisonnement (c’est-à-dire pratiquement le raisonnement de type GPT-4), tandis que le modèle 20B propose des performances similaires au modèle o3-mini – le tout sans dépendre de serveurs cloud. Un point essentiel : ces modèles sont « open-weight », ce qui signifie que vous pouvez télécharger les poids et les exécuter localement sur votre propre matériel. Dans ce tutoriel, nous allons voir comment déployer GPT-OSS sur un ordinateur local en utilisant Ollama, un outil pratique pour faire tourner de grands modèles de langage (LLM) hors ligne.

Tailles des modèles et prérequis matériels

GPT-OSS existe en deux tailles : gpt-oss-20b (20 milliards de paramètres) et gpt-oss-120b (120 milliards de paramètres). OpenAI a optimisé les deux modèles avec une quantification spéciale en 4,25 bits (MXFP4) afin de réduire considérablement leur empreinte mémoire. Grâce à cela, le modèle 20B peut être utilisé sur des systèmes disposant d’environ 16 Go de mémoire, tandis que le modèle 120B peut tenir dans environ 80 Go de mémoire. En pratique, OpenAI recommande environ 16 Go de VRAM (ou mémoire unifiée) pour le modèle 20B – idéal pour les GPU grand public haut de gamme ou les Mac à puce Apple Silicon – et au moins 60–80 Go pour le modèle 120B.

Remarque : Les Mac équipés de puces M d’Apple sont excellents pour les LLM en local car leur mémoire unifiée permet au GPU d’utiliser toute la RAM du système. Par exemple, un MacBook avec 32 Go de mémoire unifiée peut faire tourner confortablement le modèle 20B, tandis qu’un Mac Studio avec 64 à 128 Go pourrait même exécuter le modèle 120B. Sur un PC Windows ou Linux, un GPU avec beaucoup de VRAM (par exemple 24 Go sur une RTX 4090) permet de faire tourner le modèle 20B ; en revanche, pour le 120B, il faudra une A100 de 80 Go ou répartir la charge sur plusieurs GPU (ou à défaut sur CPU avec beaucoup de RAM, mais bien plus lentement).

Installation de Ollama

Ollama est un runtime gratuit et open source qui permet de télécharger et d’exécuter facilement des LLMs en local. Il est compatible avec macOS, Windows et Linux. Pour l’installer :

macOS : Téléchargez l’application Ollama depuis le site officiel et lancez l’installeur. Cela installera Ollama Desktop (qui comprend aussi l’outil en ligne de commande).
Windows : Téléchargez l’installeur Windows sur le site d’Ollama et suivez les instructions pour installer le runtime Ollama.
Linux : Installation via un script en une ligne. Par exemple, sur Ubuntu :
```
curl -fsSL https://ollama.com/install.sh | sh
```
Ce script télécharge et installe le serveur et la CLI Ollama sur votre système.

Une fois installé, vous pouvez utiliser les commandes ollama dans votre terminal. Il est judicieux de vérifier que tout fonctionne en lançant ollama --version ou simplement ollama pour voir les commandes disponibles. Vous devriez voir les sous-commandes ollama pull, ollama run, ollama serve, etc., que nous utiliserons bientôt.

Télécharger les modèles GPT-OSS

Avec Ollama prêt, l’étape suivante consiste à télécharger les poids des modèles GPT-OSS. OpenAI propose gratuitement les modèles 20B et 120B au téléchargement. Vous pouvez les récupérer via le registre de modèles intégré à Ollama. Il existe deux façons de faire : soit tirer les modèles à l’avance, soit laisser Ollama les télécharger lors de la première utilisation.

1. Télécharger explicitement les modèles (optionnel) : Ollama permet de pull un modèle par son nom. Cela télécharge les poids qui seront alors prêts à l’emploi. Dans un terminal, tapez :

ollama pull gpt-oss:20b    # Télécharge le modèle 20B (~13–14 Go)
ollama pull gpt-oss:120b   # Télécharge le modèle 120B (~65 Go)

Vous verrez des barres de progression lors du téléchargement et de la décompression des fichiers. Une fois fini, vous pouvez vérifier les modèles installés :

ollama list

Vous devriez voir les entrées gpt-oss:20b et gpt-oss:120b avec leurs tailles (environ 13 Go pour 20B et 65 Go pour 120B, version quantifiée).

2. Laisser ollama run télécharger automatiquement : Vous pouvez également sauter l’étape du téléchargement manuel – Ollama récupérera automatiquement le modèle lors de la première exécution. Par exemple : en lançant directement ollama run gpt-oss:20b, il détectera que le modèle n’est pas présent et le téléchargera pour vous. Cette méthode est pratique si vous souhaitez démarrer rapidement.

💡 Astuce : Le modèle 20B est bien plus petit et rapide à télécharger, ce qui peut être idéal pour vérifier que tout fonctionne. Le modèle 120B est très volumineux ; assurez-vous de disposer de suffisamment d’espace disque et de temps (c’est plusieurs dizaines de Go) avant de le télécharger. La licence Apache 2.0 vous autorise à utiliser et à fine-tuner ces poids dans vos propres projets.

Lancer GPT-OSS avec Ollama (utilisation CLI)

Place à la pratique : exécuter le modèle et discuter avec lui ! Ollama permet d’utiliser les modèles à la demande dans le terminal ou de les héberger comme un service local. Commençons par l’utilisation basique en ligne de commande.

1. Lancer une session interactive : Dans votre terminal, faites tourner le modèle 20B avec la commande :

ollama run gpt-oss:20b

Après quelques instants (le temps que le modèle se charge), un prompt >>> devrait apparaître, indiquant que le modèle est prêt. Vous pouvez alors saisir une question ou un prompt auquel GPT-OSS va répondre. Par exemple : demander de résoudre une énigme ou de résumer un texte. Après avoir validé, le modèle affiche “Thinking…” pendant le traitement, puis il donne une réponse détaillée.

Exemple : Après ollama run gpt-oss:20b, vous voyez : >>> (en attente d’entrée) Vous : « Explique l’importance des premiers pas sur la lune sur un ton poétique. » (Le modèle réfléchit…) GPT-OSS : « L’alunissage fut un grand bond pour l’humanité, une nuit où les rêves ont laissé leurs empreintes sur la poussière lunaire… » (et ainsi de suite dans une explication poétique et nuancée.)

La première réponse peut être un peu longue (surtout pour 20B sur CPU ou si votre GPU est limite), mais les requêtes suivantes seront plus rapides une fois le modèle chargé. Malgré sa taille compacte, GPT-OSS-20B affiche déjà de belles qualités de raisonnement et d’expression grâce au fine-tuning d’OpenAI. Pour des tâches plus complexes (raisonnement, exécution de code, etc.), le modèle 120B produira des résultats encore plus puissants – avec bien sûr des besoins importants en mémoire et calcul.

2. Tester le modèle 120B (si vous en avez les moyens) : Si votre machine répond aux critères pour le modèle plus grand, vous pouvez également le lancer ainsi :

ollama run gpt-oss:120b

Vous aurez à nouveau un prompt interactif. Le modèle gpt-oss-120b vise les performances « de pointe » – il sait suivre des instructions complexes, effectuer du raisonnement en chaîne de pensée, voire utiliser des outils (requêtes web, exécution de code…) de façon agentique. OpenAI explique que gpt-oss-120b approche presque le niveau d’un GPT-4 compact, tout en pouvant tourner sur un seul GPU haut de gamme ou une station de travail avancée. En lui soumettant une demande intelligente (par exemple, un problème multi-étapes ou un appel à utiliser des outils), vous verrez le modèle dérouler son raisonnement grâce à la sortie « chain-of-thought ».

3. Quitter : Pour sortir du chat interactif, pressez Ctrl+C ou tapez exit selon le fonctionnement de la CLI Ollama. (Avec ollama run, Ctrl+C arrête le modèle.)

4. Utiliser ollama serve (optionnel) : Pour garder le modèle chargé en mémoire et accessible par plusieurs requêtes ou applications, exécutez ollama serve. Cette commande lance le serveur Ollama en arrière-plan. Par défaut, il écoute sur un port en local (ex : localhost:11434). Une fois démarré, vous pouvez continuer à chatter via la CLI (avec ollama run, qui va se connecter au serveur), mais surtout vous pouvez pointer d’autres outils ou API vers le serveur pour utiliser GPT-OSS.

Utiliser une interface de chat pour plus de confort

Le terminal est simple, mais une interface graphique de chat améliore vraiment l’expérience utilisateur. Heureusement, il existe des interfaces open source qui se connectent à Ollama localement. Un bon exemple : LobeChat – une interface moderne et élégante supportant plusieurs backends IA, dont les modèles Ollama locaux.

LobeChat : Application de chat open source permettant d’échanger avec différents modèles IA au sein d’une UI soignée. Elle supporte de façon native la connexion à un serveur Ollama : si ollama serve fait tourner GPT-OSS en tâche de fond sur votre machine, vous pouvez utiliser LobeChat comme front-end. Il suffit de choisir Ollama en tant que provider dans les paramètres de LobeChat, qui utilisera alors votre modèle GPT-OSS local pour les conversations. L’interface propose historique de chat, prompts prédéfinis, et d’autres fonctions pratiques qu’un terminal ne fournit pas. (LobeChat gère même la synthèse vocale, les entrées multimodales et les plugins – pour une expérience ChatGPT, mais 100 % locale.)
Autres UI possibles : L’écosystème d’UIs pour LLM locaux se développe rapidement. Par exemple, Open WebUI (une interface web conçue initialement pour Ollama) ou des projets comme Text Generation WebUI peuvent aussi se connecter à des modèles locaux. Certains outils communautaires sont des applis desktop multi-plateformes qui détectent automatiquement les modèles Ollama disponibles. Leur configuration dépasse le cadre de ce tutoriel, mais il est bon de savoir que vous n’êtes pas limité à la ligne de commande. Avec un peu de configuration, vous profitez d’une application de chat complète pilotée par GPT-OSS sur votre matériel.

L’utilisation d’une interface graphique ne change rien au fonctionnement du modèle – tout reste local et privé – mais elle rend les interactions plus intuitives (boutons, champs de texte, fils de discussion…). Que ce soit via le terminal ou une UI, GPT-OSS peut maintenant servir d’assistant IA personnel, sans dépendance au cloud.

Conclusion

Dans cet article, nous avons présenté GPT-OSS, les nouveaux modèles open-weight d’OpenAI, et montré comment les déployer localement avec Ollama. Pour résumer, vous avez installé l’environnement Ollama, téléchargé le modèle GPT-OSS-20B (et éventuellement 120B), puis exécuté celui-ci sur votre appareil – transformant ainsi votre ordinateur en assistant façon ChatGPT. Nous avons aussi souligné que chaque taille de modèle requiert du matériel différent (le 20B accessible à tout passionné avec un PC ou Mac moderne, le 120B réservant plus de puissance mémoire et GPU). Enfin, nous avons évoqué l’utilisation d’une UI comme LobeChat pour une interaction plus conviviale avec le modèle.

GPT-OSS ouvre une nouvelle ère pour l’IA en local – vous pouvez expérimenter un puissant modèle de langage sur votre propre machine, l’adapter à votre domaine ou l’intégrer à vos applications, tout cela sans dépendance à une API externe. Cerise sur le gâteau : les poids ouverts sous licence Apache permettent à toute la communauté de développer et partager des améliorations. Avec des outils comme Ollama, il n’a jamais été aussi simple de faire tourner chez soi un modèle de pointe à 120 milliards de paramètres – il suffit de suivre ce tutoriel ! Bonne expérimentation avec GPT-OSS !

Sources : Les informations et commandes ci-dessus sont issues de l’annonce officielle d’OpenAI pour GPT-OSS, la documentation Ollama, et des tutoriels communautaires. Bonne découverte des LLM en local !

Top 10 outils de Vibe Coding en 2025 Déjouer l'IA : comment contourner la détection de ChatGPT avec GPT Zero