Skip to content
Wie man OpenAI GPT‑OSS lokal mit Ollama & Lobe Chat bereitstellt

OpenAI GPT-OSS lokal mit Ollama bereitstellen

Updated on

OpenAIs neue GPT-OSS-120B und GPT-OSS-20B Modelle verschieben die Grenzen der Open-Source-KI und bieten starke Alltags-Performance zu niedrigen Kosten. Das 120B-Modell erreicht auf wichtigen Reasoning-Benchmarks eine fast gleiche Leistung wie OpenAIs proprietäres o4-mini-Modell (also nahezu GPT-4-Niveau beim Reasoning), während das 20B-Modell ähnlich wie das o3-mini-Modell arbeitet – und das alles ohne Cloud-Server. Besonders wichtig: Diese Modelle sind „open-weight“, d. h. die Gewichte können heruntergeladen und komplett lokal auf eigener Hardware betrieben werden. In diesem Tutorial zeigen wir Schritt für Schritt, wie man GPT-OSS mit Ollama, einem praktischen Tool zum Offline-Betrieb großer Sprachmodelle (LLMs), auf einer lokalen Maschine installiert.

Modellgrößen und Hardwareanforderungen

GPT-OSS gibt es in zwei Versionen: gpt-oss-20b (20 Milliarden Parameter) und gpt-oss-120b (120 Milliarden Parameter). OpenAI hat beide Varianten mit einer speziellen 4,25-bit Quantisierung (MXFP4) optimiert, was den Speicherbedarf drastisch reduziert. Dadurch läuft das 20B-Modell bereits auf Systemen mit etwa 16 GB Arbeitsspeicher, und das 120B-Modell kann mit rund 80 GB Speicher genutzt werden. In der Praxis empfiehlt OpenAI ca. ~16 GB VRAM (oder Unified Memory) für das 20B-Modell – ideal für High-End-Konsumer-GPUs oder Apple Silicon Macs – und mindestens ~60–80 GB für das 120B-Modell.

Hinweis: Apples M-Serie Macs sind ideal für lokale LLMs, da ihre Unified-Memory-Architektur dem GPU Zugriff auf den gesamten Systemspeicher gewährt. So kann ein MacBook mit 32 GB Unified Memory problemlos das 20B-Modell ausführen und ein Mac Studio mit 64–128 GB möglicherweise sogar das 120B-Modell. Auf Windows-/Linux-PCs ist eine High-VRAM-GPU (z.B. 24 GB RTX 4090) ausreichend für das 20B-Modell, während das 120B-Modell eine 80 GB A100 oder Multi-GPU-Lösungen (oder im Notfall eine CPU mit sehr großem RAM – aber viel langsamer) erfordert.

Ollama installieren

Ollama ist eine kostenlose Open-Source-Laufzeitumgebung, mit der sich LLMs einfach lokal ausführen lassen. Sie unterstützt macOS, Windows und Linux. Die Installation erfolgt wie folgt:

  • macOS: Lade die Ollama App von der offiziellen Website herunter und führe das Installationsprogramm aus. Damit wird Ollama Desktop (inklusive CLI-Tool) eingerichtet.

  • Windows: Lade das Windows-Installationsprogramm von der Ollama-Website und folge den Anweisungen, um die Ollama-Laufzeit zu installieren.

  • Linux: Installiere Ollama über das Ein-Zeilen-Skript. Unter Ubuntu z.B. mit:

    curl -fsSL https://ollama.com/install.sh | sh

    Das Skript lädt die Ollama-CLI sowie den Server und installiert sie auf dem System.

Nach Abschluss der Installation können ollama-Befehle im Terminal verwendet werden. Eine Überprüfung der Installation gelingt zum Beispiel mit ollama --version oder einfach ollama zur Anzeige der verfügbaren Befehle. Hier sollten Subcommands wie ollama pull, ollama run, ollama serve usw. erscheinen, die wir gleich nutzen werden.

Herunterladen der GPT-OSS-Modelle

Nachdem Ollama eingerichtet ist, folgt der Download der GPT-OSS Modellgewichte. OpenAI stellt sowohl das 20B- als auch das 120B-Modell kostenlos zur Verfügung. Sie sind über das interne Modell-Registry von Ollama abrufbar. Es gibt zwei Wege, um die Modelle zu beziehen: Vorausladen oder bei der ersten Ausführung automatisch laden lassen.

1. Modelle explizit laden (optional): Ollama erlaubt das explizite Pullen eines Modells per Namen. Dadurch werden die Gewichte direkt heruntergeladen und stehen anschließend bereit. Im Terminal:

ollama pull gpt-oss:20b    # Download des 20B-Modells (~13–14 GB Download)
ollama pull gpt-oss:120b   # Download des 120B-Modells (~65 GB Download)

Während des Downloads und Entpackens gibt es Fortschrittsanzeigen. Abschließend lässt sich mit folgendem Befehl die Liste der installierten Modelle anzeigen:

ollama list

Zu sehen sind dann Einträge für gpt-oss:20b und gpt-oss:120b jeweils mit ihrer Größe (etwa 13 GB für 20B und 65 GB für 120B als quantisierte Modelle).

2. Automatisches Herunterladen via ollama run: Das manuelle Laden kann entfallen – Ollama lädt ein benötigtes Modell automatisch herunter, sobald es das erste Mal per Befehl ausgeführt wird. Beispielsweise wird durch ollama run gpt-oss:20b erkannt, dass das Modell fehlt, und der Download startet automatisch. Wer sofort loslegen will, kann diesen einfachen Weg nutzen.

💡 Tipp: Das 20B-Modell ist deutlich kleiner und schneller heruntergeladen, daher empfiehlt es sich zum Testen der Einrichtung. Das 120B-Modell ist riesig; stelle sicher, dass genug Speicherplatz und Geduld vorhanden sind (es sind dutzende GBs). Dank der Apache 2.0-Lizenz darfst du die Gewichte frei nutzen und sogar für eigene Projekte weitertrainieren.

GPT-OSS mit Ollama ausführen (CLI-Nutzung)

Nun folgt der praktische Teil: das Model starten und damit chatten! Ollama kann Modelle on-demand im Terminal ausführen oder als lokalen Dienst bereitstellen. Wir beginnen mit der einfachen, interaktiven CLI-Nutzung.

1. Interaktive Sitzung starten: Zum Ausführen des 20B-Modells im Terminal:

ollama run gpt-oss:20b

Nach kurzem Laden des Modells erscheint die Eingabeaufforderung >>>, die anzeigt, dass das Modell bereit steht. Jetzt kann eine beliebige Frage oder ein Prompt eingegeben werden. Beispielsweise könnte man eine kreative Rätselaufgabe stellen oder um eine Zusammenfassung bitten. Nach dem Absenden zeigt das Modell „Thinking…” während der Verarbeitung und gibt dann eine ausführliche Antwort zurück.

Beispiel: Nach ollama run gpt-oss:20b erscheint: >>> (wartet auf Eingabe) Du: „Erkläre die Bedeutung der Mondlandung in einem poetischen Ton.” (Modell denkt…) GPT-OSS: „Die Mondlandung bedeutete einen gewaltigen Schritt für die Menschheit, eine Nacht, in der Träume Spuren im Mondstaub hinterließen…” (usw. in einer poetischen Erklärung)

Die erste Antwort kann etwas dauern (vor allem bei 20B nur auf der CPU oder mit einer gerade ausreichenden GPU), aber jede weitere Abfrage läuft schneller, sobald das Modell geladen wurde. Trotz der kompakteren Größe beweist GPT-OSS-20B sehr beachtliche Reasoning-Fähigkeiten, nicht zuletzt dank des Feintunings von OpenAI. Für besonders komplexe Aufgaben (z.B. aufwendiges Reasoning, Code-Ausführung etc.) liefert das 120B-Modell noch stärkere Resultate – allerdings mit deutlich höheren Speicher- und Rechenanforderungen.

2. Das 120B-Modell testen (falls Ressourcen vorhanden): Entspricht dein System den Anforderungen für das größere Modell, kannst du es ähnlich starten:

ollama run gpt-oss:120b

Auch hier erscheint die interaktive Eingabeaufforderung. Das gpt-oss-120b Modell ist für „Frontier”-Performance gebaut – es kann komplexen Anweisungen folgen, Chain-of-Thought-Reasoning ausführen und sogar Werkzeuge agentenhaft nutzen (z.B. Web-Anfragen, Code ausführen). OpenAI bestätigt, dass gpt-oss-120b beinahe dem eingedampften GPT-4 in der Leistung entspricht und auf einer einzigen High-End-GPU oder Workstation läuft. Bei komplexen Prompts (z.B. mehrstufige Probleme oder das Einsetzen von Tools) sieht man, wie das Modell die Lösungswege aufzeigt.

3. Beenden: Eine interaktive Sitzung lässt sich meistens mit Strg+C oder durch Eingabe von exit beenden, je nach CLI-Design von Ollama. (Mit ollama run beendet Strg+C in der Regel das Modell.)

4. Nutzung von ollama serve (optional): Soll das Modell dauerhaft geladen und für mehrere Abfragen oder andere Anwendungen bereitstehen, empfiehlt sich die Ausführung von ollama serve. Damit startet der Ollama-Server im Hintergrund, in der Regel auf einem lokalen Port (z.B. localhost:11434). Über das CLI (z.B. ollama run) kann weiterhin gechattet werden; wichtiger ist aber die Möglichkeit, andere Tools oder APIs an diesen Server anzubinden, um GPT-OSS zu nutzen.

Ein Chat-UI für besseres Nutzererlebnis

Das Terminal ist zwar funktional, aber eine grafische Oberfläche verbessert den Komfort enorm. Zum Glück gibt es Open-Source-Chat-UIs, die sich an die lokale Ollama-Instanz anbinden lassen. Ein Beispiel hierfür ist LobeChat – eine moderne, elegante Chat-Oberfläche mit Unterstützung für mehrere KI-Backends, darunter lokale Ollama-Modelle.

  • LobeChat: Mit dieser Open-Source-Chat-Anwendung lässt sich über eine ansprechende Oberfläche mit verschiedensten KI-Modellen kommunizieren. LobeChat kann direkt mit einem Ollama-Server verbunden werden, sodass bei laufendem ollama serve und geladenem GPT-OSS das Modell als Chat-Frontend genutzt werden kann. In den Einstellungen von LobeChat wird Ollama als Provider ausgewählt, danach laufen die Gespräche über das lokale GPT-OSS-Modell. Die Oberfläche bietet Chat-Verlauf, Prompt-Vorlagen und weitere Funktionen, die das Terminal nicht bietet. (LobeChat unterstützt sogar Sprachausgabe, multimodale Eingaben und Plugins – für ein vollständig lokales ChatGPT-ähnliches Erlebnis.)

  • Weitere UI-Optionen: Das Ökosystem an lokalen LLM-UIs wächst stetig. So gibt es z.B. Open WebUI (eine webbasierte Oberfläche, ursprünglich für Ollama entwickelt) oder Projekte wie Text Generation WebUI, die sich an lokale Modelle anbinden lassen. Einige Community-Tools sind plattformübergreifende Desktop-Apps, die Ollama-Modelle automatisch erkennen. Die Einrichtung dieser Lösungen würde jedoch den Rahmen dieses Tutorials sprengen – wichtig zu wissen ist aber: Man ist nicht auf die Kommandozeile beschränkt. Mit etwas Konfiguration ist ein vollständiges Chat-App-Erlebnis mit GPT-OSS auf dem eigenen Rechner möglich.

Die Verwendung eines Chat-UIs ändert nichts an der Art, wie das Modell ausgeführt wird – alles bleibt lokal und privat – aber die Interaktion wird deutlich intuitiver (Buttons, Textfelder, Konversationsverlauf usw.). Egal ob Terminal oder Oberfläche: GPT-OSS kann ab jetzt als persönlicher KI-Assistent komplett ohne Cloud-Zwang genutzt werden.

Fazit

In diesem Beitrag haben wir GPT-OSS, die neuesten Open-Weight-Modelle von OpenAI, vorgestellt und gezeigt, wie sie sich lokal mit Ollama einsetzen lassen. Zusammengefasst: Du hast die Ollama-Laufzeit installiert, das GPT-OSS-20B (und optional 120B) Modell heruntergeladen und es auf deinem Rechner gestartet – damit wird dein PC zum ChatGPT-ähnlichen Service. Wir haben auch erklärt, welche Hardware-Anforderungen die verschiedenen Modellgrößen stellen (20B ist für Enthusiasten mit gutem PC oder Mac erreichbar, 120B erfordert deutlich mehr Speicher/GPU) und gezeigt, wie du mit einer Chat-Oberfläche wie LobeChat die Bedienung komfortabler gestalten kannst.

GPT-OSS läutet eine neue Ära der lokalen KI-Entwicklung ein: Du kannst leistungsstarke Sprachmodelle auf deinem Gerät testen, auf deine Domäne feinabstimmen oder in eigene Anwendungen integrieren – und das ganz ohne externe API. Das Beste: Durch Open-Weight-Freigabe und Apache-Lizenz können Entwickler und Forschung die Modelle frei weiterentwickeln und teilen. Mit Tools wie Ollama wird das Deployment so einfach, dass ein 120B-Parameter-Modell zu Hause keine Science Fiction mehr ist – nur noch ein Tutorial entfernt. Viel Spaß beim Experimentieren mit GPT-OSS!

Quellen: Die hier gezeigten Details und Befehle beruhen auf der offiziellen GPT-OSS-Ankündigung von OpenAI, der Ollama-Dokumentation und Community-Anleitungen. Viel Erfolg auf deiner Reise mit lokalen LLMs!