Skip to content
Como Implantar o OpenAI GPT‑OSS Localmente com Ollama & Lobe Chat

Implantando o GPT-OSS da OpenAI Localmente com Ollama

Updated on

Os novos modelos GPT-OSS-120B e GPT-OSS-20B da OpenAI avançam a fronteira da IA open-source, entregando grande desempenho em tarefas reais com baixo custo. O modelo 120B atinge desempenho próximo ao modelo proprietário o4-mini da OpenAI em benchmarks de raciocínio (ou seja, quase em nível GPT-4), enquanto o 20B se equipara ao o3-mini – tudo isso sem necessidade de servidores na nuvem. O mais importante é que esses modelos são “open-weight”, ou seja, você pode baixar os pesos e rodá-los localmente no seu próprio hardware. Neste tutorial, vamos mostrar como implantar o GPT-OSS em uma máquina local utilizando o Ollama, uma ferramenta prática para executar grandes modelos de linguagem (LLMs) offline.

Tamanhos dos Modelos e Requisitos de Hardware

O GPT-OSS está disponível em dois tamanhos: gpt-oss-20b (20 bilhões de parâmetros) e gpt-oss-120b (120 bilhões de parâmetros). A OpenAI otimizou ambos utilizando quantização especial de 4.25 bits (MXFP4) para reduzir drasticamente o consumo de memória. Graças a isso, o modelo 20B pode rodar em sistemas com cerca de 16 GB de memória, enquanto o 120B precisa de aproximadamente 80 GB de memória. Na prática, a OpenAI recomenda cerca de 16 GB de VRAM (ou memória unificada) para o modelo 20B – ideal para GPUs de alto desempenho ou Macs com Apple Silicon – e pelo menos 60–80 GB para o modelo 120B.

Nota: Os Macs com chips da série M da Apple são excelentes para LLMs locais devido à sua memória unificada, permitindo que a GPU utilize toda a RAM do sistema. Por exemplo, um MacBook com 32 GB de memória unificada pode rodar confortavelmente o modelo 20B, e um Mac Studio com 64–128 GB pode até lidar com o 120B. Já em PCs com Windows/Linux, uma GPU com bastante VRAM (ex: 24 GB RTX 4090) pode rodar o 20B, enquanto o 120B exige uma A100 de 80 GB, múltiplas GPUs ou, como alternativa mais lenta, CPU com RAM muito grande.

Instalando o Ollama

O Ollama é um runtime gratuito e open-source que facilita o download e a execução de LLMs localmente. Ele oferece suporte para macOS, Windows e Linux. Para configurá-lo:

  • macOS: Baixe o app Ollama no site oficial e execute o instalador. Isso instalará o Ollama desktop (que também inclui a ferramenta CLI).

  • Windows: Baixe o instalador Windows no site do Ollama e siga o passo a passo para instalar o runtime.

  • Linux: Instale via um script de linha única. Por exemplo, no Ubuntu você pode executar:

    curl -fsSL https://ollama.com/install.sh | sh

    Esse script baixa e instala o Ollama CLI e o servidor no seu sistema.

Depois de instalar, você pode executar comandos ollama no terminal. É recomendável verificar a instalação rodando ollama --version ou simplesmente ollama para ver os comandos disponíveis. Você deve visualizar subcomandos como ollama pull, ollama run, ollama serve, etc., que serão usados a seguir.

Baixando os Modelos GPT-OSS

Com o Ollama instalado, o próximo passo é baixar os pesos dos modelos GPT-OSS. A OpenAI disponibilizou gratuitamente tanto o modelo 20B quanto o 120B. Você pode obtê-los pelo registro de modelos do próprio Ollama. Há duas formas de conseguir os modelos: baixar antecipadamente ou deixar o Ollama baixar ao rodar pela primeira vez.

1. Baixar os modelos explicitamente (opcional): O Ollama permite que você puxe um modelo pelo nome, baixando os pesos e deixando tudo pronto para uso. No terminal, execute:

ollama pull gpt-oss:20b    # Baixar o modelo 20B (~13–14 GB de download)
ollama pull gpt-oss:120b   # Baixar o modelo 120B (~65 GB de download)

Você verá barras de progresso enquanto cada arquivo de modelo é baixado e descompactado. Ao finalizar, é possível verificar com:

ollama list

Deve aparecer gpt-oss:20b e gpt-oss:120b com seus tamanhos (aproximadamente 13 GB para 20B e 65 GB para 120B já quantizados).

2. Deixar o ollama run baixar automaticamente: Também é possível pular o pull manual – o Ollama buscará e baixará o modelo na primeira vez em que for executado. Por exemplo, ao rodar ollama run gpt-oss:20b, ele detectará que o modelo não está presente e fará o download automaticamente. É uma forma prática caso você queira começar a usar o modelo direto.

💡 Dica: O modelo 20B é bem menor e mais rápido de baixar, sendo interessante começar por ele para garantir que tudo está funcionando. Já o 120B é enorme; certifique-se de ter espaço em disco suficiente e paciência (o download é de dezenas de GB). Com a licença Apache 2.0, você está livre para usar e até adaptar esses pesos nos seus próprios projetos.

Executando o GPT-OSS com o Ollama (Uso pelo CLI)

Agora vem a parte divertida – rodar o modelo e interagir com ele! O Ollama pode rodar modelos sob demanda no terminal ou hospedá-los como serviço local. Vamos começar pelo uso interativo via CLI.

1. Iniciar uma sessão interativa: No terminal, rode o modelo 20B com:

ollama run gpt-oss:20b

Após alguns instantes (carregando o modelo), surgirá um prompt >>> indicando que está pronto para receber comandos. Agora você pode escrever uma pergunta ou instrução para o GPT-OSS responder. Por exemplo, peça para criar uma charada criativa ou resumir um documento. Após pressionar enter, o modelo exibirá “Thinking…” enquanto processa e, em seguida, trará sua resposta detalhada.

Exemplo: Após rodar ollama run gpt-oss:20b: >>> (aguardando entrada) Você: “Explique a importância da chegada à lua em tom poético.” (Modelo pensa…) GPT-OSS: “A chegada à lua marcou um salto gigante para toda a humanidade, uma noite onde sonhos deixaram pegadas no solo lunar…” (e assim por diante, com explicação poética detalhada.)

A primeira resposta pode demorar um pouco (especialmente rodando 20B só na CPU ou se sua GPU estiver no limite), mas dúvidas seguintes serão mais rápidas após o modelo ser carregado. Apesar do tamanho menor, o GPT-OSS-20B já demonstra ótimo raciocínio e eloquência, graças ao ajuste fino feito pela OpenAI. Para perguntas mais complexas (raciocínio, códigos, etc.), o 120B gera resultados ainda mais impressionantes – embora exija mais memória e processamento.

2. Testar o modelo 120B (se você tiver recursos): Se seu sistema atender aos requisitos do modelo maior, inicie com:

ollama run gpt-oss:120b

Surge novamente o prompt interativo. O gpt-oss-120b é projetado para desempenho “de fronteira” – com capacidade de seguir instruções complexas, executar raciocínio em cadeia (chain-of-thought) e até manipular ferramentas (como fazer requisições web ou rodar código) de modo agente. A OpenAI informa que o gpt-oss-120b quase chega ao desempenho de um GPT-4 reduzido, só que rodando em uma única GPU topo de linha ou estação de trabalho avançada. Experimente prompts complexos (problemas multi-etapas, solicitações para usar ferramentas) e veja como o modelo expõe seu raciocínio passo-a-passo.

3. Encerrando: Para sair do chat interativo, geralmente basta pressionar Ctrl+C ou digitar exit, dependendo do CLI do Ollama. (Com ollama run, Ctrl+C deve encerrar o modelo.)

4. Usando o ollama serve (opcional): Se quiser manter o modelo carregado e acessível para múltiplas consultas ou aplicativos, execute ollama serve. Esse comando inicia o servidor Ollama em background, escutando localmente (ex: localhost:11434). Uma vez rodando, ainda dá para usar o CLI (o ollama run conecta ao servidor), mas o principal é poder apontar outras ferramentas ou APIs para esse servidor e usar o GPT-OSS.

Usando uma Interface de Chat para Melhor Experiência

Interagir via terminal é simples, mas uma interface gráfica melhora muito a experiência do usuário. Felizmente, existem interfaces de chat open-source que se conectam ao Ollama local. Um exemplo é o LobeChat – uma interface chat moderna, elegante, que suporta diversos backends de IA, incluindo modelos Ollama locais.

  • LobeChat: É um aplicativo de chat open-source que permite conversar com diferentes modelos de IA através de uma interface agradável. Ele conecta nativamente ao servidor Ollama local, então basta iniciar o ollama serve com o GPT-OSS rodando e usar o LobeChat como front-end. Nas configurações do LobeChat, selecione Ollama como provedor, e a conversa utilizará seu modelo GPT-OSS local. A interface oferece histórico de conversas, prompts predefinidos e outros recursos que o terminal não possui. (LobeChat suporta também síntese de voz, entradas multimodais e plugins, trazendo uma experiência tipo ChatGPT totalmente offline.)

  • Outras opções de UI: O ecossistema de interfaces para LLMs locais está crescendo. Exemplos como Open WebUI (interface web feita para Ollama) ou projetos como Text Generation WebUI também se conectam a modelos locais. Algumas ferramentas criadas pela comunidade já são apps desktop multi-plataforma que detectam automaticamente os modelos do Ollama. Embora configurar esses recursos extrapole o foco deste tutorial, é bom saber que você não está restrito à linha de comando. Com um pouco de configuração, dá para obter uma experiência de chat completa com o GPT-OSS rodando no seu hardware.

Usar uma interface de chat não altera como o modelo é executado – segue tudo local e privado – mas deixa a interação com a IA muito mais intuitiva (botões, caixas de texto, históricos, etc.). Seja via terminal ou UI, o GPT-OSS já pode ser seu assistente de IA pessoal sem nenhuma dependência de nuvem.

Conclusão

Neste artigo, apresentamos o GPT-OSS, os mais recentes modelos open-weight da OpenAI, e mostramos como implantá-los localmente usando o Ollama. Em resumo, você instalou o runtime Ollama, baixou o modelo GPT-OSS-20B (e, opcionalmente, o 120B), e rodou-o no seu dispositivo – transformando seu computador num serviço similar ao ChatGPT. Também discutimos como os diferentes tamanhos de modelo exigem diferentes capacidades de hardware (20B acessível para quem tem um bom PC ou Mac; 120B exigindo recursos mais avançados). Por fim, abordamos a interação por UI via LobeChat para uma experiência prática e completa.

O GPT-OSS inaugura uma nova era de desenvolvimento de IA local – experimente um poderoso modelo de linguagem na sua própria máquina, personalize para seu domínio, ou integre em aplicações, tudo sem depender de API externa. E o melhor: sendo open-weight e licenciado Apache, desenvolvedores e pesquisadores podem evoluir e compartilhar melhorias livremente. Com ferramentas como o Ollama facilitando a implantação, rodar um modelo de 120B parâmetros em casa já não é ficção científica – é só seguir o tutorial. Bons hacks com GPT-OSS!

Fontes: Os detalhes e comandos acima foram baseados no anúncio oficial do GPT-OSS pela OpenAI, na documentação do Ollama e em guias da comunidade. Boa jornada com LLMs locais!