Ollama를 이용한 OpenAI GPT-OSS 로컬 배포하기
Updated on
OpenAI의 새로운 GPT-OSS-120B 및 GPT-OSS-20B 모델은 오픈소스 AI의 한계를 확장하며, 우수한 실제 성능을 낮은 비용으로 제공합니다. 120B 모델은 OpenAI의 독점 o4-mini 모델과 주요 추론 벤치마크에서 거의 동등한 성능을 보여주며(GPT-4 수준의 추론력에 근접), 20B 모델도 o3-mini와 비슷한 성능을 냅니다 – 모두 클라우드 서버 없이 자체 하드웨어에서 실행이 가능합니다. 특히 이 모델들은 “오픈 웨이트”(open-weight)로 제공되어, 가중치 파일을 내려받아 본인 PC에서 직접 구동할 수 있습니다. 이번 튜토리얼에서는 Ollama라는 오프라인 대형 언어모델(LLM) 실행 도구를 이용해, GPT-OSS를 로컬 머신에 배포하는 과정을 안내합니다.
모델 크기와 하드웨어 요구사항
GPT-OSS는 두 가지 크기, 즉 gpt-oss-20b(200억 파라미터)와 gpt-oss-120b(1200억 파라미터) 버전으로 제공됩니다. OpenAI는 두 모델 모두 특별한 4.25비트 양자화(MXFP4) 기술로 메모리 사용량을 크게 줄였습니다. 덕분에 20B 모델은 약 16 GB 메모리만 있으면 동작하고, 120B 모델도 80 GB 메모리 정도면 구동이 가능합니다. 실제로 OpenAI에서는 20B 모델에 ~16GB VRAM(또는 통합 메모리)을 권장하며, 이는 고사양 일반 GPU나 Apple Silicon Mac에 적합합니다. 120B 모델은 최소 ~60–80GB 이상이 필요합니다.
참고: Apple의 M 시리즈 Mac은 메모리 구조상 GPU가 전체 시스템 RAM을 공유하므로 로컬 LLM에 최적입니다. 예를 들어, 32GB 통합 메모리의 맥북은 20B 모델을 무리 없이 구동할 수 있고, 64–128GB의 Mac Studio라면 120B 모델도 시도해볼 만합니다. Windows/Linux PC라면 고용량 VRAM(예: 24GB RTX 4090)이 20B 모델 구동에 적합하며, 120B는 80GB A100 수준의 GPU 또는 다중 GPU 조합(혹은 매우 큰 RAM을 가진 CPU, 단 매우 느림)이 필요합니다.
Ollama 설치하기
Ollama는 LLM을 자신의 컴퓨터에서 쉽게 내려받고 실행할 수 있게 해주는 무료 오픈소스 런타임입니다. macOS, Windows, Linux 모두 지원합니다. 설치 방법은 다음과 같습니다.
-
macOS: 공식 홈페이지에서 Ollama 앱을 내려받아 설치 파일을 실행하세요. Ollama 데스크톱 앱(CL도 포함)이 설치됩니다.
-
Windows: Ollama 사이트에서 Windows용 설치 파일을 내려받아 순서대로 실행해 Ollama 런타임을 설치합니다.
-
Linux: 원라인 스크립트로 설치할 수 있습니다. 예를 들어 Ubuntu에서는 아래 명령어로 진행하세요:
curl -fsSL https://ollama.com/install.sh | sh
이 스크립트가 시스템에 Ollama CLI 및 서버를 설치합니다.
설치가 끝나면 터미널에서 ollama
명령을 실행할 수 있습니다. ollama --version
또는 단순히 ollama
를 실행해 설치가 잘 되었는지 확인해보세요. ollama pull
, ollama run
, ollama serve
등 하위 명령이 출력되면 정상입니다.
GPT-OSS 모델 내려받기
Ollama 설치를 마치면 다음 단계는 GPT-OSS 모델 가중치를 내려받는 일입니다. OpenAI는 20B와 120B 모델 모두 자유롭게 내려받을 수 있게 했고, Ollama의 내장 모델 레지스트리를 통해 쉽게 받을 수 있습니다. 미리 내려받거나, 실행과 동시에 자동으로 내려받는 두 가지 방식이 있습니다.
1. 명시적으로 모델을 받아두기(선택): Ollama는 모델 이름만으로 내려받기를 지원합니다. 명령어 예시는 다음과 같습니다.
ollama pull gpt-oss:20b # 20B 모델 내려받기 (~13~14GB)
ollama pull gpt-oss:120b # 120B 모델 내려받기 (~65GB)
다운로드 및 압축 해제 진행 상황이 표시됩니다. 완료 후 설치된 모델 목록을 아래처럼 확인할 수 있습니다.
ollama list
여기에 약 13 GB(20B), 65 GB(120B, 양자화)로 각각 표시됩니다.
2. ollama run
에서 자동 내려받기: 수동으로 pull하지 않아도, ollama run gpt-oss:20b
를 바로 실행하면 Ollama가 자동으로 모델을 찾아 내려받고 곧바로 실행까지 진행합니다. 빠르게 바로 써보고 싶다면 이 방법이 편합니다.
💡 팁: 20B 모델은 상대적으로 작아 빠르게 내려받을 수 있으니 우선 이것으로 동작 확인을 권장합니다. 120B 모델은 매우 크므로 충분한 디스크 공간과 여유 시간을 확보한 뒤 시도하세요. 아파치 2.0 라이선스이므로, 누구나 내려받아 직접 사용하거나 파인튜닝까지 자유롭게 할 수 있습니다.
GPT-OSS Ollama로 실행하기 (CLI 활용법)
이제 모델을 직접 실행하고 채팅해볼 시간입니다! Ollama는 터미널에서 직접 모델을 구동해 대화하거나, 로컬 서비스로 띄워 다양한 방식으로 활용할 수 있습니다. CLI 기반의 간단한 예시로 시작합니다.
1. 대화형 세션 시작: 터미널에 아래와 같이 20B 모델을 실행하세요.
ollama run gpt-oss:20b
모델 로딩 후 잠시 기다리면 >>>
프롬프트가 나타납니다. 이제 질문 또는 지시문을 입력해 GPT-OSS의 답변을 받을 수 있습니다. 예를 들어, 창의적인 수수께끼 풀이 요청이나, 문서 요약 같은 질문도 가능합니다. 엔터를 누르면 “Thinking…” 메시지와 함께 답변이 출력됩니다.
예시:
ollama run gpt-oss:20b
실행 후,>>>
(입력 대기) 입력: “달 착륙의 의미를 시적으로 설명해줘.” (모델 생각 중...) GPT-OSS: “달 착륙은 인류 모두에게 커다란 도약이었고, 꿈이 달의 표면에 첫 발자국을 남기던 밤이었다...” (아름다운 시적 설명이 이어짐)
첫 답변은(특히 20B를 CPU만으로 돌릴 때, 혹은 GPU가 빡빡할 때) 시간이 다소 걸릴 수 있지만, 모델 로딩 후에는 이후 쿼리 속도가 빨라집니다. GPT-OSS-20B도 이미 뛰어난 추론력과 자연스러운 답변을 보여줍니다. 복잡한 추론이나 코드, 체인 오브 쏘트 등은 120B 모델에서 더욱 강력하게 경험할 수 있습니다(단, 메모리·연산 자원 요구량이 매우 높음).
2. 120B 모델 실행(여유가 된다면): 충분한 자원이 있다면, 다음과 같이 바로 시도해볼 수 있습니다.
ollama run gpt-oss:120b
다시 대화형 프롬프트가 뜹니다. gpt-oss-120b 모델은 “최첨단” 성능을 위해 설계되었으며, 복잡한 지시문 처리, 체인 오브 쏘트 추론, 툴 사용(예: 웹 요청, 코드 실행 등)까지도 수행합니다. OpenAI에 따르면 gpt-oss-120b는 축소형 GPT-4에 거의 근접하는 성능을 보여주며, 최상급 GPU 또는 고성능 워크스테이션에서 실행 가능합니다. 복잡한 문제나 툴 활용 요청을 시험해보면, 체인 오브 쏘트(생각의 흐름) 방식의 답변을 관찰할 수 있습니다.
3. 종료하기: 인터랙티브 챗을 종료하려면 일반적으로 Ctrl+C 또는 exit
입력(ollama CLI 환경에 따라 다름)으로 종료할 수 있습니다. (ollama run
은 Ctrl+C로 중단)
4. ollama serve
활용(선택): 모델을 상시 로딩해 여러 쿼리 및 외부 앱에서 접근 가능하도록 하고 싶다면 ollama serve
명령을 사용할 수 있습니다. 이 명령은 Ollama 서버를 백그라운드로 띄우며, 기본적으로 localhost 포트(예: localhost:11434
)에서 대기하게 됩니다. 이후 CLI에서 계속 대화할 수도 있고(ollama run
이 서버에 연결), 무엇보다 다른 툴이나 API에서 서버를 이용해 GPT-OSS를 활용할 수 있습니다.
더 나은 사용감을 위한 챗 UI 사용하기
터미널로 대화하는 것도 쉽지만, 그래픽 기반 챗 인터페이스를 활용하면 훨씬 직관적이고 편리하게 AI와 상호작용할 수 있습니다. 다행히 로컬 Ollama 인스턴스와 연동되는 오픈소스 챗 UI가 몇 가지 있습니다. 대표적으로 LobeChat이 있습니다 – 세련되고 현대적인 챗 인터페이스로, 여러 AI 백엔드를 지원하고, 자체 Ollama 모델 연동이 가능합니다.
-
LobeChat: 이 오픈소스 챗 앱은 다양한 AI 모델과 대화할 수 있는 훌륭한 UI를 제공합니다. Ollama 서버와의 연동이 기본 지원되어,
ollama serve
로 GPT-OSS를 띄워두면 LobeChat에서 프론트엔드로 사용할 수 있습니다. 설정에서 Ollama를 제공자로 선택하면, GPT-OSS 모델로 대화가 이루어집니다. 대화 히스토리, 프롬프트 템플릿 등 터미널에서는 제공되지 않는 다양한 편의기능이 있습니다. (음성 합성, 멀티모달 입력, 플러그인 등도 지원하여 진정한 ChatGPT 같은 경험을 오프라인에서 제공합니다.) -
기타 UI 옵션: 로컬 LLM UI 생태계는 점점 확대되고 있습니다. 예를 들어 Open WebUI(Ollama 전용 웹 기반 인터페이스)나 Text Generation WebUI 같은 프로젝트도 사용할 수 있습니다. 커뮤니티 일부 데스크탑 앱은 Ollama 모델을 자동으로 인식하는 크로스플랫폼 툴도 있습니다. 여기서 자세한 설정법까지는 다루지 않지만, 터미널 외에도 훨씬 폭넓은 챗 환경을 꾸밀 수 있음을 알아두세요. 약간의 설정만 추가하면 하드웨어 내에서 ChatGPT 같은 챗 애플리케이션을 운영할 수 있습니다.
챗 UI를 사용하더라도 모델 실행 자체는 변하지 않으므로, 모든 것이 로컬·프라이빗하게 동작합니다. 단순히 버튼, 입력 상자, 대화 목록 등으로 직관적 상호작용이 가능해진다는 점이 다릅니다. 터미널이든 UI든, 이제 GPT-OSS는 외부 클라우드 없이 누구나 개인 AI 어시스턴트로 사용할 수 있습니다.
결론
이번 글에서는 GPT-OSS라는 OpenAI의 최신 오픈 웨이트 모델을 소개하고, Ollama를 통해 로컬에서 모델을 배포하는 전체 과정을 안내했습니다. Ollama 런타임 설치, GPT-OSS-20B(선택 시 120B까지) 모델 내려받기, 본인 PC에서 직접 돌려 ChatGPT처럼 활용하는 방법을 실제로 따라 해봤습니다. 하드웨어 여유에 따라 선택할 수 있는 모델 크기, 20B는 누구나 도전할 만하고, 120B는 초고사양이 필요함도 함께 살펴봤죠. 마지막으로, LobeChat 등 챗 UI의 활용으로 더욱 편리하게 AI와 대화할 수 있는 팁도 소개했습니다.
GPT-OSS는 로컬 AI 개발의 새로운 지평을 엽니다 – 누구나 강력한 언어모델을 내 컴퓨터에서 실험, 도메인별 파인튜닝, 앱 통합까지 클라우드나 외부 API 없이 가능해졌습니다. 무엇보다 오픈 웨이트/아파치 라이선스 덕분에 개발자와 연구자 누구나 자유롭게 연구·개선·공유할 수 있습니다. Ollama 등 도구의 쉬운 배포 덕분에, 이제 최첨단 1,200억 파라미터 모델을 집에서 돌리는 일도 더 이상 공상과학이 아닙니다 – 바로 이 튜토리얼 한 번이면 끝입니다. GPT-OSS로 새로운 AI 환경을 경험해보세요!
참고: 본문 명령어 및 세부 정보는 OpenAI 공식 GPT-OSS 발표, Ollama 공식 문서, 커뮤니티 가이드를 바탕으로 작성되었습니다. 로컬 LLM 여행 즐기시길 바랍니다!