本地部署 OpenAI GPT-OSS 与 Ollama
Updated on
OpenAI 最新发布的 GPT-OSS-120B 和 GPT-OSS-20B,推动了开源 AI 的前沿,为真实世界场景带来了高性能且低成本的表现。120B 模型在核心推理基准测试上几乎与 OpenAI 的专有 o4-mini 模型持平(即接近 GPT-4 级别推理能力),而 20B 模型则与 o3-mini 类似——而且完全无需依赖云服务器。更重要的是,这些模型为 “开源权重”,意味着你可以直接下载模型参数,在本地硬件上运行。本文将演示如何借助 Ollama 工具,在本地部署和体验 GPT-OSS。
模型规模与硬件要求
GPT-OSS 提供两个规模:gpt-oss-20b(200 亿参数)和 gpt-oss-120b(1200 亿参数)。两者均经过 OpenAI 的专用 4.25 bit 量化(MXFP4),大幅降低了内存占用。得益于此,20B 模型大约需 16 GB 内存即可运行,120B 则大致需要 80 GB 内存。实际上,OpenAI 推荐 20B 模型配备约 16 GB VRAM 或统一内存(适合高端消费级 GPU 或 Apple 芯片 Mac),而 120B 模型至少要 60–80 GB 以上内存。
注意: 苹果 M 系列 Mac 非常适合本地运行大语言模型,因为其统一内存结构允许 GPU 访问全部系统内存。例如,32 GB 统一内存的 MacBook 能流畅运行 20B,64–128 GB 的 Mac Studio 甚至有望尝试 120B。在 Windows/Linux PC 上,高 VRAM 显卡(如 24GB RTX 4090)可跑 20B,120B 则需 80GB A100 或多卡协作(或超大内存下用 CPU 跑,速度会慢不少)。
安装 Ollama
Ollama 是一个免费开源的本地 LLM 运行环境,支持 macOS、Windows、Linux。安装方法如下:
-
macOS: 从官网下载安装 Ollama 应用,按提示完成安装(包含桌面和 CLI 工具)。
-
Windows: 访问 Ollama 官网下载 Windows 安装包,按照步骤安装 Ollama 运行环境。
-
Linux: 可使用一条命令安装。例如 Ubuntu 上执行:
curl -fsSL https://ollama.com/install.sh | sh
上述脚本会自动下载安装 Ollama 的 CLI 和服务。
安装完成后,即可在终端用 ollama
命令操作。建议通过 ollama --version
或直接输入 ollama
检查环境是否配置成功。你应该能看到包括 ollama pull
、ollama run
、ollama serve
等子命令,稍后将用到它们。
下载 GPT-OSS 模型
Ollama 配置好后,下一步就是下载 GPT-OSS 的权重。OpenAI 免费开放了 20B 和 120B 两个版本。你可以通过 Ollama 自带的模型仓库下载,方式有两种:提前拉取或首次运行自动下载。
1. 显式拉取(推荐): 可以通过命令行按模型名拉取相应模型权重。在终端执行:
ollama pull gpt-oss:20b # 下载 20B 模型(下载量约 13–14 GB)
ollama pull gpt-oss:120b # 下载 120B 模型(下载量约 65 GB)
下载和解压过程会显示进度条。下载完成后,可用以下命令查看本机模型列表:
ollama list
会显示已装模型的信息,例如 gpt-oss:20b
(约 13 GB) 和 gpt-oss:120b
(约 65 GB,均为量化后体积)。
2. 自动拉取: 你也可以跳过手动下载,首次运行时 Ollama 会自动获取缺失模型。例如直接执行 ollama run gpt-oss:20b
时,如果本地检测不到,会自动下载。只需一步即可开始体验。
💡 提示: 20B 体积明显更小,下载速度也快,建议先试运行以排查环境问题。120B 很大,确保有足够磁盘空间且耐心等待(几十 GB)。Apache 2.0 许可允许你在项目中随意使用和微调这些权重。
使用 Ollama 运行 GPT-OSS(命令行操作)
接下来就是与模型交互的乐趣环节!Ollama 能在本地按需加载模型实现聊天,也可作为本地服务持续运行。这里先介绍基础的命令行交互。
1. 启动交互会话: 终端输入以下命令运行 20B 模型:
ollama run gpt-oss:20b
模型加载完毕后,会出现 >>>
提示符,表示可以输入问题。例如,你可以让 GPT-OSS 解谜或总结文档。按回车后,模型会先输出 “Thinking…”,处理完毕后给出详细答案。
示例: 执行
ollama run gpt-oss:20b
后,看到:>>>
(等待输入) 你: “用诗意的语气讲述登月的意义。” (模型思考…) GPT-OSS: “登月是全人类的一大跃进,在这夜晚,梦想在月壤上留下了脚印……” (后续为完整富有诗意的回应)
第一次响应会略慢(尤其 20B 若仅用 CPU 或显卡性能一般时),模型加载后续就会快许多。得益于 OpenAI 的精细微调,即使 20B 已能展现不错的推理和表达能力。如需更高阶推理或代码输出,可尝试 120B(但前提是硬件性能允许)。
2. 试用 120B 模型(需高配): 如果硬件条件允许,同样输入:
ollama run gpt-oss:120b
同样得到交互提示符。gpt-oss-120b 追求前沿能力——可理解复杂指令、支持链式推理,甚至以“智能体”方式调用工具(如发起联网请求、执行代码)。OpenAI 官方指出,gpt-oss-120b 几乎接近“精简版 GPT-4”表达力,可用在高级 GPU 或工作站。你可以输入需要多步推理或链式任务,会看到模型详细的思考过程。
3. 退出模型: 交互过程中通常可按 Ctrl+C 或输入 exit
退出。(用 ollama run
时,Ctrl+C 能中断模型。)
4. 使用 ollama serve
(可选): 如需让模型常驻并支持多次/跨应用请求,可运行 ollama serve
,让 Ollama 后台启动服务,通常监听本地端口(如 localhost:11434
)。此时 CLI 聊天(ollama run
)会自动连接服务端,此外还可以让其他软件或 API 访问该服务调用 GPT-OSS。
图形化聊天界面的体验提升
虽然终端交互足够直接,但如果能有图形化聊天界面,体验会更上一层楼。好消息是,许多开源聊天 UI 可无缝对接本地 Ollama 实例。其中一款好用的选择便是 LobeChat —— 它界面优雅现代,支持多种 AI 后端(包括本地 Ollama)。
-
LobeChat: 这是一款开源聊天应用,通过友好的界面支持与多种 AI 对话。LobeChat 原生支持与 Ollama 服务端连接,因此本地已运行
ollama serve
并加载 GPT-OSS 后,LobeChat 就能作为前端界面使用。只需在 LobeChat 设置里选择 Ollama 作为提供方,即可用本地 GPT-OSS 聊天。它提供聊天记录、提示模板等便利功能,是命令行无法比拟的。(LobeChat 还支持语音合成、多模态输入及插件,可实现完整本地化 ChatGPT 体验。) -
其他 UI 方案: 本地 LLM UI 生态也在快速发展。例如 Open WebUI(为 Ollama 打造的网页端界面),或者 Text Generation WebUI 等项目,也能连接本地模型。有些社区工具还自带跨平台桌面应用,能自动识别 Ollama 模型。虽然本教程不详细介绍这些工具的配置,但你完全不必局限在命令行,通过简单配置即可让本机 GPT-OSS 获得类似完整聊天应用的体验。
使用聊天 UI 不会改变模型的本地私有运行模式——只是让交互更加直观友好(如按钮、文本框、对话流等)。不论你选择终端方式还是 UI,GPT-OSS 都能成为你个人的本地 AI 助手,无需依赖云端。
总结
本文介绍了 GPT-OSS——OpenAI 最新开源大模型,并演示了通过 Ollama 在本地部署与使用的流程。总的来说,你已学会安装 Ollama 运行环境、下载并运行 GPT-OSS-20B(可选 120B)模型,将你的电脑摇身一变变成类似 ChatGPT 的对话式 AI 服务。同时还聊到了不同模型对硬件的需求(20B 适合主流 PC 或 Mac 爱好者,120B 则需高端内存或 GPU)。最后,也简要提到了如 LobeChat 这样的聊天 UI,提高了模型交互的易用性。
GPT-OSS 开启了本地 AI 的新纪元——你可在自己电脑上尝试强大语言模型,根据具体业务领域微调,或集成进各类应用,彻底摆脱外部 API 的依赖。更棒的是,开源权重及 Apache 许可证,赋予开发者和研究者充分的自由去创新及二次开发。随着 Ollama 等工具大幅简化部署门槛,家用机器跑 1200 亿参数模型已不再是科幻——只需要一篇简单的教程。祝你玩得开心,尽情探索 GPT-OSS 带来的无限可能!
参考资料: 以上内容与命令整理自 OpenAI 官方 GPT-OSS 公告、Ollama 官方文档及社区教程。祝你畅游本地大模型世界!