本地部署 OpenAI GPT-OSS 与 Ollama

Name: Viktor Zinchenko

Updated on 2025/8/6

OpenAI 最新发布的 GPT-OSS-120B 和 GPT-OSS-20B，推动了开源 AI 的前沿，为真实世界场景带来了高性能且低成本的表现。120B 模型在核心推理基准测试上几乎与 OpenAI 的专有 o4-mini 模型持平（即接近 GPT-4 级别推理能力），而 20B 模型则与 o3-mini 类似——而且完全无需依赖云服务器。更重要的是，这些模型为 “开源权重”，意味着你可以直接下载模型参数，在本地硬件上运行。本文将演示如何借助 Ollama 工具，在本地部署和体验 GPT-OSS。

模型规模与硬件要求

GPT-OSS 提供两个规模：gpt-oss-20b（200 亿参数）和 gpt-oss-120b（1200 亿参数）。两者均经过 OpenAI 的专用 4.25 bit 量化（MXFP4），大幅降低了内存占用。得益于此，20B 模型大约需 16 GB 内存即可运行，120B 则大致需要 80 GB 内存。实际上，OpenAI 推荐 20B 模型配备约 16 GB VRAM 或统一内存（适合高端消费级 GPU 或 Apple 芯片 Mac），而 120B 模型至少要 60–80 GB 以上内存。

注意： 苹果 M 系列 Mac 非常适合本地运行大语言模型，因为其统一内存结构允许 GPU 访问全部系统内存。例如，32 GB 统一内存的 MacBook 能流畅运行 20B，64–128 GB 的 Mac Studio 甚至有望尝试 120B。在 Windows/Linux PC 上，高 VRAM 显卡（如 24GB RTX 4090）可跑 20B，120B 则需 80GB A100 或多卡协作（或超大内存下用 CPU 跑，速度会慢不少）。

安装 Ollama

Ollama 是一个免费开源的本地 LLM 运行环境，支持 macOS、Windows、Linux。安装方法如下：

macOS： 从官网下载安装 Ollama 应用，按提示完成安装（包含桌面和 CLI 工具）。
Windows： 访问 Ollama 官网下载 Windows 安装包，按照步骤安装 Ollama 运行环境。
Linux： 可使用一条命令安装。例如 Ubuntu 上执行：
```
curl -fsSL https://ollama.com/install.sh | sh
```
上述脚本会自动下载安装 Ollama 的 CLI 和服务。

安装完成后，即可在终端用 ollama 命令操作。建议通过 ollama --version 或直接输入 ollama 检查环境是否配置成功。你应该能看到包括 ollama pull、ollama run、ollama serve 等子命令，稍后将用到它们。

下载 GPT-OSS 模型

Ollama 配置好后，下一步就是下载 GPT-OSS 的权重。OpenAI 免费开放了 20B 和 120B 两个版本。你可以通过 Ollama 自带的模型仓库下载，方式有两种：提前拉取或首次运行自动下载。

1. 显式拉取（推荐）： 可以通过命令行按模型名拉取相应模型权重。在终端执行：

ollama pull gpt-oss:20b    # 下载 20B 模型（下载量约 13–14 GB）
ollama pull gpt-oss:120b   # 下载 120B 模型（下载量约 65 GB）

下载和解压过程会显示进度条。下载完成后，可用以下命令查看本机模型列表：

ollama list

会显示已装模型的信息，例如 gpt-oss:20b (约 13 GB) 和 gpt-oss:120b (约 65 GB，均为量化后体积)。

2. 自动拉取： 你也可以跳过手动下载，首次运行时 Ollama 会自动获取缺失模型。例如直接执行 ollama run gpt-oss:20b 时，如果本地检测不到，会自动下载。只需一步即可开始体验。

💡 提示： 20B 体积明显更小，下载速度也快，建议先试运行以排查环境问题。120B 很大，确保有足够磁盘空间且耐心等待（几十 GB）。Apache 2.0 许可允许你在项目中随意使用和微调这些权重。

使用 Ollama 运行 GPT-OSS（命令行操作）

接下来就是与模型交互的乐趣环节！Ollama 能在本地按需加载模型实现聊天，也可作为本地服务持续运行。这里先介绍基础的命令行交互。

1. 启动交互会话： 终端输入以下命令运行 20B 模型：

ollama run gpt-oss:20b

模型加载完毕后，会出现 >>> 提示符，表示可以输入问题。例如，你可以让 GPT-OSS 解谜或总结文档。按回车后，模型会先输出 “Thinking…”，处理完毕后给出详细答案。

示例： 执行 ollama run gpt-oss:20b 后，看到： >>> （等待输入）你： “用诗意的语气讲述登月的意义。” (模型思考…) GPT-OSS： “登月是全人类的一大跃进，在这夜晚，梦想在月壤上留下了脚印……” （后续为完整富有诗意的回应）

第一次响应会略慢（尤其 20B 若仅用 CPU 或显卡性能一般时），模型加载后续就会快许多。得益于 OpenAI 的精细微调，即使 20B 已能展现不错的推理和表达能力。如需更高阶推理或代码输出，可尝试 120B（但前提是硬件性能允许）。

2. 试用 120B 模型（需高配）： 如果硬件条件允许，同样输入：

ollama run gpt-oss:120b

同样得到交互提示符。gpt-oss-120b 追求前沿能力——可理解复杂指令、支持链式推理，甚至以“智能体”方式调用工具（如发起联网请求、执行代码）。OpenAI 官方指出，gpt-oss-120b 几乎接近“精简版 GPT-4”表达力，可用在高级 GPU 或工作站。你可以输入需要多步推理或链式任务，会看到模型详细的思考过程。

3. 退出模型： 交互过程中通常可按 Ctrl+C 或输入 exit 退出。（用 ollama run 时，Ctrl+C 能中断模型。）

4. 使用 ollama serve（可选）： 如需让模型常驻并支持多次/跨应用请求，可运行 ollama serve，让 Ollama 后台启动服务，通常监听本地端口（如 localhost:11434）。此时 CLI 聊天（ollama run）会自动连接服务端，此外还可以让其他软件或 API 访问该服务调用 GPT-OSS。

图形化聊天界面的体验提升

虽然终端交互足够直接，但如果能有图形化聊天界面，体验会更上一层楼。好消息是，许多开源聊天 UI 可无缝对接本地 Ollama 实例。其中一款好用的选择便是 LobeChat —— 它界面优雅现代，支持多种 AI 后端（包括本地 Ollama）。

LobeChat： 这是一款开源聊天应用，通过友好的界面支持与多种 AI 对话。LobeChat 原生支持与 Ollama 服务端连接，因此本地已运行 ollama serve 并加载 GPT-OSS 后，LobeChat 就能作为前端界面使用。只需在 LobeChat 设置里选择 Ollama 作为提供方，即可用本地 GPT-OSS 聊天。它提供聊天记录、提示模板等便利功能，是命令行无法比拟的。（LobeChat 还支持语音合成、多模态输入及插件，可实现完整本地化 ChatGPT 体验。）
其他 UI 方案： 本地 LLM UI 生态也在快速发展。例如 Open WebUI（为 Ollama 打造的网页端界面），或者 Text Generation WebUI 等项目，也能连接本地模型。有些社区工具还自带跨平台桌面应用，能自动识别 Ollama 模型。虽然本教程不详细介绍这些工具的配置，但你完全不必局限在命令行，通过简单配置即可让本机 GPT-OSS 获得类似完整聊天应用的体验。

使用聊天 UI 不会改变模型的本地私有运行模式——只是让交互更加直观友好（如按钮、文本框、对话流等）。不论你选择终端方式还是 UI，GPT-OSS 都能成为你个人的本地 AI 助手，无需依赖云端。

总结

本文介绍了 GPT-OSS——OpenAI 最新开源大模型，并演示了通过 Ollama 在本地部署与使用的流程。总的来说，你已学会安装 Ollama 运行环境、下载并运行 GPT-OSS-20B（可选 120B）模型，将你的电脑摇身一变变成类似 ChatGPT 的对话式 AI 服务。同时还聊到了不同模型对硬件的需求（20B 适合主流 PC 或 Mac 爱好者，120B 则需高端内存或 GPU）。最后，也简要提到了如 LobeChat 这样的聊天 UI，提高了模型交互的易用性。

GPT-OSS 开启了本地 AI 的新纪元——你可在自己电脑上尝试强大语言模型，根据具体业务领域微调，或集成进各类应用，彻底摆脱外部 API 的依赖。更棒的是，开源权重及 Apache 许可证，赋予开发者和研究者充分的自由去创新及二次开发。随着 Ollama 等工具大幅简化部署门槛，家用机器跑 1200 亿参数模型已不再是科幻——只需要一篇简单的教程。祝你玩得开心，尽情探索 GPT-OSS 带来的无限可能！

参考资料： 以上内容与命令整理自 OpenAI 官方 GPT-OSS 公告、Ollama 官方文档及社区教程。祝你畅游本地大模型世界！

2025 年十大 Vibe Coding 工具 Agent GPT 与 AutoGPT：你应选择哪一个？