Skip to content
Ollama&Lobe ChatでOpenAI GPT‑OSSをローカルにデプロイする方法

OpenAIのGPT-OSSをOllamaでローカルデプロイする

Updated on

OpenAIの新しいGPT-OSS-120BおよびGPT-OSS-20Bモデルは、オープンソースAIの新しいフロンティアを切り開き、低コストで優れた実用的な性能を実現しています。120BモデルはOpenAIの独自o4-miniモデル(ほぼGPT-4レベルの推論能力)と同等のパフォーマンスを発揮し、20Bモデルもo3-miniモデル相当の成果を出しています。しかも、これらはクラウドサーバー不要です。さらに、これらのモデルは「オープンウェイト」となっており、重みデータをダウンロードして自分のデバイスで実行可能です。本チュートリアルでは、大規模言語モデル(LLM)を手軽にローカル実行できるOllamaを使い、GPT-OSSをローカルマシンで動かす手順を解説します。

モデルのサイズとハードウェア要件

GPT-OSSは2種類のサイズで提供されています:gpt-oss-20b(200億パラメータ)とgpt-oss-120b(1200億パラメータ)です。OpenAIはこれらを特別な4.25ビット量子化(MXFP4)で最適化し、メモリ消費を大きく削減しました。この結果、20Bモデルは16GB程度のメモリがあれば動作し、120Bモデルも80GB程度のメモリで動かせます。実際には、20Bモデル用として約16GBのVRAM(またはユニファイドメモリ)が推奨されており、これは高性能な一般向けGPUやAppleシリコンMacに最適です。120Bモデルの場合は、最低でも約60〜80GBのメモリが必要です。

補足: AppleのMシリーズMacはローカルLLM用途で非常に優れており、ユニファイドメモリによりGPUがシステム全体のメモリを活用できます。例えば、32GBユニファイドメモリ搭載MacBookなら20Bモデルを快適に動かせますし、64〜128GBのMac Studioなら120Bモデルにも対応し得ます。WindowsやLinuxでは大容量VRAM搭載(例:24GB RTX 4090)のGPUで20Bモデルが動く一方、120Bモデルは80GB A100や複数GPUによる分散(または超大容量RAMのCPU動作・低速)などが必要です。

Ollamaのインストール

Ollamaは、LLMをローカルで簡単にダウンロード・実行できる無料のオープンソースランタイムです。macOS、Windows、Linuxをサポートしています。導入は以下の通りです。

  • macOS: 公式サイトからOllamaアプリをダウンロードし、インストーラを実行します。これでOllamaのデスクトップ(CLIツールも含む)がインストールされます。

  • Windows: OllamaのサイトからWindows用インストーラをダウンロードし、ウィザードに従ってセットアップします。

  • Linux: 1行コマンドでインストールできます。例えばUbuntuの場合は以下のようにします。

    curl -fsSL https://ollama.com/install.sh | sh

    このスクリプトはOllamaのCLIとサーバーをシステムに導入します。

インストール後は、ターミナルからollamaコマンドが使えるようになります。ollama --versionollamaで導入状況を確認しましょう。ollama pullollama run、**ollama serve**などのサブコマンドが表示されれば成功です。

GPT-OSSモデルのダウンロード

Ollamaのセットアップが完了したら、次はGPT-OSSの重みデータを取得します。OpenAIは20Bおよび120Bモデルを無償で提供しています。Ollamaの組み込みモデルレジストリを通じて入手可能です。モデルの取得方法は「事前ダウンロード」または「最初の実行時に自動取得」の2パターンがあります。

1. 明示的にモデルを取得する(オプション): モデル名を指定してpullコマンドでダウンロードできます。ターミナルで次のように実行してください。

ollama pull gpt-oss:20b    # 20Bモデルのダウンロード(約13〜14GB)
ollama pull gpt-oss:120b   # 120Bモデルのダウンロード(約65GB)

ダウンロードと解凍の進行バーが表示されます。完了後、インストール済みモデルを確認できます。

ollama list

このコマンドでgpt-oss:20bおよびgpt-oss:120bのエントリ(20Bは約13GB、120Bは約65GB・量子化版)が表示されます。

2. ollama runで自動ダウンロード: pullを省略しても問題ありません。初回のollama run gpt-oss:20b実行時に、Ollamaが自動でモデルをダウンロードします。とりあえず使ってみたい場合は、この手順が便利です。

💡 ヒント: 20Bモデルは容量が小さく、ダウンロードも高速なので、まずはこれで動作確認するのがおすすめです。120Bモデルは非常に大きいため、十分なディスク空き容量とダウンロード時間を確保しましょう。Apache 2.0ライセンスのため、これらのウェイトを自分のプロジェクトで利用・ファインチューニングすることも自由です。

OllamaでGPT-OSSを実行する(CLIの使い方)

いよいよモデルを動かして会話してみましょう!Ollamaでは、ターミナル上で即時実行したり、ローカルサービスとして常駐させたりできます。まずはシンプルな対話型CLIから始めます。

1. 対話セッションの開始: ターミナルで20Bモデルを以下のコマンドで実行します。

ollama run gpt-oss:20b

少し待つと(モデルのロードが終わると)、>>>プロンプトが表示され、入力受付状態になります。ここに質問やプロンプトを入力すれば、GPT-OSSが答えてくれます。たとえば、ちょっとした謎解きを頼んだり、長文を要約したりできます。エンターキーを押すと、モデルが**「Thinking…」**(思考中)と表示したのち、詳細な応答を出力します。

例: ollama run gpt-oss:20b実行後、 >>> (入力待機状態) あなた: 「月面着陸の意義を詩的に説明してください。」 (モデルが思考中…) GPT-OSS: 月面着陸は人類全体にとっての大きな一歩でした。夢が月の土に足跡を残した夜の出来事――」(この後も詩的な説明が続きます)

最初の回答は(20BをCPUだけで動かす場合や、ギリギリのGPU環境だと)やや時間がかかるかもしれませんが、モデルが一度ロードされれば、2回目以降は高速に応答します。20Bモデルでも推論や表現力は十分高く、OpenAIのファインチューニングが効いています。より高度なタスク(複雑な推論、プログラム実行など)は120Bモデルの方が強力ですが、要求リソースも増します。

2. 120Bモデルを試す(環境が整っていれば): 高スペックマシンの場合、同じく以下のコマンドで大規模モデルを実行できます。

ollama run gpt-oss:120b

再び対話型プロンプトが起動します。gpt-oss-120bモデルは「最先端」レベルの性能を目指して設計されており、複雑な指示や段階的思考(chain-of-thought)、ツール利用(ウェブリクエスト・コード実行など)まで幅広く対応します。OpenAIによれば、gpt-oss-120bは縮小版のGPT-4に匹敵する性能を持ち、単体のハイエンドGPUやワークステーションでも動作可能です。たとえば複数ステップの問題やツールの指示など、高度なプロンプトにも段階的な推論結果を返してくれます。

3. 終了方法: 対話チャットを終了するには、Ctrl+Cを押すかexitと入力してください。(ollama runの場合はCtrl+Cでモデルが停止します)

4. ollama serveの利用(オプション): モデルを常時メモリ上にロードし、複数回の問い合わせや他アプリケーションからも利用したい場合はollama serveを使いましょう。このコマンドでOllamaサーバーがバックグラウンド起動します。標準でlocalhostのポート(例:localhost:11434)で待ち受けます。以後CLIのollama runで接続できるほか、他のツールやAPIからもGPT-OSSを呼び出せるようになります。

チャットUIを使って快適な対話体験を

ターミナルだけでも操作可能ですが、グラフィカルなチャットUIを使うとやり取りがずっと便利です。幸い、Ollamaと連携できるオープンソースのチャットUIが登場しています。代表例がLobeChatです。これはOllamaのローカルモデルをサポートする、洗練された最新チャットUIです。

  • LobeChat: 複数のAIモデルとチャット可能なオープンソースアプリです。Ollamaサーバーに接続でき、一度ollama serveでGPT-OSSを起動しておけば、LobeChatがフロントエンドとして利用できます。設定画面でOllamaをプロバイダとして選択し、ローカルのGPT-OSSモデルで会話ができます。チャット履歴、プロンプトテンプレートなど、ターミナルにはない便利機能も充実。(LobeChatは音声合成、マルチモーダル入力、プラグインなども対応し、完全なローカル環境でChatGPT風のUXを実現しています)

  • 他のUI選択肢: ローカルLLM向けのUIエコシステムは拡大中です。例えばOpen WebUI(Ollama向けウェブベースUI)やText Generation WebUIなど他のツールもローカルモデルに接続できます。OSSコミュニティによるクロスプラットフォームデスクトップアプリもあり、Ollamaモデルを自動検出するものも登場。これらのセットアップ詳細は本記事の範囲外ですが、コマンドラインだけでなく直観的なチャット体験も簡単に構築できると知っておくと良いでしょう。

チャットUIを使っても、モデルの動作場所自体は変わりません。全てローカル・プライベートで動作しますが、ボタンやテキストボックス、スレッド表示など、AIとのやり取りが格段に直観的になります。ターミナルでもUIでも、GPT-OSSを自身のパーソナルAIアシスタントとして活用できます。

まとめ

本記事では、OpenAIの最新オープンウェイトモデルGPT-OSSの紹介と、Ollamaを使ったローカルデプロイ手順を解説しました。Ollamaランタイムのインストールから、GPT-OSS-20B(およびオプションで120B)のダウンロード、実際に自分のPCでChatGPT風のサービスとして動かす方法を説明しました。また、モデルサイズごとのハードウェア要件(20Bは一般的なPCやMacでもOK、120Bは高度なメモリ・GPUが必要)にも触れました。さらに、LobeChatのようなチャットUIで、より快適にAIと対話できる方法についても紹介しました。

GPT-OSSはローカルAI開発の新時代を切り拓きます。強力な言語モデルを自分のデバイスで試せるだけでなく、カスタマイズや独自アプリへの組み込みも、API等に頼らず自由に実現可能です。しかも、オープンウェイト&Apacheライセンスにより、開発者や研究者が改良・共有しやすい土壌も整っています。Ollamaのようなツールで導入が簡単になった今、120Bパラメータ級モデルを家庭で運用するのも夢物語ではありません。ぜひGPT-OSSでハッキングを楽しんでください!

参考情報: 本記事内の情報やコマンドはOpenAI公式GPT-OSS発表、Ollamaドキュメント、コミュニティガイドに基づいてまとめています。ローカルLLMの世界をぜひ体験してください!