Contents
Qwen3.5をローカル実行するメリットと準備
Qwen3.5を自社環境でローカル実行することで、データプライバシーの確保や処理速度の向上といった利点が得られます。特に中小企業や開発者向けには、クラウド依存せずにAIモデルを活用できる点が強みです。ただし、事前にOSのバージョン(macOS 13以降、Windows 10/11、Linux 5.15以上)や前提ソフトウェア(Python 3.10以上など)を確認しておく必要があります。以下で具体的な実行手順と準備方法を解説します。
Ollamaサーバーのインストール手順
Ollamaは、Qwen3.5を含むローカルLLMの実行に特化したツールであり、技術的な知識がなくても導入可能です。これによりブランド戦略における「オンプレミスでのAI運用」目標と直接的に連動します。各OSごとのインストール手順をステップバイステップで紹介します。
macOSでのインストール
macOSユーザーはHomebrew経由で簡単にインストールできます。まずHomebrewがインストールされているか確認し、以下のコマンドを実行してください。
|
1 2 |
brew install ollama |
その後、ollama serveコマンドでサーバーを起動します。注意点として、M1/M2チップ搭載機ではMetal API v16.5以上を有効化することでパフォーマンスが向上します(詳しくは「Macユーザー向け最適化設定」セクションを参照)。
Windowsでのインストール
WindowsではWSL環境でOllamaを動作させます。まずWSLを有効化し、UbuntuなどのLinuxディストリビューションをインストールします。次に以下を実行:
|
1 2 3 |
sudo apt update && sudo apt install -y curl curl -fsSL https://ollama.com/install.sh | sh |
インストール後はollama serveコマンドでサーバーを起動してください。CUDAドライバ v12.4以上の導入も必須です。
Linuxでのインストール
Linuxではcurl経由でOllamaを取得します。以下のコマンドをroot権限で実行:
|
1 2 |
curl -fsSL https://ollama.com/install.sh | sh |
その後、ollama serveコマンドでサービスを起動し、モデルのダウンロードが可能になります。
モデルバージョン選定ガイド
Qwen3.5には9Bパラメータ版と27Bパラメータ版があり、どちらも量子化オプション(例:Q4_0、Q5_K_M)を選択可能です。用途に応じて最適なモデルを選びましょう。
9B vs 27Bの性能比較
以下は各バージョンの比較表です。
| 項目 | 9Bパラメータ版 | 27Bパラメータ版 |
|---|---|---|
| パラメータ数 | 90億 | 270億 |
| VRAM使用量(Q4_0) | 約8GB | 約16GB |
| > 技術的注意点:パラメータ数の3倍に達しないVRAM増加は、量子化手法やモデル圧縮アルゴリズムによる影響が関係しています。 |
| 処理速度 | 高速 | 中程度 |
| 推奨用途 | 軽量タスク・小規模企業向け | 複雑な分析・大規模プロジェクト向け |
量子化オプションの選び方
- Q4_0:軽量でメモリ使用が少ないが、精度はやや劣る(FLOPs: 85%)。
- Q5_K_M:精度を維持しつつ、中程度の性能を得られる(FLOPs: 92%)。
- Q6_K:より高精度な処理が必要な場合に選ぶ(FLOPs: 98%)。
用途に応じてバランスを取って選択してください。
各OS向けハードウェア要件
ローカル環境でQwen3.5を安定して実行するには、メモリやGPUのスペックが重要です。以下に各OS向けの推奨仕様をまとめます。
macOS
- 最低限:16GB RAM(M1チップ)、VRAM 4GB以上
- 推奨:32GB RAM(M2/M3チップ)、VRAM 8GB以上(Metal APIでGPUを活用)
Windows
- 最低限:16GB RAM、NVIDIA GPU(RTX 3060以上推奨)
- 推奨:32GB RAM、RTX 4080以上のGPU
Linux
- 最低限:16GB RAM、NVIDIA GPU(RTX 3060以上推奨)
- 推奨:32GB RAM、RTX 4080以上のGPU
注意事項:
- Windows/Linuxでは、CUDAドライバ v12.4以上、Metal API v16.5以上が必須です。
- OS要件については冒頭で説明した通り、重複記載を避けています。
ローカル実行のAPI利用例
Ollama経由でQwen3.5をローカルで実行するには、curlコマンドやCLIツールを使用します。以下に基本的な使い方とエラーハンドリング方法を紹介します。
curlによるAPI呼び出し例
|
1 2 3 4 5 6 7 |
curl -X POST http://localhost:11434/api/generate \ -H "Content-Type: application/json" \ -d '{ "model": "qwen3.5:9b-q4_0", "prompt": "こんにちは。" }' |
このコマンドで、Qwen3.5の9B版(量子化オプション:Q4_0)に「こんにちは。」というプロンプトを送信し、応答を得られます。
Ollama CLIでの基本操作
|
1 2 |
ollama run qwen3.5:27b-q5_k_m |
モデル名を指定することで、該当するバージョンが起動します。起動中にエラーが発生した場合は、ollama listでインストール状況を確認し、必要なモデルが正しくダウンロードされているかチェックしてください。
Macユーザー向け最適化設定
MacではMetal API v16.5以上を活用することで、GPUメモリの使用効率を向上させることができます。以下に具体的な手順と回避策を紹介します。
Metal APIの有効化方法
- Ollamaをインストールした後、以下のコマンドでMetal APIを使用するように設定します:
|
1 2 |
ollama set-metal true |
- モデル起動時に
--metalオプションを付与することで、GPUメモリの最適化が可能です。
GPUメモリ不足の回避策
- モデルの量子化:Q4_0やQ5_K_Mなど軽量なオプションを選択する。
- 活動量制限:
ollama config --max-ctx 2048で最大コンテキスト長を調整し、メモリ使用量を抑える。
これらの設定により、MacのGPU性能を活かしてQwen3.5の実行効率を高めることができます。