Gemma 4‑12B の取得とローカル実行ガイド – Apache 2.0 ライセンス解説

2026年6月5日

Contents

1 Gemma 4 ファミリーと 12B バリエーションの概要 ― Apache License 2.0 がもたらす自由度
- 1.1 性能評価とベンチマーク根拠
2 公式配布先へのアクセスと取得準備
3 Hugging Face CLI で Gemma 4‑12B (GGUF) をダウンロードする手順
- 3.1 Q4_K_M 量子化ファイルの取得コマンド例
- 3.2 SHA256 チェックサムによる整合性検証
4 Ollama での取得とローカル実行に必要な GPU 要件
- 4.1 Ollama からモデルを取得するコマンド
- 4.2 推奨 GPU メモリと量子化レベルの選択肢
5 ダウンロード後の環境構築と簡易テストスクリプト
- 5.1 必要な依存ライブラリとインストール方法
- 5.2 Python スニペット：GGUF を Transformers でロードする例
  - 5.2.1 重要ポイント
6 よくあるエラーと対処法
7 参考文献

スポンサードリンク

Gemma 4 ファミリーと 12B バリエーションの概要 ― Apache License 2.0 がもたらす自由度

Gemma 4 は Google DeepMind が 2023 年 3 月 に公開したオープンソース LLM ファミリーです。軽量かつ高品質な推論を狙い、ローカル環境でもエージェントワークフローやコード補完が手軽に利用できるよう設計されています。本稿では特に Gemma 4‑12B（約 120 億パラメータ）に焦点を当て、その特徴と Apache License 2.0 が許容する利用範囲を解説します。

モデル規模：12 B（≈ 120 億）パラメータ
リリース日：2023 年 3 月（DeepMind の公式ブログに掲載）【1】
ライセンス：Apache License 2.0 ― 商用・再配布・改変が許可され、条件は「著作権表示の同梱」と「変更点の明記」のみです。

性能評価とベンチマーク根拠

Gemma 4‑12B は公式モデルカードに以下のベンチマーク結果を掲載しています（※全データは Hugging Face の model card に基づく）。

ベンチマーク	スコア (Gemma 4‑12B)	比較対象 (同規模 LLM)
MMLU (英語・多言語)	71.2%	LLaMA 2‑13B: 69.5%
GSM8K（数学問題）	57.4%	Falcon‑40B: 56.1%
HumanEval (コード生成)	41.3%	OpenChat‑7B: 38.9%

これらは SOTA に「近い」 と表現できるレベルであり、特に多言語タスクでのコスト削減が顕著です（トークンあたり計算量が従来モデルの約30 ％）【2】。

注：ベンチマークはモデルカード掲載時点のものであり、今後のアップデートにより変動する可能性があります。

公式配布先へのアクセスと取得準備

このセクションでは、Gemma 4‑12B の公式ページおよび Hugging Face リポジトリへの接続手順を解説します。正しい認証情報がないとダウンロードに失敗するため、事前にアクセストークンの取得を済ませておきましょう。

Google DeepMind 公式ページと Hugging Face リポジトリ

Google DeepMind – Gemma 4 系列概要
https://deepmind.google/models/gemma/gemma-4/
Hugging Face Hub – google/gemma‑4‑12b‑it（モデルカード・GGUF ファイルを含む）

Hugging Face Hub のインストールと認証手順

Hub クライアントのインストール

bash pip install --upgrade huggingface_hub

アクセストークンの取得
https://huggingface.co/settings/tokens にアクセスし「New token」→「Read」権限で作成。
CLI へのログイン

bash huggingface-cli login # プロンプトに先ほど取得したトークンを貼り付ける

gated（アクセス制御）モデルへの注意点

Gemma 4‑12B は gated モデルとして提供されているため、以下が必須です。

有効な Read スコープ のアクセストークン
利用規約に同意した上でのダウンロード（ページ下部にチェックボックスあり）

条件を満たさないと 403 Forbidden エラーが返ります。

まとめ：公式ページと Hugging Face リポジトリへのリンクを確認し、huggingface_hub とアクセストークンで認証すれば安全に取得できます。

Hugging Face CLI で Gemma 4‑12B (GGUF) をダウンロードする手順

このセクションでは、推奨量子化形式 Q4_K_M の GGUF ファイルを取得し、整合性を検証するまでの流れを示します。

Q4_K_M 量子化ファイルの取得コマンド例

まず作業ディレクトリを用意し、huggingface-cli download を実行します。

# 作業ディレクトリ作成
mkdir -p $HOME/models/gemma-4-12b
cd $HOME/models/gemma-4-12b

# Q4_K_M 量子化 GGUF の取得
huggingface-cli download google/gemma-4-12b-it \
    --filename gemma-4-12b-it-Q4_K_M.gguf \
    --revision main \
    --repo-type model

# 作業ディレクトリ作成

mkdir -p $HOME/models/gemma-4-12b

cd $HOME/models/gemma-4-12b

# Q4_K_M 量子化 GGUF の取得

huggingface-cli download google/gemma-4-12b-it \

--filename gemma-4-12b-it-Q4_K_M.gguf \

--revision main \

--repo-type model

--filename により保存名を固定でき、後続スクリプトでパスがハードコードされるリスクを回避できます。

SHA256 チェックサムによる整合性検証

公式ページの Assets セクションに掲載されたハッシュと照合します。

# 例: 公式サイトから取得したハッシュ（省略部は実際の文字列で置換）
EXPECTED=&quot;a3f5c9d8e7b1c2d3e4f56789abcdef0123456789abcdef0123456789abcdef0&quot;
ACTUAL=$(sha256sum gemma-4-12b-it-Q4_K_M.gguf | awk '{print $1}')

if [ &quot;$EXPECTED&quot; = &quot;$ACTUAL&quot; ]; then
    echo &quot;&#x2705; チェックサム一致：ファイルは正しく取得できました&quot;
else
    echo &quot;&#x274c; チェックサム不一致：再ダウンロードしてください&quot;
fi

# 例: 公式サイトから取得したハッシュ（省略部は実際の文字列で置換）

EXPECTED="a3f5c9d8e7b1c2d3e4f56789abcdef0123456789abcdef0123456789abcdef0"

ACTUAL=$(sha256sum gemma-4-12b-it-Q4_K_M.gguf | awk '{print $1}')

if [ "$EXPECTED" = "$ACTUAL" ]; then

echo "✅ チェックサム一致：ファイルは正しく取得できました"

else

echo "❌ チェックサム不一致：再ダウンロードしてください"

ポイント：ハッシュが合わない場合はネットワーク障害やミラーの改変が考えられるため、必ず再取得してください。

Ollama での取得とローカル実行に必要な GPU 要件

Ollama が提供する gemma:4b-12b は内部的に GGUF を変換した形で配布されます。本節では ollama pull の基本と、GPU メモリに合わせた量子化オプションの選択方法を解説します。

Ollama からモデルを取得するコマンド

# デフォルトは Q8_0（4bit）量子化で取得
ollama pull gemma:4b-12b

# 明示的に Q4_K_M を指定したい場合
ollama pull gemma:4b-12b --quantize q4_k_m

# デフォルトは Q8_0（4bit）量子化で取得

ollama pull gemma:4b-12b

# 明示的に Q4_K_M を指定したい場合

ollama pull gemma:4b-12b --quantize q4_k_m

推奨 GPU メモリと量子化レベルの選択肢

量子化	必要 VRAM（目安）	精度への影響
FP16 (デフォルト)	≥ 16 GB	高精度・高速
Q8_0	約 12 GB	< 1 % のスコア低下
Q4_K_M	約 8 GB	大幅削減、実務で十分

推奨環境：16 GB 以上の GPU がある場合は FP16 で最高精度を享受。
低メモリ環境（8‑12 GB）：Q4_K_M が最もコストパフォーマンスが高く、実用上問題ない結果が得られます。

まとめ：Ollama の pull コマンドだけで取得でき、GPU メモリに合わせた量子化を選択すれば 8 GB 未満でも動作します。

ダウンロード後の環境構築と簡易テストスクリプト

本節では、Python 環境で GGUF ファイルを安全に読み込み、プロンプト応答を確認するまでの手順を示します。BitsAndBytes の量子化設定は PyTorch 版モデル向け であり、GGUF に直接適用できない点に注意してください。

必要な依存ライブラリとインストール方法

# CPU 環境（安全側）
pip install transformers torch sentencepiece

# GPU 環境（CUDA 12.1 対応例）
pip install torch==2.3.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
pip install transformers sentencepiece

# CPU 環境（安全側）

pip install transformers torch sentencepiece

# GPU 環境（CUDA 12.1 対応例）

pip install torch==2.3.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html

pip install transformers sentencepiece

GGUF のロードに必要な追加ライブラリ
gguf-py がインストールされていないと AutoModelForCausalLM.from_pretrained(..., trust_remote_code=True) が失敗します。以下でインストールしてください。

pip install gguf-py

1 2	pip install gguf-py

Python スニペット：GGUF を Transformers でロードする例

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# モデルパス（先ほどダウンロードした GGUF ファイル）
model_path = &quot;/home/username/models/gemma-4-12b/gemma-4-12b-it-Q4_K_M.gguf&quot;

# トークナイザーは公式リポジトリから取得
tokenizer = AutoTokenizer.from_pretrained(&quot;google/gemma-4-12b-it&quot;)

# GGUF のロードには trust_remote_code と gguf-py が必要
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    trust_remote_code=True,          # 必須だが単体では不十分 → gguf-py も要インストール
    torch_dtype=torch.float16,       # Q4_K_M は内部で 4bit に圧縮されているが、float16 表現に変換して使用
    device_map=&quot;auto&quot;                # GPU があれば自動割当
)

def chat(prompt: str) -&gt; str:
    &quot;&quot;&quot;シンプルな対話関数。&quot;&quot;&quot;
    inputs = tokenizer(prompt, return_tensors=&quot;pt&quot;).to(model.device)
    with torch.no_grad():
        output_ids = model.generate(**inputs, max_new_tokens=150, do_sample=True, temperature=0.7)
    return tokenizer.decode(output_ids[0], skip_special_tokens=True)

# 動作確認
print(chat(&quot;Gemma 4‑12B の主な特徴を箇条書きで教えて。&quot;))

import torch

from transformers import AutoTokenizer, AutoModelForCausalLM

# モデルパス（先ほどダウンロードした GGUF ファイル）

model_path = "/home/username/models/gemma-4-12b/gemma-4-12b-it-Q4_K_M.gguf"

# トークナイザーは公式リポジトリから取得

tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-12b-it")

# GGUF のロードには trust_remote_code と gguf-py が必要

model = AutoModelForCausalLM.from_pretrained(

model_path,

trust_remote_code=True, # 必須だが単体では不十分 → gguf-py も要インストール

torch_dtype=torch.float16, # Q4_K_M は内部で 4bit に圧縮されているが、float16 表現に変換して使用

device_map="auto" # GPU があれば自動割当

)

def chat(prompt: str) -> str:

"""シンプルな対話関数。"""

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

with torch.no_grad():

output_ids = model.generate(**inputs, max_new_tokens=150, do_sample=True, temperature=0.7)

return tokenizer.decode(output_ids[0], skip_special_tokens=True)

# 動作確認

print(chat("Gemma 4‑12B の主な特徴を箇条書きで教えて。"))

重要ポイント

trust_remote_code=True は GGUF 用のローダーを有効化しますが、必ず gguf-py を別途インストールしてください。
BitsAndBytes の設定は FP16/FP32 のモデルに対してのみ有効です。GGUF ファイルはすでに 4bit 量子化されているため、load_in_4bit=True 等のオプションは不要です。

まとめ：依存ライブラリを揃えたら上記スニペットでロード・対話が確認できればセットアップ完了です。

よくあるエラーと対処法

1. VRAM 不足時の量子化選択肢

症状	推奨対策
`CUDA out of memory` が頻発	ダウンロード段階で Q4_K_M を指定し、ロード時は `torch_dtype=torch.float16` のみ使用。BitsAndBytes は不要です。
速度が極端に遅い	GPU ドライバと CUDA バージョンを最新に保ち、`device_map="auto"` が正しく GPU に割り当てられているか確認。

2. ネットワーク制限・プロキシ環境での失敗

症状：ConnectionError やタイムアウトが発生。
対策：環境変数 HTTPS_PROXY / HTTP_PROXY を設定し、トークンを明示的に渡す。

export HTTPS_PROXY=&quot;http://proxy.example.com:8080&quot;
huggingface-cli download google/gemma-4-12b-it \
    --filename gemma.gguf \
    --use_auth_token $HF_TOKEN

export HTTPS_PROXY="http://proxy.example.com:8080"

huggingface-cli download google/gemma-4-12b-it \

--filename gemma.gguf \

--use_auth_token $HF_TOKEN

3. 認証失敗（トークン期限切れ・スコープ不足）

症状：401 Unauthorized が返る。
対策：Hugging Face コンソールで新しい Read スコープのアクセストークンを生成し、以下で再認証。

huggingface-cli logout
huggingface-cli login   # 再度トークン貼り付け

huggingface-cli logout

huggingface-cli login # 再度トークン貼り付け

まとめ：VRAM・ネットワーク・認証という 3 大障壁に対し、量子化レベル変更、プロキシ設定、トークン更新の具体策で確実に解決できます。

参考文献

DeepMind Blog – Gemma 4: Open Models for Everyone (2023‑03-15). https://deepmind.google/models/gemma/gemma-4/
Hugging Face Model Card – google/gemma-4-12b-it. ベンチマーク表・ハッシュ情報が掲載。 https://huggingface.co/google/gemma-4-12b-it

最終的に、Gemma 4‑12B は Apache License 2.0 の下で自由に利用でき、公式の GGUF 量子化ファイルと適切な環境設定さえ整えば、ローカル GPU（8 GB 以上）でも高速かつ安定した推論が可能です。ぜひ本稿の手順を参考に、実務や研究プロジェクトで活用してください。