Contents
2026年5月時点の GPT‑4o と GPT‑4 Turbo の公式料金
このセクションでは、OpenAI が公開している最新 API 単価を「入力トークン」と「出力トークン」に分けて示し、どちらのモデルがコスト面で有利かを一目で判断できるようにします。価格は USD / 1,000 トークン(= $ per K)で表記し、2026 年 5 月時点の公式情報に基づいています。
価格表(入力・出力単価とコンテキスト上限)
以下の表は OpenAI の公式料金ページおよび同年 4 月に公開された OpenAI ブログ記事から抜粋したものです。
| モデル | 入力トークン単価 (USD / 1K) | 出力トークン単価 (USD / 1K) | コンテキスト上限 (トークン) |
|---|---|---|---|
| GPT‑4o | 0.005 ($5 / 1M) | 0.015 ($15 / 1M) | 128,000 |
| GPT‑4 Turbo | 0.010 ($10 / 1M) | 0.030 ($30 / 1M) | 128,000 |
出典:OpenAI Pricing(2026/05 更新)[1]、OpenAI Blog – “GPT‑4o and GPT‑4 Turbo pricing update” (2026/04) [2].
結論:入力トークンは GPT‑4o が半額、出力トークンは約 1/3 のコストで利用できます。これが両モデルの基本的な価格優位性です。
トークン消費量と料金計算の仕組み
API 利用時に課金対象になる「入力トークン」と「出力トークン」の正確な数え方と、実際の請求額を導き出す手順を解説します。
トークンとは何か、カウント方法
OpenAI のトークンは文字列を 約 4 バイト(英字・数字)または 1 Unicode 文字 に変換した単位です。日本語の場合は平均で 3〜4 文字が 1 トークンに相当します。公式 Python ライブラリ tiktoken を使えば、モデルごとに正確なトークン数を取得できます。
|
1 2 3 4 5 6 7 8 9 |
import tiktoken def count_tokens(text: str, model: str = "gpt-4o") -> int: enc = tiktoken.encoding_for_model(model) return len(enc.encode(text)) prompt = "こんにちは、今日の天気は?" print(count_tokens(prompt)) # => 7 |
課金ロジックの詳細
- 入力トークン(リクエストに含まれるプロンプト) → 「入力単価」で課金。
- 出力トークン(モデルが生成したテキスト) → 「出力単価」で課金。
- 入力と出力は別々に計算され、合計額が請求されます。
例)1,000 トークンの入力 + 2,000 トークンの出力を GPT‑4o で実行した場合
- 入力コスト = 0.005 USD × 1 = $0.005
- 出力コスト = 0.015 USD × 2 = $0.030
- 合計請求額 = $0.035
ベンチマーク結果と性能指標
価格だけでなく、実運用上重要になるレイテンシ・コンテキスト長・品質スコアを併せて比較します。データは OpenAI が 2026 年 3 月に公開した内部ベンチマークレポートから取得しています[3]。
レイテンシ比較(ミリ秒)
| モデル | 平均レイテンシ (ms) | 95% パーセンタイル |
|---|---|---|
| GPT‑4o | 210 | 320 |
| GPT‑4 Turbo | 180 | 260 |
GPT‑4 Turbo が若干高速ですが、差は数十ミリ秒程度であり、多くの対話型アプリでは実感しにくいレベルです。
コンテキスト長と品質評価
| 項目 | GPT‑4o | GPT‑4 Turbo |
|---|---|---|
| 最大コンテキスト | 128,000 トークン | 128,000 トークン |
| HumanEval 正答率 | 71.2 % | 69.5 % |
| MMLU 平均スコア | 84.3 | 82.7 |
HumanEval の正答率はコード生成タスクにおける代表指標で、GPT‑4o が若干上回っています。
シナリオ別コスト試算
実際のプロダクトで想定されるトークン消費を具体的に計算し、モデルごとの月額コストを比較します。
リアルタイムチャットボット(1 日 10,000 トークン)
前提条件
- 入力 : 出力 = 1 : 2 (例:ユーザー質問 3,333 トークン、システム応答 6,667 トークン)
- 月間トラフィック = 10,000 × 30 ≈ 300,000 トークン(入力 100k、出力 200k)
| モデル | 入力コスト (USD) | 出力コスト (USD) | 合計月額 |
|---|---|---|---|
| GPT‑4o | 0.005 × 100 = $0.50 | 0.015 × 200 = $3.00 | $3.50 |
| GPT‑4 Turbo | 0.010 × 100 = $1.00 | 0.030 × 200 = $6.00 | $7.00 |
ポイント:同等のトラフィックでも GPT‑4o は約半額で運用可能です。
要約サービス(月間 1 M トークン)
前提条件
- 入力 : 出力 = 3 : 1 (長文ドキュメント → 短い要約)
- 月間構成:入力 750,000、出力 250,000
| モデル | 入力コスト (USD) | 出力コスト (USD) | 合計月額 |
|---|---|---|---|
| GPT‑4o | 0.005 × 750 = $3.75 | 0.015 × 250 = $3.75 | $7.50 |
| GPT‑4 Turbo | 0.010 × 750 = $7.50 | 0.030 × 250 = $7.50 | $15.00 |
ポイント:出力が少ない要約タスクでは、GPT‑4o のコスト優位性が顕著です。プロンプトを最適化すれば月額 5 USD 以下に抑えることも可能です。
ボリュームディスカウントとエンタープライズプラン
利用量が増えるほど単価が下がる階層型割引と、企業向けの追加特典を整理します。表は 2026 年 5 月時点で公表されている全モデル共通のディスカウント情報です[4]。
割引階層と計算例
| 月間トークン総量 | 入力割引率 | 出力割引率 |
|---|---|---|
| 0 – 10M | 0 % | 0 % |
| 10M – 100M | 5 % | 5 % |
| >100M | 10 % | 10 % |
計算例:月間 20 M トークン(入力 12 M、出力 8 M)
- 基本料金(割引前)
- 入力: 12 M × $5/1M = $60
- 出力: 8 M × $15/1M = $120
-
合計 = $180
-
適用ディスカウント(5 %)
-
ディスカウント額 = $180 × 0.05 = $9
-
最終請求額
- $171
エンタープライズ契約では、上記割引に加えて 15 % の追加割引 + SLA(99.9 % 稼働保証) + 専任サポート が提供されます。したがって同条件でエンタープライズプランを選択すると、最終額は $171 × 0.85 ≈ $145.35 となります。
モデル選定ガイド
コスト・レイテンシ・品質の三要素を軸に、代表的なユースケースごとに最適モデルを提示します。
ユースケース別推奨モデル
| シナリオ | 推奨モデル | 主な理由 |
|---|---|---|
| 音声・画像入力を伴うマルチモーダルチャット | GPT‑4o | マルチモーダル対応、低コスト |
| 1 秒未満の応答が必要なゲーム AI | GPT‑4 Turbo | 若干速いレイテンシと高スループット |
| 大量テキスト生成(ニュース自動作成) | GPT‑4 Turbo | 高同時リクエスト数に強く、割引効果が大きい |
| 高精度コード補完・評価 | GPT‑4o | HumanEval 正答率が最上位 |
API でのモデル切替方法と予算管理ポイント
API リクエストごとに "model" パラメータを変更するだけで簡単に切り替えられます。混在利用時は OpenAI Dashboard の Usage Report でモデル別消費量を確認し、予算アラートを設定しましょう。
|
1 2 3 4 5 6 7 8 |
POST https://api.openai.com/v1/chat/completions { "model": "gpt-4o", // ← "gpt-4-turbo" に変更すれば切替完了 "messages": [{ "role": "user", "content": "..." }], "max_tokens": 2048, "temperature": 0.7 } |
注意点
- 切替は過去のトークン消費には遡及しません。
- プロジェクト全体で予算上限を設定する場合は、Organization → Settings → Billing から月間上限を設けることが可能です。
GPT‑3.5 Turbo との価格・性能比較
| 項目 | GPT‑3.5 Turbo | GPT‑4o | GPT‑4 Turbo |
|---|---|---|---|
| 入力単価 (USD/1K) | 0.0015 | 0.005 | 0.010 |
| 出力単価 (USD/1K) | 0.002 | 0.015 | 0.030 |
| 最大コンテキスト (トークン) | 16,385 | 128,000 | 128,000 |
| HumanEval 正答率 | 49 % | 71 % | 69 % |
| 平均レイテンシ (ms) | 150 | 210 | 180 |
GPT‑3.5 Turbo は最も安価ですが、コンテキスト長と品質で大きく劣ります。要件が「大量トークン」か「高精度」かで選択肢を絞ると良いでしょう。
まとめ
- 価格:GPT‑4o は入力・出力ともに約半額〜1/3 のコストで提供され、ボリュームディスカウントでも有利です。
- 性能:レイテンシ差は僅か(数十 ms)ですが、HumanEval などの品質指標では GPT‑4o が最上位です。
- ユースケース:マルチモーダル対話やコード補完は GPT‑4o、大量高速生成は GPT‑4 Turbo が適しています。
- 割引制度:10 M トークン超過で 5 % 割引、100 M 超過で 10 % 割引。エンタープライズ契約では最大 15 % の追加割引と SLA が利用可能です。
これらの情報を基に、プロジェクトの要件(コスト上限・レイテンシ要求・品質目標)に最も合致したモデル を選択してください。
脚注
- OpenAI Pricing (2026/05) – https://openai.com/pricing
- OpenAI Blog – “GPT‑4o and GPT‑4 Turbo pricing update” (2026/04) – https://openai.com/blog/gpt-4o-turbo-pricing
- OpenAI Research – “GPT‑4 performance benchmark 2026” (2026/03) – https://openai.com/research/gpt4-benchmark-2026
- OpenAI Pricing – Volume Discounts section (2026/05) – https://openai.com/pricing#volume-discounts