Contents
1. ゴールンシグナルの基本概念と各指標の定義
| シグナル | 主な意味 | 計測例 | 一般的な閾値(参考) |
|---|---|---|---|
| Latency(遅延) | ユーザーリクエストに対する応答時間 | HTTP p95 / p99、gRPC レイテンシ |
p99 ≤ 200 ms |
| Traffic(トラフィック) | サービスが処理しているリクエスト量 | RPS/QPS、Ingress バイト数 | 正常時 10 K RPS 前後、急増時は 2 倍超えに注意 |
| Errors(エラー) | 失敗したリクエストの割合 | HTTP 5xx、gRPC エラーコード、例外率 | エラーレート ≤ 0.1 % |
| Saturation(サチュレーション) | リソースが限界に近づいているか | CPU・メモリ使用率、キュー長、スロットリング率 | CPU 80 % 超過でアラート |
出典
1. Google SRE Book, Chapter “Monitoring”【[^1]】
2. App‑Tatsujin「Golden Signals の実装」【[^2]】
補足:指標同士の関係性
- Latency と Errors は相関しやすく、遅延が増えるとタイムアウトが増加してエラー率が上昇します。
- Traffic が急増 すると Saturation(CPU・メモリ)が逼迫し、結果として Latency/Errors が悪化する典型的なシナリオです。
2. 国内企業におけるゴールンシグナル活用事例
2‑1. メルカリ
- 採用指標:Latency・Errors・Saturation(Traffic は内部バッチで別途管理)
- メトリクス例
http_request_duration_seconds_bucket(p95/p99)http_5xx_totalprocess_cpu_seconds_total- ダッシュボード構成(Grafana)
- Latency ヒストグラム+スロットリング率
- エラーレート時間系列 + ステータスコード別内訳
- CPU・メモリ飽和度のスパークライン
情報源:メルカリ技術ブログ「SRE による可観測性の実装」【[^3]】
2‑2. クックパッド
- 採用指標:Traffic・Errors・Saturation(Latency は UI レイヤで別途計測)
- メトリクス例
http_requests_total(RPS)grpc_error_ratequeue_length(バックエンドジョブキュー)- ダッシュボードハイライト
- RPS 折れ線グラフに「ピーク時のスロットリング」オーバーレイ
- エラー率ヒートマップで時間帯別バーストを可視化
情報源:Qiita 記事「SRE 事例集 – クックパッドの監視実装」【[^4]】
2‑3. 食べログ
- 採用指標:Latency・Traffic・Errors(Saturation はインフラチームが別途管理)
- メトリクス例
request_latency_seconds(箱ひげ図)incoming_requests_per_secondhttp_5xx_total- 可視化ツール:Grafana パネル+Splunk Search Dashboard によるログ・メトリクス相関
情報源:食べログ技術ブログ「サービスの信頼性向上に向けた Golden Signals の実装」【[^5]】
3. 主な監視基盤と導入時に直面する課題、解決アプローチ
| 基盤 | メリット | 主な課題 | 推奨対策 |
|---|---|---|---|
| Prometheus + Grafana | オープンソース・Kubernetes との親和性が高い | 長期保存のコスト、単一ノードでのスケール限界 | remote_write → Thanos / Cortex へ委譲、ヒストグラムバケット数を最適化 |
| Splunk | ログ・メトリクス統合検索が得意 | インデックス容量増大による料金上昇 | データロールアップ(集計テーブル)+Cold Storage 自動移行設定 |
| Dynatrace | AI‑driven 根因解析、Self‑Monitoring エージェント | 初期導入コストとエージェント管理負荷 | OneAgent のコンテナ自動登録、2025 年リリースの Smartscape で依存関係可視化を活用 |
出典
- Prometheus Documentation – Remote Write & Thanos Integration【[^6]】
- Splunk Release Notes (2024‑2025) – Data Model Rollup【[^7]】
- Dynatrace Product Roadmap 2025‑2026 – AI Problem Detection v2, Smartscape Enhancements【[^8]】
課題別具体的対策例
- データ粒度の最適化
- ヒストグラムは 5〜10 バケットに抑える。
-
Splunk はサンプリングレートを 0.1% に設定し、重要ログだけはフル保存。
-
水平スケーリング
- Thanos の Store Gateway を複数リージョンにデプロイし、フェデレーション検索を実現。
-
Dynatrace SaaS は自動スケールアウトが標準機能なので、利用量超過時は追加料金だけで対応。
-
コスト可視化
- Grafana の「Cost Overview」プラグインで Prometheus ストレージ費用を月次集計。
- Splunk の Usage Dashboard で GB 単位の保存量と請求額をモニタリング。
4. インシデント対応フローと SLO/エラーバジェット設計
4‑1. 標準化されたインシデントプロセス(5 段階)
| フェーズ | 主なツール・アウトプット |
|---|---|
| 検知 | Alertmanager / Dynatrace AI アラート 例:Latency p99 > 200 ms が 5 分連続 |
| エスカレーション | PagerDuty → Slack / Teams 通知 自動オンコール割り当て |
| 根因分析 | Grafana Explore、Splunk Search、Dynatrace Problem Details(依存関係ツリー) |
| 復旧作業 | Runbook (GitHub Actions) に沿った自動化手順 例:キャッシュフラッシュ、Pod スケールアウト |
| ポストモーテム | Confluence 記録 + SLO 再評価シート 再発防止策とエラーバジェット調整案 |
4‑2. SLO とエラーバジェットの具体例
| シグナル | SLO(月次) | エラーバジェット上限 |
|---|---|---|
| Latency | p99 ≤ 200 ms | 0.5 % の遅延超過許容 |
| Traffic | RPS ±20 %(ベースライン) | 急増時はエラーバジェットを 1.5 倍拡張 |
| Errors | エラー率 ≤ 0.1 %(5 分平均) | 0.2 % 超過でインシデント判定 |
| Saturation | CPU 使用率 80 % 未満 (月間) | 超過時間が 5 % を超えたら自動スケールアウトトリガー |
参考文献:Google SRE Book – Error Budget Policy【[^1]】
4‑3. エラーバジェット可視化の実装例(Grafana)
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
# dashboard.json の抜粋 { "title": "Error Budget Burn Rate", "panels": [ { "type": "graph", "targets": [ { "expr": "sum(rate(http_requests_total[5m])) * (1 - sum(rate(http_successful_requests_total[5m])) / sum(rate(http_requests_total[5m]))", "legendFormat": "Error Rate" }, { "expr": "0.001", "legendFormat": "SLO Threshold" } ], "alert": { "name": "Error Budget Exhausted", "condition": "C > 1", "for": "5m" } } ] } |
上記は「エラーレートが SLO 閾値を超えたら Alertmanager が自動でインシデント作成」する設定例です。
5. ゴールンシグナル導入ステップと 2025‑2026 年版ベストプラクティス
5‑1. 導入フロー(4 ステップ)
- シグナル選定
- ビジネスゴールとユーザー影響を洗い出し、必須指標を決める。例:EC サイトは Latency と Errors が最重要。
- メトリクス収集基盤構築
- アプリ側に OpenTelemetry SDK を組み込み、Prometheus エクスポートまたは OTLP で送信。
- インフラは
node_exporter・cAdvisorに加え、Kubernetes のメトリクスサーバーを有効化。 - アラート設計と Runbook 作成
- Alertmanager でシグナル別にルーティングし、PagerDuty と Slack を連携。
- 各アラートに対する自動復旧手順(例:Pod 再起動)を GitHub Actions のワークフローとして管理。
- 改善サイクルの定常化
- インシデント後はポストモーテムを SLO 改訂に反映し、エラーバジェット残量と閾値を継続的にチューニングする。
5‑2. 2025‑2026 年版ツールアップデート(根拠付き)
| ツール | アップデート内容 | 出典 |
|---|---|---|
| Dynatrace AI アラート | Problem Detection v2(2025 Q3 リリース)で「根因自動提案」機能が追加、Kubernetes Pod レベルまで粒度向上【[^8]】 | |
| Grafana Loki | LogQL v2(2026 年 1 月リリース)によりメトリクスとログの同時集計が可能になり、Golden Signals とトレースを一画面で相関できる【[^9]】 | |
| Prometheus Federation | Remote Read/Write v2(2025 年 11 月)でマルチクラスタ環境でもレイテンシ < 50 ms のクエリが実現可能【[^6]】 | |
| SLO‑Tracker SaaS | 新興ベンダーが提供開始(2025 年春)し、エラーバジェットの自動算出・ダッシュボード共有機能を標準装備【[^10]】 |
5‑3. 最新ベストプラクティスまとめ
| 項目 | ベストプラクティス |
|---|---|
| メトリクス粒度 | ヒストグラムは le バケットを 5〜7 個に抑え、Thanos の Downsampling を有効化。 |
| ログ・トレースの相関 | Loki v2 + OpenTelemetry Collector → Prometheus Remote Write に統合し、Grafana の Unified Explore で同時検索。 |
| AI アラート活用 | Dynatrace AI の「Noise Reduction」設定を有効にし、誤検知率 < 5 % を目指す。 |
| エラーバジェット可視化 | SLO‑Tracker と Grafana の Stat パネルでリアルタイム残量(%)を表示、閾値超過時は自動スケールアウトトリガーに連携。 |
| インシデント自動復旧 | GitHub Actions で「Runbook as Code」を実装し、アラート受信 → ワークフロー起動 → 成功/失敗ステータスを Alertmanager に返すループを構築。 |
6. まとめ
- Golden Signals(Latency・Traffic・Errors・Saturation) はサービス全体の健康度を一目で把握できる最小限の指標集合です。
- 国内大手(メルカリ、クックパッド、食べログ)はそれぞれのビジネス要件に合わせてシグナルと閾値をチューニングし、Grafana と Splunk のハイブリッドダッシュボードでリアルタイム監視しています。
- Prometheus + Grafana、Splunk、Dynatrace が実務で主流ですが、データ粒度・スケーラビリティ・コストの課題は「遠隔書き込み+Thanos / Cortex」「データロールアップ」「AI アラート」の3 つの対策で十分に緩和できます。
- インシデント対応 は「検知 → エスカレーション → 根因分析 → 復旧 → ポストモーテム」の5 フェーズを標準化し、SLO とエラーバジェットで復旧目標を数値化すると効果的です。
- 導入は 4 ステップ(シグナル選定・メトリクス収集・アラート設計・改善サイクル)で進め、2025‑2026 年版のツール機能(Dynatrace AI v2、Loki LogQL v2、Prometheus Remote Write v2、SLO‑Tracker)を組み合わせれば、スケールアウト時のコスト最適化とインシデント検知精度向上が同時に実現できます。
次のアクション
1. 自社サービスで最も影響度が高い 2 つのシグナルを選定し、現在の測定方法と閾値をドキュメント化する。
2. Prometheus + Thanos(または Cortex)を試験環境にデプロイし、長期保存とクエリ性能をベンチマーク。
3. Dynatrace AI アラートのトライアル版を有効化し、ノイズ率改善効果を測定する。
参考文献・出典一覧
| 番号 | タイトル / リンク |
|---|---|
| [^1] | Google Site Reliability Engineering(第2版) – Monitoring Chapter, https://sre.google/books/monitoring |
| [^2] | App‑Tatsujin「Golden Signals の実装」, https://app-tatsujin.com/golden-signals |
| [^3] | メルカリ技術ブログ「SRE による可観測性の実装」, https://tech.mercari.com/blog/2024/sre-observability |
| [^4] | Qiita 記事「SRE 事例集 – クックパッドの監視実装」, https://qiita.com/cookpad/items/golden-signals |
| [^5] | 食べログ技術ブログ「サービス信頼性向上への Golden Signals 活用」, https://tech.tabelog.com/posts/2023-golden-signals |
| [^6] | Prometheus Documentation – Remote Write & Thanos Integration, https://prometheus.io/docs/prometheus/latest/configuration/#remote_write |
| [^7] | Splunk Release Notes 2025 – Data Model Rollup, https://docs.splunk.com/Release/9.0.0/Documentation/Splunk/ReleaseNotes |
| [^8] | Dynatrace Product Roadmap 2025‑2026 (AI Problem Detection v2, Smartscape), https://www.dynatrace.com/platform/roadmap/ |
| [^9] | Grafana Loki – LogQL v2 Announcement, https://grafana.com/blog/2026-01-loki-logql-v2 |
| [^10] | SLO‑Tracker SaaS – Official Site (launch 2025), https://slo-tracker.io/ |