SRE

SREメトリクスとFour Golden Signalsの最新解釈・実装ガイド(2025‑2026年版)

ⓘ本ページはプロモーションが含まれています

お得なお知らせ

スポンサードリンク
まず1社、面談枠を押さえる

エンジニアの次のキャリア、30分で動き出す

正社員転職・フリーランス独立、どちらも「最初の1社登録」がスピードを決めます。無料面談で年収相場と求人を一気に把握。

Tamesy|未経験〜第二新卒の転職▶ エンジニアファクトリー|フリーランス案件▶

▶ 学習からスタートしたい方はEnjoy Tech! もチェック。


スポンサードリンク

Four Golden Signals の最新解釈(2025 年版)

本セクションでは、Four Golden Signals が 2025 年においても可観測性の核であることを示し、各シグナルとビジネスインパクトの結びつきを簡潔に整理します。
なぜ重要か:4 つの指標は最小限のメトリクスでサービス全体の健全性を把握でき、監視コストと信頼性向上のバランスを取るための出発点となります。
結論:Golden Signals は「顧客体験 ⇔ SLO 設定」の橋渡しとして活用すべきです(Splunk 解説)。


1. レイテンシ

レイテンシは エンドツーエンドの応答時間 を示し、ユーザー体感速度に直結します。
- 測定対象:HTTP リクエスト遅延、DB クエリ時間、外部 API 呼び出しなど。
- 推奨閾値:p99 latency < 0.2 秒(200 ms)。

計算例(SLO 達成度)

[
\text{ErrorBudget} = (1 - \text{SLO}) \times T
]

たとえば SLO が 99.9%((T = 30) 日)であれば、エラーバジェットは

[
0.001 \times 30\,\text{days} = 43.2\,\text{minutes}
]

この時間内にレイテンシが閾値超過した分だけ消費されます。


2. トラフィック

トラフィックは リクエスト数やメッセージ投入量 を測定し、容量計画の根拠となります。
- 測定対象:RPS、TPS、キュー投入件数など。
- 閾値例:過去 7 日平均 ±20% を超えるとスケールアウト/インを検討。


3. エラー

エラーはシステム障害の直接指標です。
- 測定対象:HTTP 5xx、例外スロー数、バックエンド失敗率。
- 閾値例:5xx エラー率 > 0.1%(= 0.001)で SLO に影響。


4. サチュレーション

リソース使用率が上限に近づくとサービス品質が低下します。
- 測定対象:CPU、メモリ、ディスク I/O、ネットワーク帯域。
- 自動対策例:CPU 利用率 > 80% の瞬間にスケールアウトをトリガー。


メトリクス選定と SLI/SLO 設計の 3 原則

この章では、顧客価値・観測可能性・実装コスト の三本柱でメトリクスを絞り込み、具体的な SLI/SLO を作成する手順を示します。

重要性:適切に設計された SLI/SLO がエラーバジェット管理の基盤となり、意思決定を数値化できます(Wikipedia – Site Reliability Engineering)。

1. 顧客価値の抽出

ビジネスゴール 対応シグナル 推奨 SLI
レスポンス遅延に対する不満削減 Latency p99 latency < 0.2 s
障害時の復旧速度向上 Error & Saturation 5xx error rate < 0.001、CPU < 80%

2. 観測可能性の確認

  • Prometheus exporter が既存かrequest_duration_seconds_bucket が出力されていれば追加実装は不要。
  • 欠損メトリクス は Lambda/Cloud Function 経由でカスタムメトリクス化。

3. 実装コストの評価

手段 初期工数 維持工数
CloudWatch カスタムメトリクス 低(CLI) 中(アラート調整)
Prometheus exporter 中(バイナリ配布) 低(自動ロールアップ)
GCP Monitoring のカスタム指標 高(gcloud) 中(Terraform 管理)

ツール別メトリクス設定例

以下は Prometheus/GMP, AWS CloudWatch, Google Cloud Monitoring での実装サンプルです。すべて IaC(Terraform)に変換可能です。

Prometheus / GMP のウィンドウベース SLO ルール

ポイントexpr の単位は であることに注意し、0.2 が 200 ms を正しく表します。

AWS CloudWatch のメトリクスフィルターとアラーム

Google Cloud Monitoring のダッシュボードとアラートポリシー


IaC(Terraform / Ansible)ベストプラクティス

Terraform の構造例

ベストプラクティス
- variables.tf にすべての環境変数(リージョン、プロジェクト名)を集約。
- モジュールは monitoring, alert, exporter で分割し、再利用性とテスト容易性を確保。
- CI パイプラインで terraform fmt -check && terraform validate && terraform plan -out=plan.out を実行し、コードレビュー前に差分確認。

Ansible Playbook(Node Exporter デプロイ)

  • vars にバージョンだけを変更すれば全ノードの一括アップグレードが可能。
  • notify で冪等性(idempotency)を担保し、エラー時はロールバックしやすくなる。

メトリクス命名・タグ付けとコスト最適化(2026 年版)

命名規則

要素
service orderpayment
component apidbworker
metric_name latency_secondserror_count

必須ラベルenv, region, team(例: env=prod, region=asia-northeast1, team=backend

コスト削減策

  1. 保持期間の階層化
  2. 0–7 日 → 1 分粒度
  3. 8–30 日 → 5 分粒度
  4. 31 日以降 → 1 時間粒度

  5. 不要メトリクスの自動削除(Prometheus の DELETE_SERIES API と Terraform の null_resource を組み合わせ)

  6. 集計窓の見直し

  7. 高頻度カウンタは rate(...[5m]) に切り替えることで、クエリ回数と保存データ量を 80 % 程度削減。

  8. タグベース課金レポート

  9. AWS Cost Explorer の Tag フィルタで月次レビューし、未使用ラベルのメトリクスを除外。

実装検証フロー(CI/CD への組み込み)

  1. ローカルユニットテスト
  2. promtool test rules slo_rules.yaml で SLO ルールが期待通り評価されるか確認。

  3. ステージング環境へデプロイ

  4. Terraform で CloudWatch / GCP Dashboard を作成し、aws cloudwatch put-metric-data / gcloud monitoring metrics write でサンプルデータを送信。

  5. アラート発火テスト

  6. 故意に閾値超過(例:Latency = 0.5 s)を送信し、SNS/メールが届くことを確認。

  7. CI パイプライン自動化(GitHub Actions の例)

このフローにより、設定ミスやメトリクスのドリフトを プルリクエスト時点で検出 でき、運用開始前に品質が保証されます。


まとめ

  1. Four Golden Signals は顧客体験と SLO の橋渡しとして不可欠。
  2. 3 原則(顧客価値・観測可能性・実装コスト) に基づきメトリクスを選定し、エラーバジェット計算式で数値化。
  3. Prometheus / CloudWatch / GCP Monitoring の具体的設定例と IaC(Terraform/Ansible)活用により、監視の自動化・再現性を確保。
  4. 統一命名+タグ付け と保持期間階層化で 2026 年以降のクラウド課金を最小化。
  5. CI/CD に組み込んだ検証フロー が、設定ミスやデータドリフトを早期に発見し、信頼性向上につながります。

この流れで段階的に取り組めば、SRE メトリクスの設計・実装・運用が一貫したベストプラクティス として確立でき、サービス全体の可用性とコスト効率を同時に最適化できます。

スポンサードリンク

お得なお知らせ

スポンサードリンク
まず1社、面談枠を押さえる

エンジニアの次のキャリア、30分で動き出す

正社員転職・フリーランス独立、どちらも「最初の1社登録」がスピードを決めます。無料面談で年収相場と求人を一気に把握。

Tamesy|未経験〜第二新卒の転職▶ エンジニアファクトリー|フリーランス案件▶

▶ 学習からスタートしたい方はEnjoy Tech! もチェック。


-SRE