SREメトリクスとFour Golden Signalsの最新解釈・実装ガイド（2025‑2026年版）

2026年5月16日

お得なお知らせ

スポンサードリンク

まず1社、面談枠を押さえる

エンジニアの次のキャリア、30分で動き出す

正社員転職・フリーランス独立、どちらも「最初の1社登録」がスピードを決めます。無料面談で年収相場と求人を一気に把握。

Tamesy｜未経験〜第二新卒の転職▶ エンジニアファクトリー｜フリーランス案件▶

▶ 学習からスタートしたい方はEnjoy Tech! もチェック。

Contents

1 Four Golden Signals の最新解釈（2025 年版）
2 メトリクス選定と SLI／SLO 設計の 3 原則
3 ツール別メトリクス設定例
4 IaC（Terraform / Ansible）ベストプラクティス
- 4.1 Terraform の構造例
- 4.2 Ansible Playbook（Node Exporter デプロイ）
5 メトリクス命名・タグ付けとコスト最適化（2026 年版）
- 5.1 命名規則
- 5.2 コスト削減策
6 実装検証フロー（CI/CD への組み込み）
7 まとめ

スポンサードリンク

Four Golden Signals の最新解釈（2025 年版）

本セクションでは、Four Golden Signals が 2025 年においても可観測性の核であることを示し、各シグナルとビジネスインパクトの結びつきを簡潔に整理します。
なぜ重要か：4 つの指標は最小限のメトリクスでサービス全体の健全性を把握でき、監視コストと信頼性向上のバランスを取るための出発点となります。
結論：Golden Signals は「顧客体験 ⇔ SLO 設定」の橋渡しとして活用すべきです（Splunk 解説）。

1. レイテンシ

レイテンシは エンドツーエンドの応答時間 を示し、ユーザー体感速度に直結します。
- 測定対象：HTTP リクエスト遅延、DB クエリ時間、外部 API 呼び出しなど。
- 推奨閾値：p99 latency < 0.2 秒（200 ms）。

計算例（SLO 達成度）

[
\text{ErrorBudget} = (1 - \text{SLO}) \times T
]

たとえば SLO が 99.9%（(T = 30) 日）であれば、エラーバジェットは

[
0.001 \times 30\,\text{days} = 43.2\,\text{minutes}
]

この時間内にレイテンシが閾値超過した分だけ消費されます。

2. トラフィック

トラフィックは リクエスト数やメッセージ投入量 を測定し、容量計画の根拠となります。
- 測定対象：RPS、TPS、キュー投入件数など。
- 閾値例：過去 7 日平均 ±20% を超えるとスケールアウト／インを検討。

3. エラー

エラーはシステム障害の直接指標です。
- 測定対象：HTTP 5xx、例外スロー数、バックエンド失敗率。
- 閾値例：5xx エラー率 > 0.1%（= 0.001）で SLO に影響。

4. サチュレーション

リソース使用率が上限に近づくとサービス品質が低下します。
- 測定対象：CPU、メモリ、ディスク I/O、ネットワーク帯域。
- 自動対策例：CPU 利用率 > 80% の瞬間にスケールアウトをトリガー。

メトリクス選定と SLI／SLO 設計の 3 原則

この章では、顧客価値・観測可能性・実装コスト の三本柱でメトリクスを絞り込み、具体的な SLI／SLO を作成する手順を示します。

重要性：適切に設計された SLI/SLO がエラーバジェット管理の基盤となり、意思決定を数値化できます（Wikipedia – Site Reliability Engineering）。

1. 顧客価値の抽出

ビジネスゴール	対応シグナル	推奨 SLI
レスポンス遅延に対する不満削減	Latency	p99 latency < 0.2 s
障害時の復旧速度向上	Error & Saturation	5xx error rate < 0.001、CPU < 80%

2. 観測可能性の確認

Prometheus exporter が既存か：request_duration_seconds_bucket が出力されていれば追加実装は不要。
欠損メトリクス は Lambda／Cloud Function 経由でカスタムメトリクス化。

3. 実装コストの評価

手段	初期工数	維持工数
CloudWatch カスタムメトリクス	低（CLI）	中（アラート調整）
Prometheus exporter	中（バイナリ配布）	低（自動ロールアップ）
GCP Monitoring のカスタム指標	高（gcloud）	中（Terraform 管理）

ツール別メトリクス設定例

以下は Prometheus/GMP, AWS CloudWatch, Google Cloud Monitoring での実装サンプルです。すべて IaC（Terraform）に変換可能です。

Prometheus / GMP のウィンドウベース SLO ルール

# slo_rules.yaml
groups:
- name: slo.rules
  rules:
  - record: job:latency:p99_5m
    expr: histogram_quantile(0.99, sum(rate(request_duration_seconds_bucket[5m])) by (le))
  - alert: LatencySLOViolation
    expr: job:latency:p99_5m &gt; 0.2   # 0.2 秒 = 200 ms
    for: 2m
    labels:
      severity: critical
    annotations:
      summary: &quot;Latency SLO violation&quot;
      description: &quot;p99 latency exceeded 200 ms.&quot;

# slo_rules.yaml

groups:

- name: slo.rules

rules:

- record: job:latency:p99_5m

expr: histogram_quantile(0.99, sum(rate(request_duration_seconds_bucket[5m])) by (le))

- alert: LatencySLOViolation

expr: job:latency:p99_5m > 0.2 # 0.2 秒 = 200 ms

for: 2m

labels:

severity: critical

annotations:

summary: "Latency SLO violation"

description: "p99 latency exceeded 200 ms."

ポイント：expr の単位は秒であることに注意し、0.2 が 200 ms を正しく表します。

AWS CloudWatch のメトリクスフィルターとアラーム

# フィルタ作成（ERROR 行をカウント）
aws logs put-metric-filter \
  --log-group-name /aws/lambda/my-service \
  --filter-name ErrorCountFilter \
  --filter-pattern '&quot;ERROR&quot;' \
  --metric-transformations metricName=ErrorCount,metricNamespace=MyService,metricValue=1

# アラーム作成（5 分間の合計が閾値を超えたら通知）
aws cloudwatch put-metric-alarm \
  --alarm-name MyService-ErrorRate \
  --metric-name ErrorCount \
  --namespace MyService \
  --statistic Sum \
  --period 300 \
  --evaluation-periods 2 \
  --threshold 5 \
  --comparison-operator GreaterThanThreshold \
  --actions-enabled

# フィルタ作成（ERROR 行をカウント）

aws logs put-metric-filter \

--log-group-name /aws/lambda/my-service \

--filter-name ErrorCountFilter \

--filter-pattern '"ERROR"' \

--metric-transformations metricName=ErrorCount,metricNamespace=MyService,metricValue=1

# アラーム作成（5 分間の合計が閾値を超えたら通知）

aws cloudwatch put-metric-alarm \

--alarm-name MyService-ErrorRate \

--metric-name ErrorCount \

--namespace MyService \

--statistic Sum \

--period 300 \

--evaluation-periods 2 \

--threshold 5 \

--comparison-operator GreaterThanThreshold \

--actions-enabled

Google Cloud Monitoring のダッシュボードとアラートポリシー

{
  &quot;displayName&quot;: &quot;SLO Dashboard&quot;,
  &quot;gridLayout&quot;: {
    &quot;columns&quot;: &quot;2&quot;,
    &quot;widgets&quot;: [
      {
        &quot;title&quot;: &quot;Latency (p99)&quot;,
        &quot;xyChart&quot;: { &quot;dataSets&quot;: [{ &quot;timeSeriesQuery&quot;: { &quot;prometheusQuery&quot;: { &quot;query&quot;: &quot;histogram_quantile(0.99, sum(rate(request_duration_seconds_bucket[5m])) by (le))&quot; } }, &quot;plotType&quot;:&quot;LINE&quot;}] }
      },
      {
        &quot;title&quot;: &quot;Error Rate&quot;,
        &quot;xyChart&quot;: { &quot;dataSets&quot;: [{ &quot;timeSeriesQuery&quot;: { &quot;metricFilter&quot;: &quot;metric.type=\&quot;custom.googleapis.com/http_error_rate\&quot;&quot; }, &quot;plotType&quot;:&quot;STACKED_AREA&quot;}] }
      }
    ]
  }
}

{

"displayName": "SLO Dashboard",

"gridLayout": {

"columns": "2",

"widgets": [

{

"title": "Latency (p99)",

"xyChart": { "dataSets": [{ "timeSeriesQuery": { "prometheusQuery": { "query": "histogram_quantile(0.99, sum(rate(request_duration_seconds_bucket[5m])) by (le))" } }, "plotType":"LINE"}] }

{

"title": "Error Rate",

"xyChart": { "dataSets": [{ "timeSeriesQuery": { "metricFilter": "metric.type=\"custom.googleapis.com/http_error_rate\"" }, "plotType":"STACKED_AREA"}] }

}

]

}

# エラー率が 0.1% 超えたら通知
gcloud monitoring policies create \
  --notification-channels=$CHANNEL_ID \
  --condition-display-name=&quot;High HTTP error rate&quot; \
  --condition-filter='metric.type=&quot;custom.googleapis.com/http_error_rate&quot;' \
  --condition-comparison=COMPARISON_GT \
  --condition-threshold-value=0.001 \
  --condition-duration=300s

# エラー率が 0.1% 超えたら通知

gcloud monitoring policies create \

--notification-channels=$CHANNEL_ID \

--condition-display-name="High HTTP error rate" \

--condition-filter='metric.type="custom.googleapis.com/http_error_rate"' \

--condition-comparison=COMPARISON_GT \

--condition-threshold-value=0.001 \

--condition-duration=300s

IaC（Terraform / Ansible）ベストプラクティス

Terraform の構造例

# providers.tf
provider &quot;aws&quot;   { region = var.aws_region }
provider &quot;google&quot;{ project = var.gcp_project, region = var.gcp_region }

# cloudwatch_alarm.tf
resource &quot;aws_cloudwatch_metric_alarm&quot; &quot;error_rate&quot; {
  alarm_name          = &quot;myservice-error-rate&quot;
  metric_name         = &quot;ErrorCount&quot;
  namespace           = &quot;MyService&quot;
  statistic           = &quot;Sum&quot;
  period              = 300
  evaluation_periods  = 2
  threshold           = 5
  comparison_operator = &quot;GreaterThanThreshold&quot;
  alarm_actions       = [aws_sns_topic.alerts.arn]
}

# gcp_dashboard.tf
resource &quot;google_monitoring_dashboard&quot; &quot;slo&quot; {
  dashboard_json = file(&quot;${path.module}/dashboard.json&quot;)
}

# providers.tf

provider "aws" { region = var.aws_region }

provider "google"{ project = var.gcp_project, region = var.gcp_region }

# cloudwatch_alarm.tf

resource "aws_cloudwatch_metric_alarm" "error_rate" {

alarm_name = "myservice-error-rate"

metric_name = "ErrorCount"

namespace = "MyService"

statistic = "Sum"

period = 300

evaluation_periods = 2

threshold = 5

comparison_operator = "GreaterThanThreshold"

alarm_actions = [aws_sns_topic.alerts.arn]

}

# gcp_dashboard.tf

resource "google_monitoring_dashboard" "slo" {

dashboard_json = file("${path.module}/dashboard.json")

}

ベストプラクティス
- variables.tf にすべての環境変数（リージョン、プロジェクト名）を集約。
- モジュールは monitoring, alert, exporter で分割し、再利用性とテスト容易性を確保。
- CI パイプラインで terraform fmt -check && terraform validate && terraform plan -out=plan.out を実行し、コードレビュー前に差分確認。

Ansible Playbook（Node Exporter デプロイ）

---
- name: Deploy Prometheus node exporter
  hosts: monitoring_nodes
  become: yes
  vars:
    exporter_version: &quot;1.6.1&quot;
  tasks:
    - name: Download archive
      get_url:
        url: &quot;https://github.com/prometheus/node_exporter/releases/download/v{{ exporter_version }}/node_exporter-{{ exporter_version }}.linux-amd64.tar.gz&quot;
        dest: /tmp/node_exporter.tar.gz
        mode: '0644'

    - name: Extract archive
      unarchive:
        src: /tmp/node_exporter.tar.gz
        dest: /opt/
        remote_src: yes

    - name: Install systemd service
      copy:
        dest: /etc/systemd/system/node_exporter.service
        content: |
          [Unit]
          Description=Prometheus Node Exporter
          Wants=network-online.target
          After=network-online.target

          [Service]
          ExecStart=/opt/node_exporter-{{ exporter_version }}.linux-amd64/node_exporter
          Restart=always

          [Install]
          WantedBy=default.target
      notify: Reload systemd

    - name: Enable and start service
      systemd:
        name: node_exporter.service
        enabled: yes
        state: started

  handlers:
    - name: Reload systemd
      command: systemctl daemon-reload

---

- name: Deploy Prometheus node exporter

hosts: monitoring_nodes

become: yes

vars:

exporter_version: "1.6.1"

tasks:

- name: Download archive

get_url:

url: "https://github.com/prometheus/node_exporter/releases/download/v{{ exporter_version }}/node_exporter-{{ exporter_version }}.linux-amd64.tar.gz"

dest: /tmp/node_exporter.tar.gz

mode: '0644'

- name: Extract archive

unarchive:

src: /tmp/node_exporter.tar.gz

dest: /opt/

remote_src: yes

- name: Install systemd service

copy:

dest: /etc/systemd/system/node_exporter.service

content: |

[Unit]

Description=Prometheus Node Exporter

Wants=network-online.target

After=network-online.target

[Service]

ExecStart=/opt/node_exporter-{{ exporter_version }}.linux-amd64/node_exporter

Restart=always

[Install]

WantedBy=default.target

notify: Reload systemd

- name: Enable and start service

systemd:

name: node_exporter.service

enabled: yes

state: started

handlers:

- name: Reload systemd

command: systemctl daemon-reload

vars にバージョンだけを変更すれば全ノードの一括アップグレードが可能。
notify で冪等性（idempotency）を担保し、エラー時はロールバックしやすくなる。

メトリクス命名・タグ付けとコスト最適化（2026 年版）

命名規則

service:component:metric_name

1 2	service:component:metric_name

要素	例
service	`order`、`payment`
component	`api`、`db`、`worker`
metric_name	`latency_seconds`、`error_count`

必須ラベル：env, region, team（例: env=prod, region=asia-northeast1, team=backend）

コスト削減策

保持期間の階層化
0–7 日 → 1 分粒度
8–30 日 → 5 分粒度
31 日以降 → 1 時間粒度
不要メトリクスの自動削除（Prometheus の DELETE_SERIES API と Terraform の null_resource を組み合わせ）
集計窓の見直し
高頻度カウンタは rate(...[5m]) に切り替えることで、クエリ回数と保存データ量を 80 % 程度削減。
タグベース課金レポート
AWS Cost Explorer の Tag フィルタで月次レビューし、未使用ラベルのメトリクスを除外。

実装検証フロー（CI/CD への組み込み）

ローカルユニットテスト
promtool test rules slo_rules.yaml で SLO ルールが期待通り評価されるか確認。
ステージング環境へデプロイ
Terraform で CloudWatch / GCP Dashboard を作成し、aws cloudwatch put-metric-data / gcloud monitoring metrics write でサンプルデータを送信。
アラート発火テスト
故意に閾値超過（例：Latency = 0.5 s）を送信し、SNS/メールが届くことを確認。
CI パイプライン自動化（GitHub Actions の例）

name: Monitoring CI

on:
  push:
    paths:
      - '**/*.tf'
      - '**/*.yml'

jobs:
  validate:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v3
      - name: Terraform fmt &amp; validate
        run: |
          terraform fmt -check
          terraform validate
      - name: Apply to staging (plan only)
        env:
          AWS_ACCESS_KEY_ID: ${{ secrets.AWS_KEY }}
          AWS_SECRET_ACCESS_KEY: ${{ secrets.AWS_SECRET }}
        run: terraform plan -out=plan.out

name: Monitoring CI

on:

push:

paths:

- '**/*.tf'

- '**/*.yml'

jobs:

validate:

runs-on: ubuntu-latest

steps:

- uses: actions/checkout@v3

- name: Terraform fmt & validate

run: |

terraform fmt -check

terraform validate

- name: Apply to staging (plan only)

env:

AWS_ACCESS_KEY_ID: ${{ secrets.AWS_KEY }}

AWS_SECRET_ACCESS_KEY: ${{ secrets.AWS_SECRET }}

run: terraform plan -out=plan.out

このフローにより、設定ミスやメトリクスのドリフトを プルリクエスト時点で検出 でき、運用開始前に品質が保証されます。

まとめ

Four Golden Signals は顧客体験と SLO の橋渡しとして不可欠。
3 原則（顧客価値・観測可能性・実装コスト） に基づきメトリクスを選定し、エラーバジェット計算式で数値化。
Prometheus / CloudWatch / GCP Monitoring の具体的設定例と IaC（Terraform／Ansible）活用により、監視の自動化・再現性を確保。
統一命名＋タグ付け と保持期間階層化で 2026 年以降のクラウド課金を最小化。
CI/CD に組み込んだ検証フロー が、設定ミスやデータドリフトを早期に発見し、信頼性向上につながります。

この流れで段階的に取り組めば、SRE メトリクスの設計・実装・運用が一貫したベストプラクティス として確立でき、サービス全体の可用性とコスト効率を同時に最適化できます。

スポンサードリンク

お得なお知らせ

スポンサードリンク

まず1社、面談枠を押さえる

エンジニアの次のキャリア、30分で動き出す

正社員転職・フリーランス独立、どちらも「最初の1社登録」がスピードを決めます。無料面談で年収相場と求人を一気に把握。

Tamesy｜未経験〜第二新卒の転職▶ エンジニアファクトリー｜フリーランス案件▶

▶ 学習からスタートしたい方はEnjoy Tech! もチェック。

-SRE

comment コメントをキャンセル

: SRE

2026年版 SREツール選定ガイド：AI・Observabilityで信頼性とコストを両立

本稿では2026年のSREツール市場を全体像から機能比較、導入事例まで網羅し、AI・Observabilityが鍵となる最新トレンドを解説します。

: SRE

中小企業向けSREチーム構成例と導入ロードマップ【実務ガイド】

中小企業のCTOや開発マネージャー向けに、限られたリソースでSREチームを構築する具体的な手順とKPI設定例を紹介します。

: SRE

SREインシデント対応テンプレートの作り方と無料ダウンロードまとめ

インシデント対応を標準化するテンプレートの必須項目と導入手順を解説し、主要ベンダーのダウンロード先とカスタマイズ方法をまとめました。

: SRE

SRE監視とオブザーバビリティの基礎と2024年主要ツール比較

SREの基本要件と初心者が押さえるべき監視ステップを紹介し、Google Cloud Operations Suite・Datadog・Dynatrace・Zabbix・Amazon CloudWatchを比較しています。

: SRE

SREとDevOpsの違いと導入ガイド｜2025年最新トレンド

SREは信頼性重視の実装手法、DevOpsは開発速度と品質向上の文化です。本記事では両者を比較し、導入時の選び方や最新事例を紹介します。

【2026年版】じゃらんアプリで簡単予約手順 - ダウンロードから決済まで完全ガイド

Laravel 10 と PHP 8.3 性能比較ガイド — 再現ベンチ手順

SREメトリクスとFour Golden Signalsの最新解釈・実装ガイド（2025‑2026年版）

Four Golden Signals の最新解釈（2025 年版）

1. レイテンシ

計算例（SLO 達成度）

2. トラフィック

3. エラー

4. サチュレーション

メトリクス選定と SLI／SLO 設計の 3 原則

1. 顧客価値の抽出

2. 観測可能性の確認

3. 実装コストの評価

ツール別メトリクス設定例

Prometheus / GMP のウィンドウベース SLO ルール

AWS CloudWatch のメトリクスフィルターとアラーム

Google Cloud Monitoring のダッシュボードとアラートポリシー

IaC（Terraform / Ansible）ベストプラクティス

Terraform の構造例

Ansible Playbook（Node Exporter デプロイ）

メトリクス命名・タグ付けとコスト最適化（2026 年版）

命名規則

コスト削減策

実装検証フロー（CI/CD への組み込み）

まとめ

Four Golden Signals の最新解釈（2025 年版）

メトリクス命名・タグ付けとコスト最適化（2026 年版）