SRE KPIベストプラクティス2025：具体例と測定方法

2026年4月19日

もっとスキルを活かしたいエンジニアへ

スポンサードリンク

働き方から選べる

無料で使えて良質な案件の情報収集ができるサービス

エンジニアの世界では、「いつでも動ける状態を作っておけ」とよく言われます。
技術やポートフォリオがあっても、自分に合う案件情報を日常的に見れていないと、いざ動こうと思った時に比較や判断が難しくなってしまいます。
普段から案件情報が集まる環境を作っておくと、良い案件が出た時にすぐ動きやすくなりますよ。
筆者自身も、メガベンチャー勤務時代に年収1,500万円を超えた経験があります。振り返ると、技術だけでなく「どんな案件や働き方があるか」を日頃から見ていたことが、キャリアの選択肢を広げるきっかけになりました。
このブログを読んでくれた方に感謝を込めて、実際に使っている情報収集サービスを紹介します。

フルリモート・週3日・高単価、どんな条件も妥協したくないなら

フリーランスボードに無料会員登録する

利用者10万人以上。業界最大規模45万件の案件。AIマッチ機能や無料の相場情報が人気。

年収800万円以上のキャリアアップ・ハイクラス正社員を視野に入れているなら

Beyond Careerに無料相談する

内定獲得率90%以上。紹介先企業とは役員クラスのコネクションがある安心と信頼できるエージェント。

Contents

1 1. KPI と SLO／SLA の位置付け ― 基本概念
- 1.1 1‑1. KPI がなければ SLO は曖昧になる
2 2. KPI とビジネス価値 ― インパクトを測る視点
- 2.1 2‑1. 出典の信頼性に配慮した記述
3 3. 従来指標と測定手順 ― オープンソース＋商用ツールのハイブリッド
- 3.1 3‑1. 主な従来 KPI と計算例（Prometheus / Grafana）
  - 3.1.1 実装フロー（概要）
4 4. 2025 年ベストプラクティス ― ユーザー体験指標と LLM 特有指標
- 4.1 4‑1. ユーザー体験指標（UX KPI）
- 4.2 4‑2. LLM サービス向け KPI
  - 4.2.1 Python デモ（ベンダーニュートラル）
5 5. ツール別実装ガイド ― ベンダーニュートラルにまとめる
- 5.1 5‑1. 商用 APM の活用例（ベンダーニュートラル）
- 5.2 5‑2. 完全オープンソース構築例
6 6. KPI を活用した SLO／SLA 策定とエラーバジェット管理
- 6.1 6‑1. エラーバジェット算出の基本式
- 6.2 6‑2. エラーバジェット管理プロセス（5 ステップ）
7 7. Observe‑Analyze‑Act (OAA) サイクルとレポートテンプレート
- 7.1 7‑1. OAA の標準フロー
- 7.2 7‑2. 月次 KPI レポートテンプレート例
  - 7.2.1 レポート作成手順
8 8. まとめ（200字）
9 参考文献

スポンサードリンク

1. KPI と SLO／SLA の位置付け ― 基本概念

用語	定義	主な役割
KPI (Key Performance Indicator)	ビジネスやサービスの重要成果を数値化した指標	何を測るか、どの程度達成すべきかを具体化
SLO (Service Level Objective)	KPI に基づいて設定する「目標レベル」	顧客と合意した品質水準
SLA (Service Level Agreement)	SLO を契約上の保証に昇華したもの	逸脱時のペナルティや補償を明文化

結論：KPI は「測定基盤」、SLO は「目標値」、SLA は「合意書」。3者が揃って初めて、サービス信頼性とビジネス価値がリンクします。

1‑1. KPI がなければ SLO は曖昧になる

可用性（Availability） を KPI として 99.9 % を測定 → これを SLO に設定すれば、月間ダウンタイムは 43 分以内 という SLA 約束が成立。
エラーバジェット燃焼率 をリアルタイムで可視化 → バッファが減少した瞬間に開発リソースの優先順位を再調整でき、予算超過やサービス障害のリスクを低減。

ポイント：KPI が具体的でなければ、SLO は「数字だけの目標」になり、ビジネス側の期待と乖離しやすくなります。

2. KPI とビジネス価値 ― インパクトを測る視点

ビジネスゴール	推奨 KPI（例）	期待される効果
コンバージョン率向上	検索クエリ応答時間 (p95) ≤ 200 ms	ユーザー離脱が減少し、購入完了率が数％向上
カート放棄防止	ページ LCP ≤ 1.8 s	ページ読み込み速度改善で直帰率が低下
AI チャットサービスの信頼性	Hallucination Rate ≤ 0.10、推論レイテンシ ≤ 250 ms	誤情報提供リスクを抑制し、顧客満足度が上昇

根拠：2023 年に発表された Google Web Vitals と 業界ベンチマーク調査（IDC, 2023) によれば、検索応答時間が 200 ms 未満になるとコンバージョン率が平均 2.8 % 向上することが報告されています【1】。

2‑1. 出典の信頼性に配慮した記述

過去記事では「Dynatrace の 2025 年ブログ」や「Mercari エンジニアリングブログ」など、一次情報が確認しづらい引用がありました。本稿では以下のように代替します。

ベンダー独自のレポート → 「公開済みの業界調査」や「公式ホワイトペーパー（例：Google, AWS）」で置き換える。
社内事例 → 「匿名化したケーススタディ」として記載し、具体的な企業名は控える。

3. 従来指標と測定手順 ― オープンソース＋商用ツールのハイブリッド

3‑1. 主な従来 KPI と計算例（Prometheus / Grafana）

KPI	代表的メトリクス	PromQL （例）
可用性	`up{job="service"}`	`sum(up) / count(up)`
レイテンシ (p95)	`http_request_duration_seconds_bucket`	`histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))`
エラーバジェット燃焼率	`availability`, `error_budget`	`(1 - availability) / error_budget`
MTTR	`incident_resolution_time_seconds_sum`, `incident_resolution_time_seconds_count`	`avg_over_time(incident_resolution_time_seconds[1d])`
変更失敗率	`deployment_success_total`, `deployment_failure_total`	`deployment_failure_total / (deployment_success_total + deployment_failure_total)`

実装フロー（概要）

メトリクス収集
Prometheus の scrape_config に対象サービスを追加。
必要に応じて OpenTelemetry エージェントや商用 APM（例：Datadog、New Relic）で補完。
算出ロジック作成
Grafana の「Expression」機能で上記 PromQL を入力し、パネル化。
アラート設定
Alertmanager か APM が提供する通知機能で閾値（例：可用性 < 99.9 %）を定義し、Slack・メールへ送信。

ポイント：オープンソースだけでも十分に主要 KPI をカバーできますが、商用 APM は「RUM」や「トレース自動紐付け」などの付加価値があるため、ハイブリッド構成を推奨します。

4. 2025 年ベストプラクティス ― ユーザー体験指標と LLM 特有指標

注記：以下は「業界調査（2023‑24）」「主要クラウドプロバイダーのロードマップ」から抽出した、実務で広く採用されている指標です。

4‑1. ユーザー体験指標（UX KPI）

KPI	推奨目標 (p95)	計測手段
検索クエリ応答時間	≤ 200 ms	RUM（Real User Monitoring）＋カスタムメトリクス（Prometheus エクスポート）
Largest Contentful Paint (LCP)	≤ 1.8 s	Google Web Vitals ライブラリ → Exporter → Prometheus
First Input Delay (FID)	≤ 100 ms	同上

実装ヒント

フロントエンドで window.performance API を利用し、バックエンド latency と合わせてカスタムメトリクスとして送信。
Grafana の「Stat」パネルで p95 値をリアルタイム表示し、閾値超過時に Alertmanager が自動通知。

4‑2. LLM サービス向け KPI

KPI	定義	測定方法
Hallucination Rate	出力が事実と食い違う割合（誤情報率）	テストケースと期待回答を比較するスコアリングツール（例：OpenAI 評価 API、Community の `evals` パッケージ）
推論レイテンシ	1 リクエストあたりの平均応答時間	エンドポイント側で `Histogram` メトリクスを出力し、Prometheus に集約

Python デモ（ベンダーニュートラル）

import time, random
from prometheus_client import Histogram, start_http_server

# メトリクス定義
latency_hist = Histogram(
    &quot;llm_inference_latency_seconds&quot;,
    &quot;LLM 推論レイテンシ (seconds)&quot;,
    buckets=[0.1, 0.2, 0.3, 0.5, 1.0]
)

def evaluate(query: str) -&gt; dict:
    start = time.time()
    # ダミー推論（実際は LLM 呼び出し）
    answer = &quot;dummy response&quot;
    hallucination = random.random() &lt; 0.08   # 8% のハルシネーション率をシミュレート
    latency_hist.observe(time.time() - start)
    return {&quot;answer&quot;: answer, &quot;hallucination&quot;: hallucination}

if __name__ == &quot;__main__&quot;:
    start_http_server(9100)   # /metrics エンドポイント公開
    while True:
        evaluate(&quot;テストクエリ&quot;)
        time.sleep(1)

import time, random

from prometheus_client import Histogram, start_http_server

# メトリクス定義

latency_hist = Histogram(

"llm_inference_latency_seconds",

"LLM 推論レイテンシ (seconds)",

buckets=[0.1, 0.2, 0.3, 0.5, 1.0]

)

def evaluate(query: str) -> dict:

start = time.time()

# ダミー推論（実際は LLM 呼び出し）

answer = "dummy response"

hallucination = random.random() < 0.08 # 8% のハルシネーション率をシミュレート

latency_hist.observe(time.time() - start)

return {"answer": answer, "hallucination": hallucination}

if __name__ == "__main__":

start_http_server(9100) # /metrics エンドポイント公開

while True:

evaluate("テストクエリ")

time.sleep(1)

結果活用例：hallucination_rate = sum(hallucinations) / total_requests を Grafana で可視化し、閾値（0.10）を超えたら自動で Jira チケットを作成。

5. ツール別実装ガイド ― ベンダーニュートラルにまとめる

カテゴリ	主なツール例	メリット	デメリット
商用 APM	Dynatrace、Datadog、New Relic	RUM・トレース自動紐付け、AI 解析機能	ライセンス費用、ベンダーロックインリスク
オープンソース	Prometheus + Grafana、OpenTelemetry、Thanos	高いカスタマイズ性、低コスト	設定・運用負荷がやや大きい
LLM 評価ライブラリ	DeepEval（MIT ライセンス）、evals、LangChain の評価モジュール	テスト自動化、CI/CD への組込みが容易	LLM ベンダー固有の API に依存しがち

5‑1. 商用 APM の活用例（ベンダーニュートラル）

Goal 設定：UI 上で「検索体験向上」や「AI 正確性維持」を登録。
KPI 紐付け：RUM データから search_query_latency、LLM からはカスタムメトリクスを自動マッピング。
ダッシュボード生成：テンプレート「Business KPI Dashboard」へ自動配置し、リアルタイム可視化。
アラート & チケット連携：目標未達時に ServiceNow／Jira へ自動作成。

留意点：同様のフローは Datadog の「Service Level Objectives」や New Relic の「SLO Dashboard」でも実現可能です。

5‑2. 完全オープンソース構築例

Exporter 開発
Python/Go で hallucination_rate、search_query_latency_seconds を /metrics に出力。
Prometheus 設定

scrape_configs:
  - job_name: &quot;llm_service&quot;
    static_configs:
      - targets: [&quot;llm-host:9100&quot;]

scrape_configs:

- job_name: "llm_service"

static_configs:

- targets: ["llm-host:9100"]

Grafana パネル例
Panel A: search_query_latency_seconds の p95 ヒストグラム。
Panel B: hallucination_rate 時系列、閾値 0.10 超過で赤色表示。
Alertmanager 連携

receivers:
- name: &quot;slack&quot;
  slack_configs:
  - channel: &quot;#sre-alerts&quot;
    send_resolved: true

route:
  group_by: ['alertname']
  receiver: &quot;slack&quot;
  routes:
  - match:
      alertname: &quot;HallucinationRateHigh&quot;

receivers:

- name: "slack"

slack_configs:

- channel: "#sre-alerts"

send_resolved: true

route:

group_by: ['alertname']

receiver: "slack"

routes:

- match:

alertname: "HallucinationRateHigh"

IaC（Terraform）
prometheus.yml、grafana_dashboard.json をコード化し、GitOps で管理。

メリット：ベンダーロックインを回避でき、独自 KPI（例：LLM のトークン使用率）も自由に追加可能。

6. KPI を活用した SLO／SLA 策定とエラーバジェット管理

6‑1. エラーバジェット算出の基本式

[
\text{Error Budget} = 1 - \text{SLO Target}
]

例）可用性 SLO が 99.9 % の場合
- Error Budget = 0.001（＝ 43 分/月）

6‑2. エラーバジェット管理プロセス（5 ステップ）

ステップ	内容
1️⃣ ビジネスゴール確認	「検索体験改善」→ SLO `search_query_latency ≤ 200 ms (p95)` を設定
2️⃣ KPI 計測可能性チェック	Prometheus + RUM が対象メトリクスを取得できるか検証
3️⃣ エラーバジェット算出	上記式で月間許容ダウンタイムを算出
4️⃣ リアルタイム可視化	Grafana の「Error Budget Burn Rate」パネルに表示
5️⃣ アクション決定	燃焼率が 50 % 超えたらリリーススローダウン、リファクタリングを実施

ポイント：KPI がリアルタイムで更新されていなければ、エラーバジェット管理は意味を持ちません。自動化されたダッシュボードが不可欠です。

7. Observe‑Analyze‑Act (OAA) サイクルとレポートテンプレート

7‑1. OAA の標準フロー

Observe   → データ収集（Prometheus / APM）  
Analyze   → 異常検知・相関分析（Grafana、KQL）  
Act      → 改善タスク化 → スプリントへ組込

Observe → データ収集（Prometheus / APM）

Analyze → 異常検知・相関分析（Grafana、KQL）

Act → 改善タスク化 → スプリントへ組込

7‑2. 月次 KPI レポートテンプレート例

項目	内容	前月比
KPI 名	可用性、検索クエリ応答時間、Hallucination Rate 等	-
実績 (最新)	99.95 % / 180 ms / 0.07	▲0.02 % / ▼5 ms / ▲0.01
SLO 達成率	100 %（目標 99.9 %）	-
エラーバジェット燃焼率	30 %（安全圏）	-
主なインシデント要因	DB スローダウン、LLM モデル更新失敗等	-
改善アクション	キャッシュ層追加、モデルリトレーニング計画	次月実施予定

レポート作成手順

データ抽出：Grafana の「Export CSV」機能で KPI 実績を取得。
分析：スプレッドシートまたは Python (pandas) で前月比・トレンド計算。
ドキュメント化：Markdown または Confluence にテンプレート貼り付け、担当者がコメントを追記。

効果：数値だけでなく「要因」と「対策」を必ず紐付けることで、指標が形骸化せず継続的改善に結びつきます。

8. まとめ（200字）

KPI は SLO／SLA の基礎であり、測定できなければビジネス価値と結びつかない。
従来指標は Prometheus と商用 APM のハイブリッドで簡単に算出可能。
2025 年ベストプラクティスでは 検索応答時間・ページ LCP に加え、LLM サービスの Hallucination Rate と 推論レイテンシ を KPI 化することが推奨される。
ベンダー依存を避けつつ、Dynatrace・Datadog などは「選択肢」の一つとして位置付け、DeepEval のようなオープンソース評価ツールで独自指標も測定できる。
エラーバジェット管理と Observe‑Analyze‑Act サイクルを導入すれば、KPI が単なる数字ではなく、継続的改善の原動力になる。

参考文献

Google, Web Vitals（2023） https://web.dev/vitals/
IDC, Cloud Application Performance Benchmark 2023（PDF）
OpenTelemetry Community, Instrumentation Guide（2024） https://opentelemetry.io/docs/
Prometheus Documentation, Recording Rules & Alerts（2024） https://prometheus.io/docs/

本稿の記述は、公開情報・ベンダー提供資料に基づき、特定企業の内部データを引用していません。必要に応じて自社環境での検証をご実施ください。

スポンサードリンク

もっとスキルを活かしたいエンジニアへ

スポンサードリンク

働き方から選べる

無料で使えて良質な案件の情報収集ができるサービス

フルリモート・週3日・高単価、どんな条件も妥協したくないなら

フリーランスボードに無料会員登録する

利用者10万人以上。業界最大規模45万件の案件。AIマッチ機能や無料の相場情報が人気。

年収800万円以上のキャリアアップ・ハイクラス正社員を視野に入れているなら

Beyond Careerに無料相談する

内定獲得率90%以上。紹介先企業とは役員クラスのコネクションがある安心と信頼できるエージェント。

-SRE

comment コメントをキャンセル

: SRE

エラーバジェット入門：SLO/SLI/SLAの違いと実務手順

SLOに基づき許容される障害量（エラーバジェット）の考え方と、SLI選定、SLO設定、算出方法、burn rate、観測・運用のベストプラクティスをまとめた実務ガイド。

: SRE

SREとは？SLI・SLO・Error Budgetの基本と導入事例

本記事では、SRE（Site Reliability Engineering）の基本概念とGoogleが提唱するSLI・SLO・Error Budgetの仕組みを解説し、JCBやエウレカなど大手企業の導入事例、組織文化改革のポイント、成功要因と落とし穴、そして具体的な定量成果と次のステップまで網羅しています。