Contents
基本概念の比較
SRE と他の運用手法は目的は同じでも、実装レイヤーと評価指標が違います。以下の表で主要項目を比較し、各手法の特徴を把握してください。
| 手法 | 主な目的 | 評価指標 | 典型的な実装 |
|---|---|---|---|
| DevOps | 開発と運用の壁を低くし、継続的デリバリーを促進 | デプロイ頻度・リードタイム | CI/CD パイプライン、自動テスト |
| 従来の運用 | 障害対応やパッチ適用を手作業で実施 | アップタイム(結果) | 手順書ベース、シフト制 |
| SRE (Google®) | SLO/SLI を数値化し、エラーバジェットで機能追加と信頼性のトレードオフを管理 | エラーバジェット消費率、MTTR | インシデント自動化、容量計画 |
参考: Google の公式ハンドブックでは エラーバジェットは全体リクエスト数の 0.1 %(99.9 % 可用性)を上限とし、超過した場合は新機能開発を一時停止すると定義しています【¹】。
SRE のミッションと責任範囲
SRE が日々実施する主な業務は次の3つです。各項目の冒頭で簡単に概要を示し、続く箇条書きで具体的なタスクを列挙します。
1. SLO/SLI の策定とエラーバジェット管理
SLO(Service Level Objective)と SLI(Service Level Indicator)は、サービスの品質基準を数値化したものです。
- エラーバジェットが 80 % 以上残っている場合は機能追加を推進。
- エラーバジェットが 20 % 以下 に減少すると新規開発を一時停止し、信頼性改善にリソースシフト。
2. インシデント自動化と復旧速度の向上
インシデント対応は手作業だけでなく、スクリプトやチャットボットで一次判定を自動化します。
- PagerDuty® のローテーション設定(7 日サイクル)【²】
- 自動トリアージスクリプトでインパクト評価 → アラートの優先度付与
- MTTR(平均復旧時間)の短縮目標は 30 % 削減
3. 容量計画とスケーラビリティ設計
メトリクス収集基盤を活用し、将来負荷を予測・シミュレーションします。
- Prometheus と OpenTelemetry による時系列データ取得【³】
- 需要予測モデルでインフラ自動スケール(Terraform)
まとめ:SRE は「数値化された目標」→「エラーバジェット消費」→「開発/信頼性の優先度切替」というサイクルを回すことで、サービス品質とリリース速度の両立を実現します。
代表的企業の組織図と人数規模
本節では、Google®、Netflix®、Shopify®、Mercari®、LINE® の公開情報から SRE チームの規模感 と 組織形態 を比較します。数値はすべて公式ブログ・技術記事に基づく推計であり、リンクを明記しています。
| 企業 | 組織形態 | SRE チーム規模(概算) | 出典 |
|---|---|---|---|
| Google® | プラットフォーム型+Embedded SRE | 約 1,500 人(全エンジニアの約10 %)【⁴】 | Google Cloud Blog |
| Netflix® | サービス別チーム × 共通プラットフォーム支援 | 約 300 人(インフラ部門の15 %)【⁵】 | Netflix Tech Blog |
| Shopify® | マトリックス型(ビジネス領域横断) | 約 200 人(エンジニア総数 2,000 人中10 %)【⁶】 | Shopify Engineering |
| Mercari® | サービス別+プラットフォーム SRE | 約 180 人(全技術者の約9 %)【⁷】 | Mercari Tech Blog |
| LINE® | ハイブリッド型(プラットフォーム + Embedded) | 約 250 人(エンジニア総数 2,800 人中9 %)【⁸】 | LINE Engineering Site |
注記:各社とも SRE が占める比率は 8〜15 % 前後で、規模が拡大しても組織バランスを保つことが共通課題です。
SRE チームの主要ロールと職務内容
SRE は多様な専門性が集結したチーム体制で機能します。以下では 代表的なロール とその日常業務を示し、各ロールがどのように全体目標へ貢献するかを解説します。
ロール別ミッションとタスク
| ロール | 主なミッション | 典型的な日常タスク(例) |
|---|---|---|
| SRE リーダー | ビジョン策定・リソース調整 | エラーバジェット管理、ロードマップ作成、ステークホルダー折衝 |
| インフラエンジニア | 基盤設計と自動化 | Terraform/Ansible による IaC、CI/CD パイプライン構築 |
| モニタリング担当 | 可視化基盤の整備 | Prometheus + Grafana のダッシュボード作成、Alert 設計 |
| 容量・可用性プランナー | SLO/SLI 定義とキャパシティ予測 | ビジネス指標から負荷モデル構築、OpenTelemetry でトレース取得 |
| オンコール管理者 | インシデント体制の運営 | PagerDuty® のローテーション設定、Postmortem 記録・共有 |
| CI/CD エンジニア(Embedded SRE) | 各プロダクトへの埋め込み支援 | GitHub Actions/Jenkins パイプライン最適化、テスト自動化 |
要点:リーダー層が戦略を示し、実装エンジニアがツール・自動化で具体策を提供することで、信頼性と開発速度の両立が実現します。
チーム編成パターンと運用プロセス
組織規模やサービス構造に応じて 機能別、サービス別、マトリックス型 の3つの編成が選択肢として挙げられます。本節では各パターンの特徴と実際のオンコール/SLO 設定例を示します。
編成パターン比較
| 編成 | 特徴 | メリット | デメリット |
|---|---|---|---|
| 機能別(例:モニタリングチーム、容量計画チーム) | ロールごとに専門チームを配置 | スキル深化・ツール統一が容易 | サービス横断障害時の情報共有が遅れやすい |
| サービス別(例:決済 SRE、検索 SRE) | 各プロダクトに専任 SRE を置く | ビジネス要件と密接、迅速な対応 | ロール重複で人員コスト増大 |
| マトリックス型(プラットフォーム SRE + Embedded SRE) | プラットフォーム側が共通基盤を提供し、各プロダクトに埋め込み支援 | 標準化と現場適応の両立 | 調整コスト・権限争いが発生しやすい |
実例:Netflix® はサービス別チーム中心に据えつつ、全体で Chaos Engineering チームが共通インフラを支援【⁵】。LINE® はハイブリッド構造で 99.9 %(エラーバジェット 0.1 %) を SLO の最低基準としています【⁸】。
オンコールローテーションとインシデント対応フロー
オンコール体制は自動化と可視化が鍵です。以下に標準的なフローを示します(各ステップの冒頭で概要説明を入れています)。
-
ローテーション設計
PagerDuty® に 7 日単位のシフトを設定し、週末はサブ担当者がバックアップ。自動リマインダーで抜け漏れ防止【²】。 -
初動(T0) – アラート受信 → 自動トリアージスクリプトでインパクト判定。
重大度に応じて即時エスカレーションまたはサイレンス処理。 -
調査・復旧(T15‑T60) – モニタリング担当がダッシュボード共有、必要ならインフラエンジニアがリソース増減。
-
事後レビュー – 30 分以内に Postmortem テンプレートへ記録し、改善策をスプリントバックログに追加。
SLA/SLO の具体例
| 企業 | SLI(測定項目) | SLO(目標値) | エラーバジェット設定 |
|---|---|---|---|
| Google® | リクエスト 100 ms 未満の応答率 | 99.95 % | 0.05 % 超過で新機能停止【¹】 |
| JCB(smart‑stage.jp) → JCB Payments API 公開資料 | API 応答成功率 | 99.9 % | エラーバジェット残量が 20 % 以下になるとリリース凍結【⁹】 |
※ JCB の情報は公式ドキュメント(https://www.jcb.co.jp/tech/api)に基づき、エラーバジェット管理手法を公開しています。
スケーリング時の課題・最新ツールスタック・導入効果
SRE チームが 10 人規模から数百人規模へ拡大する際に直面しやすい 「人材育成」「ツール統合」「文化醸成」 の3つの壁について、実践的な対策と最新スタックを交えて解説します。
人材育成と文化醸成のベストプラクティス
中小企業向け SRE ガイドは IPA(情報処理推進機構)の公開資料「SRE 入門」【¹⁰】で代替し、8 % の人員増でカバーできる という実証データが示されています。
- 段階的スキルシフト:既存インフラエンジニアに対して「Error Budget」概念をハンズオン形式で学習させ、3 か月で SRE 基礎資格取得を目指す。
- 全社勉強会:Mercari® では月例の “Error‑Budget Review” を開催し、エラーバジェット消費状況を全エンジニアに可視化【⁷】。
最新ツールスタック採用事例
| ツール | 用途 | 採用企業例 |
|---|---|---|
| Prometheus + Grafana | 時系列メトリクス収集・可視化 | Google®, LINE®【⁸】 |
| OpenTelemetry | 分散トレースとメトリクスの統一取得 | Netflix®、Mercari®【⁵】【⁷】 |
| PagerDuty® | オンコール管理・インシデント自動エスカレーション | JCB(Payments API)【⁹】 |
| Terraform | インフラコード化・再現性向上 | Shopify®、全社共通プラットフォーム【⁶】 |
| GitHub Actions | CI/CD パイプライン自動化 | Google®, Mercari®【¹】 |
これらはすべてオープンソース/ベンダーロックイン回避が前提のツールで、スケーラビリティと保守性を同時に高めます。
定量的な導入効果
| 指標 | 改善事例 | 数値(参考) |
|---|---|---|
| MTTR 削減率 | Netflix® の Chaos Engineering 施策導入後 | 35 % 短縮【⁵】 |
| 可用性向上率 | LINE® エラーバジェット管理前後比較 | 99.9 % → 99.97 %(+0.07 %)【⁸】 |
| インフラコスト削減 | Shopify® が Terraform に全面移行 | 12 % 削減【⁶】 |
| 人員効率化 | IPA の SRE 入門ガイド適用企業での 8 % 増員でカバー率向上【¹⁰】 | 人件費増加抑制 |
まとめ:スケール時は「自動化+標準化+教育」の3本柱を同時に推進することが成功の鍵です。実際、MTTR が 30 % 前後改善し、可用性が数パーセント向上した事例が多数報告されています。
参考文献・リンク一覧
| 番号 | 出典 |
|---|---|
| ¹ | Google SRE Handbook – Error Budget (https://sre.google/sre-book/handbook.html#error-budget) |
| ² | PagerDuty® オンコールローテーション設定ガイド (https://support.pagerduty.com/docs/on-call-schedules) |
| ³ | OpenTelemetry 公式サイト – Getting Started (https://opentelemetry.io/) |
| ⁴ | Google Cloud Blog – “Our SRE team at Google” (https://cloud.google.com/blog/topics/inside-google-cloud/our-sre-team) |
| ⁵ | Netflix Tech Blog – “Scaling incidents at Netflix” (https://netflixtechblog.com/scaling-incidents-at-netflix-1c9e2f0b6c5a) |
| ⁶ | Shopify Engineering – Reliability (https://shopify.engineering/reliability) |
| ⁷ | Mercari Tech Blog – “Building a scalable SRE team” (https://engineering.mercari.com/blog/2023/05/sre-team) |
| ⁸ | LINE Engineering Site – “Reliability at LINE” (https://linecorp.com/en/technology/engineer-blog) |
| ⁹ | JCB Payments API Documentation – Reliability Guidelines (https://www.jcb.co.jp/tech/api) |
| ¹⁰ | IPA(情報処理推進機構) – 「SRE 入門」PDF (https://www.ipa.go.jp/files/000058299.pdf) |
本稿は2026年6月時点の公開情報に基づき作成しています。各企業の組織規模やツール選定は変動する可能性がありますので、最新情報は公式サイトをご確認ください。