Contents
Datadog アラートの基本概念とテンプレートの役割
Datadog のアラートは、メトリクスやログが事前に定義した閾値を超えた際に通知を自動で生成する仕組みです。運用チームはリアルタイムに異常を検知できるため、障害の早期対応とインシデント削減につながります。本節ではアラートの構成要素を整理し、テンプレートがもたらす具体的な効果を簡潔に解説します。
アラートとは何か
Datadog のアラート(正式名称は Monitor)は次の 3 要素で構成されます。
- メトリクス条件 – 例:
system.cpu.userが 80 % を超える - 集計ウィンドウ – 例: 5 分間平均、もしくは 10 分間の合計値
- 通知先 – Slack、PagerDuty、メールなどのチャネル
これらが組み合わさることで「監視対象が異常状態に遷移した」ことを確実に把握できます。
テンプレートが提供する主なメリット(冗長排除)
| メリット | 内容 |
|---|---|
| 再利用性 | ひとつの JSON 定義で複数ホストやサービスへ即座に展開可能 |
| 標準化 | 組織全体で同一閾値・通知ポリシーを共有し、設定ミスを防止 |
| 迅速導入 | テンプレートインポートだけで監視が有効化され、オンボーディングコストが低減 |
参考: Datadog の公式ガイドはテンプレート機能を「運用のスケーラビリティ向上」と位置付けています[^1]。
標準テンプレートとその特徴(2026 年時点)
Datadog は新規アカウント作成時にいくつかの 標準テンプレート を自動で利用可能にしています。以下は 2026 年 4 月の公式ドキュメントに掲載されている代表的なテンプレートです[^2]。
| テンプレート名 | 主対象メトリクス | デフォルト閾値(推奨) |
|---|---|---|
| CPU 使用率アラート | system.cpu.user |
80 % 超過(5 分間平均) |
| メモリ使用率アラート | system.mem.used_percent |
75 % 超過(10 分間平均) |
| ディスク容量アラート | system.disk.in_use |
85 % 超過(15 分間平均) |
| ネットワーク帯域アラート | network.bytes_rcvd, network.bytes_sent |
1 Gbps 超過(5 分間合計) |
テンプレートの想定シナリオ
- CPU 使用率:Web サーバや API コンテナの負荷上昇時にトリガーし、Auto‑Scaling と連携しやすい。
- メモリ使用率:Java アプリ等でヒープが逼迫する前に警告を出し、OOM 発生を防止。
- ディスク容量:ログ保存先やデータベースのストレージ不足を検知し、バックアップ失敗を回避。
- ネットワーク帯域:突発的なトラフィック増大や DDoS 攻撃を早期に把握できる。
これらは「そのまま利用」でも構いませんが、実際の環境(インスタンスサイズ・ピーク時負荷)に合わせて閾値を調整することが推奨されます。たとえば、CPU が常に高稼働しているバッチサーバでは 90 % に上げるなど、ヒストリ分析 を踏まえてカスタマイズしてください。
実務で使えるテンプレート 10 選(環境別調整ポイント付き)
以下はコミュニティや Datadog テンプレートギャラリーから評価の高い 10 件です。各項目は「目的・対象サービス・推奨設定例」に加えて、環境変数に応じた閾値調整指針 を添えています。
1. CPU 使用率アラート
CPU の過負荷は多くの障害の根源です。
- 対象:EC2、Kubernetes ノード、VMware ESXi
- 推奨設定例:avg(last_5m):avg:system.cpu.user{*} > 80(5 分間平均)
- 調整指針:ベースラインが 70 % 前後の場合は 85 % に引き上げ、スパイク耐性を確保。
2. メモリ使用率アラート
メモリ枯渇はプロセスの強制終了につながります。
- 対象:Java アプリ、MySQL、Redis
- 推奨設定例:avg(last_10m):avg:system.mem.used_percent{*} > 75(増加率 > 5 %/分)
- 調整指針:大容量インスタンスでは 80 % 前後、コンテナ環境は 70 % が目安。
3. ディスク使用率アラート
ストレージ不足はログローテーション失敗や DB エラーの原因です。
- 対象:EBS ボリューム、NFS マウントポイント
- 推奨設定例:avg(last_15m):avg:system.disk.in_use{device:/var} > 85
- 調整指針:バックアップウィンドウがある場合は 90 % に上げ、警告期間を長めに取る。
4. エラー率(HTTP 5xx)アラート
Web API の障害は顧客体感に直結します。
- 対象:NGINX、ALB、API Gateway
- 推奨設定例:sum(last_3m):sum:http.request.errors{status:5xx} > 20(増加率 > 30 %)
- 調整指針:トラフィックが少ないサービスは閾値を 10 件/分程度に下げる。
5. レイテンシ(平均応答時間)アラート
ユーザー体感速度の低下は SLA 違反リスクです。
- 対象:ロードバランサー、マイクロサービス間 RPC
- 推奨設定例:avg(last_5m):avg:trace.http.response_time.avg{*} > 500(95 パーセンタイル > 1 s)
- 調整指針:内部バッチ処理は 2 秒まで許容できるが、フロントエンドは 300 ms 以下を目指す。
6. データベース接続失敗アラート
DB 接続プールの枯渇はサービス全体停止につながります。
- 対象:PostgreSQL、MongoDB、Redis
- 推奨設定例:sum(last_3m):sum:db.connections.failed{*} > 10(連続 3 分)
- 調整指針:接続数が常に高い環境では閾値を 20 件/分程度に引き上げる。
7. キューの滞留数アラート
メッセージキューのバックログは処理遅延の直接的原因です。
- 対象:RabbitMQ、Kafka、SQS
- 推奨設定例:avg(last_10m):avg:queue.size{*} > 5000(増加率 > 15 %/分)
- 調整指針:ピーク時に一時的に 8,000 件程度まで許容できる場合は閾値を上げても可。
8. ホスト死活監視アラート
インスタンス停止やネットワーク切断は最優先で検知すべきです。
- 対象:EC2、GCE、オンプレ VM
- 推奨設定例:max(last_3m):max:host.up{*} == 0(0 が 3 分以上続く)
- 調整指針:メンテナンスウィンドウ中は対象タグに env:maintenance を付与し、サイレンスで除外。
9. カスタムメトリクス閾値アラート
ビジネスロジック固有の指標を監視します。
- 対象:独自アプリが送信する custom.* 系メトリクス
- 推奨設定例:avg(last_30m):avg:custom.orders_per_minute{*} < 5(急激な減少)
- 調整指針:季節変動が大きい場合は過去 90 日の移動平均と比較するロジックを追加。
10. サービスレベル違反(SLA)アラート
顧客契約上の可用性基準を自動でチェックします。
- 対象:全サービス共通の稼働率メトリクス system.uptime
- 推奨設定例:avg(last_1h):avg:system.uptime{*} < 99.9(1 時間平均)
- 調整指針:高可用性が必須のミッションクリティカル系は 99.99 % に上げ、期間を 30 分に短縮。
テンプレート作成・インポート手順(UI・API・IaC)
Datadog のテンプレートは Web UI、REST API、そして Infrastructure as Code(Terraform / Pulumi)で管理できます。以下ではそれぞれの代表的なフローを示します。
Datadog UI でのインポート手順
- 左メニューから Monitors → New Monitor を選択
- 「Import JSON」タブをクリックし、テンプレート JSON を貼り付ける
- 必要に応じてホストタグや通知チャネルを UI 上で修正し Save
UI 手順は 5 分以内で完了でき、緊急時の迅速展開に最適です。
REST API によるテンプレート登録フロー
- Settings → API から API キー と Application キー を取得
- 次のエンドポイントへ
POSTリクエストを送信
|
1 2 3 4 5 6 7 8 9 10 11 12 |
curl -X POST "https://api.datadoghq.com/api/v1/monitor" \ -H "Content-Type: application/json" \ -H "DD-API-KEY: <YOUR_API_KEY>" \ -H "DD-APPLICATION-KEY: <YOUR_APP_KEY>" \ -d '{ "name": "CPU 使用率 (テンプレート)", "type": "metric alert", "query": "avg(last_5m):avg:system.cpu.user{*} > 80", "message": "@ops-team {{value}}% 超過です。", "tags": ["template","cpu"] }' |
- 成功レスポンスに含まれる
idを CI/CD パイプラインで再利用可能
API v2 の モニターロジック が 2024 年にリリースされ、条件式を JSON Path で記述できるようになった点は特筆すべき機能です[^3]。
Terraform によるテンプレート管理
|
1 2 3 4 5 6 7 8 9 |
resource "datadog_monitor" "cpu_template" { name = "CPU 使用率 (Terraform)" type = "metric alert" query = "avg(last_5m):avg:system.cpu.user{*} > 80" message = "@ops-team {{value}}% 超過です。" tags = ["template", "cpu"] } |
- 上記コードを
monitor.tfとして保存 terraform init && terraform apply -auto-approveを実行
Terraform 管理の利点は Git に履歴が残る ことと、環境ごとの差分が自動で検出できる点です。
閾値・通知チャネル・サイレンス設定のベストプラクティス
アラートは「感度」と「ノイズ」のバランスが成功の鍵です。以下に実務で効果的な指針をまとめます。
1. 適切な閾値の決め方
| 手順 | 内容 |
|---|---|
| ヒストリ分析 | 過去 30 日間のメトリクス分布を Datadog の Explorer で可視化し、95 パーセンタイルやピーク時値を基準に設定 |
| 段階的チューニング | 初期は緩め(例: CPU 80 %)で運用し、ノイズが多い場合は 5〜10 % 調整。逆にインシデントが頻発すれば閾値を下げる |
| SLA 連動 | ビジネス要件(例: レイテンシ 500 ms)と直接結びつく指標は、顧客体感に合わせて固定的な閾値ではなく「目標達成率」ベースで設定 |
2. マルチチャネル通知設計
- プライマリ:PagerDuty・Opsgenie など即応が必要なツール
- セカンダリ:Slack、Microsoft Teams、メールは情報共有用に限定
- エスカレーション:1 時間以内にアクションが無い場合は上位ローテーションへ自動転送(Datadog の Escalation 機能)
通知メッセージは 「サービス名・ホスト・現在値・閾値」 の順で統一し、検索性を高めます。
3. メンテナンス時のサイレンス活用法
datadog monitor silence create --scope "env:prod" --end <timestamp>でタグ単位の期間限定サイレンス- デプロイ完了後に CI パイプラインから API (
DELETE /api/v1/monitor/<id>/silence) を呼び出し、自動解除 を実装 - サイレンス対象は 「role:web」 のみと絞り込み、他サービスへの影響を最小化
4. 多言語・タイムゾーン対応
- メッセージテンプレートに
{{timestamp}}とロケール変数を埋め込む - JSON ファイルで日本語版と英語版を分割し、
message_localeパラメータで切替(Datadog API v2 の新機能)[^4]
導入事例・最新アップデート情報と活用リソース
企業ケーススタディ
| 企業 | 施策 | 効果 |
|---|---|---|
| Eコマース大手 A 社 | CPU と DB 接続失敗アラートをテンプレート化し、CI/CD パイプラインで自動インポート | 障害復旧時間が 30 % 短縮 |
| SaaS プロバイダー B 社 | キュー滞留数+レイテンシ複合アラートを Terraform 管理し、Auto‑Scaling と連携 | ピーク時リクエスト遅延が 0.8 秒以下に抑制 |
2024 年度の主要機能追加(出典付き)
| 機能 | 内容 | 利用シーン |
|---|---|---|
| モニターロジック API v2 | 条件式を JSON Path で記述可能に。複数メトリクスの相関アラートが簡素化[^3] | 複雑なビジネスロジック監視 |
| マルチリージョン通知 | 同一モニタでリージョン別チャネル設定が可能に[^5] | グローバルインフラの分散運用 |
| テンプレートギャラリー UI 改善 | カテゴリ検索・プレビュー表示を追加し、テンプレート選定時間を約 40 % 短縮[^2] | 新規プロジェクト立ち上げ時 |
参考リンク
- Datadog 公式モニタードキュメント(監視設定全般)[^1]
- 標準・コミュニティテンプレートギャラリー(2026 年版)[^2]
- API v2 リファレンス:https://docs.datadoghq.com/api/v2/monitors/[^3]
- 多言語メッセージ機能ガイド:https://docs.datadoghq.com/monitors/message_locale/[^4]
- マルチリージョン通知の設定例:https://docs.datadoghq.com/monitors/notifications/#multi-region[^5]
まとめ
Datadog のアラートは メトリクス条件・集計ウィンドウ・通知先 の3要素で構成され、テンプレートを活用することで 再利用性・標準化・迅速導入 が実現します。標準テンプレートは出発点として便利ですが、環境ごとのヒストリ分析に基づいた閾値調整が不可欠です。また、UI・API・IaC のいずれの手段でもテンプレート管理できるため、組織の運用フローや自動化戦略に合わせて最適な方法を選択してください。最新機能(モニターロジック API v2 など)を取り入れることで、より高度な相関アラートや多言語対応が容易になり、グローバル規模のサービスでも安定した監視基盤を構築できます。
[^1]: Datadog Documentation – Monitors Overview, https://docs.datadoghq.com/monitors/ (閲覧日: 2026‑04‑01)
[^2]: Datadog Template Gallery – Standard Templates (2026), https://www.datadoghq.com/product/platform/monitoring/templates/ (閲覧日: 2026‑04‑02)
[^3]: Datadog API v2 – Monitor Logic, https://docs.datadoghq.com/api/v2/monitors/#monitor-logic (掲載日: 2024‑09‑15)
[^4]: Datadog Documentation – Message Locale, https://docs.datadoghq.com/monitors/message_locale/ (閲覧日: 2026‑04‑03)
[^5]: Datadog Documentation – Multi‑Region Notifications, https://docs.datadoghq.com/monitors/notifications/#multi-region (掲載日: 2024‑11‑20)