Contents
1. AI アラートの概要と提供プラン
AI アラートは Grafana Cloud と Grafana Enterprise の両方で利用できるよう設計されていますが、機能の標準搭載範囲やカスタマイズ性はプランごとに異なります。ここでは、各プランの主要機能を比較し、導入判断の材料を提供します。
1‑1. プラン別機能比較(2024 年 10 月時点)
| 機能 | Grafana Cloud – Standard / Pro | Grafana Enterprise – Enterprise / Enterprise+ |
|---|---|---|
| AI アラート本体 | Pro プラン以上でベータ版が利用可能(Cloud UI の「AI Alerting」スイッチ) | Enterprise は全プランで標準搭載、Enterprise+ では追加のカスタムモデルと専用サポートを提供 |
| 自動閾値提案 | 過去データから統計的最適閾値を算出し UI に提示 | 同様だが、Enterprise+ では モデルパラメータ調整 が可能 |
| 時系列予測ウィンドウ | デフォルト 7 日間(ベータ版) | カスタム期間(最大 30 日)に対応、Enterprise+ は日次・週次の長期予測をサポート |
| エラーバジェット連携 | オプションとして SRE エラーバジェット 設定可能(手動入力) | Enterprise+ では 自動算出ロジック が組み込まれ、ダッシュボードに可視化 |
| API / SDK | REST API v2 に統合済み(ベータ) | 同上+Enterprise 用 Go/Java SDK が別途提供 |
| SLA・サポート | Cloud 標準 SLA 99.9%(障害時は自動チケット生成) | Enterprise 契約に基づくカスタム SLA、Enterprise+ は 24 時間体制の専任エンジニアが対応 |
注記:AI アラートは現在ベータ版であり、機能追加や利用条件が変更される可能性があります。最新情報は公式ドキュメント(Grafana AI Alerting)をご確認ください。
1‑2. プラン名称の統一
- Grafana Cloud –
Standard/Pro(※「Professional」表記は使用しない) - Grafana Enterprise –
Enterprise(ベーシックプラン) /Enterprise+(高度カスタマイズ版)
2. AI アラートの有効化手順
AI アラートを利用するには、組織レベルでスイッチをオンにしたうえで、必要な権限とスコープを設定します。本節では Cloud と Enterprise の違いを踏まえて具体的手順を示します。
2‑1. 組織全体での有効化
ポイント:AI アラートは「Organization Settings」→「Alerting」タブから一括で有効化できます。権限が適切に付与されていれば、以降は個別ダッシュボードやパネルで自動的に利用可能です。
手順概要(共通)
- Grafana に管理者権限でログイン
- 画面左上の組織名をクリック → Settings を選択
- Alerting タブを開き、AI Alerting スイッチを ON にする
Cloud の追加設定
- 「Enable AI for all data sources」チェックボックスを有効にすると、既存データソース全体で自動閾値提案が利用可能になります。
- 必要権限:
Organization AdminまたはGrafana Administrator
Enterprise のスコープ設定
- 「Scope」ドロップダウンから プロジェクト / チーム を選択でき、対象範囲を細かく制御できます。
- 必要権限:任意の RBAC ロールに
Alerting:Read/Writeが付与されていれば可
3. データソースとメトリクス選定 ― AI が提案する閾値活用法
AI アラートは適切なデータソースとメトリクスが揃って初めて有効に機能します。この章では、データソースの登録から AI が提示する具体的な閾値例までを解説します。
3‑1. データソース登録手順
| 手順 | 操作内容 |
|---|---|
| 1 | 左メニュー Configuration → Data Sources を開く |
| 2 | 「Add data source」から対象(Prometheus、Loki、Elasticsearch 等)を選択 |
| 3 | 接続情報(URL、認証方式)を入力し、Save & test で接続確認 |
ポイント:タイムゾーンはすべて
UTCに統一すると、予測モデルの学習時にズレが生じません。
3‑2. AI が提示する閾値例(ベータ版)
AI は過去 30 日間のデータを元に Prophet(季節性分解)と LSTM(長期依存関係学習)のハイブリッドモデルで異常点を推定し、統計的有意水準(95% 信頼区間)に基づく閾値を提案します。
| メトリクス | AI 提案閾値 | 補足 |
|---|---|---|
| CPU 使用率 (5 分平均) | 78 % (95 パーセンタイル) | ピーク時だけアラートが鳴るよう調整 |
| HTTP エラー率(1 時間集計) | 2.4 % (過去30日平均 + 3σ) | バースト除外のための上限 |
| ディスク I/O 待ち時間 | 120 ms (予測上限) | 急激な増加を検知 |
3‑3. 閾値提案の有効化手順
- ダッシュボードで対象パネルを開く
- パネル右上の AI Assist アイコン → Suggest Threshold をクリック
- 提示された閾値を確認し、必要に応じて数値を調整して Save
4. AI 予測モデルを用いたアラートルール作成(UI と API)
AI アラートは UI のウィザードだけでなく、REST API を通じても自動化できます。ここでは両者の具体的手順とサンプルコードを示します。
4‑1. UI での予測ベースアラート作成
ポイント:UI の「AI Mode」タブで Enable predictive model をオンにすると、モデルが自動算出した閾値が表示されます。
手順(要約)
- 左メニュー Alerting → Notification policies → New alert rule
- 対象パネルとデータソースを選択
- AI Mode タブで「Enable predictive model」チェック
- AI が提示した 予測閾値(例:85 % CPU)を確認し、必要なら手動調整
- 条件式
When predicted value > thresholdを追加 → 通知チャネルを選択 → Save
4‑2. API でのルール自動作成
AI が算出したモデル情報は /api/v2/alert-rules/{uid} の GET 応答に含まれます。以下は予測式付きアラートルールを POST する例です。
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
curl -X POST https://grafana.example.com/api/v2/alert-rules \ -H "Authorization: Bearer $GRAFANA_TOKEN" \ -H "Content-Type: application/json" \ -d '{ "title": "CPU Predictive Alert", "dashboardUID": "system-overview", "panelId": 2, "dataSourceUid": "prometheus", "condition": { "type": "query", "refId": "A", "model": { "datasource": {"uid":"prometheus"}, "expr": "predict_linear(cpu_usage[5m], 300) > 0.78" } }, "notificationChannelUid": "slack-channel-01", "labels": {"severity":"critical"}, "annotations": {"summary":"CPU usage predicted to exceed 78%"} }' |
根拠:
predict_linearは Prometheus の組み込み関数ですが、Grafana AI が内部で生成した LSTM‑based モデルのパラメータを同等に表現します。実際のモデル名やハイパーパラメータは API 応答のmodelMetadataフィールドから取得できます。
5. 通知チャネル設定と AI アラート連携
AI アラートで検出されたインシデントを迅速に共有するため、メール・Slack・PagerDuty 等の通知チャネルを事前に登録しておくことが重要です。
5‑1. 各チャネルの基本設定手順
| 通知先 | 設定画面へのパス | 主な入力項目 |
|---|---|---|
| メール | Alerting → Notification channels → New channel → Email | SMTP サーバ、送信元アドレス、受信者リスト |
| Slack | Alerting → Notification channels → New channel → Slack | Webhook URL、デフォルトチャンネル、メンション設定 |
| PagerDuty | Alerting → Notification channels → New channel → PagerDuty | Integration Key(Events API 用) |
各画面の Test ボタンで送信テストが成功すれば完了です。
5‑2. AI アラート用リッチペイロード例
AI アラートは 拡張メタデータ を含む JSON ペイロードを通知先に送ります。これにより、受取側で自動的に詳細情報を展開できます。
メール本文(抜粋)
|
1 2 3 4 5 6 7 8 9 10 |
Subject: [Critical] CPU Predictive Alert - grafana.example.com Body: Alert: CPU Predictive Alert Dashboard: System Overview (UID: system-overview) Panel ID: 2 Predicted value (next 5 min): 82% Threshold: 78% Model version: v2024.10-beta Error budget remaining: 12h 30m |
Slack メッセージ(JSON)
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
{ "text": "*[Critical]* CPU Predictive Alert", "attachments": [ { "fields": [ {"title":"Dashboard","value":"System Overview"}, {"title":"Predicted value","value":"82%"}, {"title":"Threshold","value":"78%"}, {"title":"Model version","value":"v2024.10-beta"} ], "color":"danger" } ] } |
ポイント:
Error budget remainingは SRE のエラーバジェット概念(Google SRE Book)に基づき、AI が自動算出した残量です。通知チャネル側でこの情報を利用すると、トリアージが迅速化します。
6. テスト・デバッグ手順と運用ベストプラクティス
AI アラートは予測モデルに依存するため、本番稼働前の検証が不可欠です。以下ではシミュレーションテスト、Dry‑run 評価、トラブルシューティング方法をまとめます。
6‑1. テストシナリオの構築
ポイント:二段階テスト(データ注入 → Dry‑run)でモデルの挙動と通知ロジックを検証します。
手順
- Simulated data injection
- Prometheus の
remote_writeエンドポイントへテストメトリクスcpu_usage_test 85を送信(5 分間隔) - Dry‑run 実行
- UI のアラートルール詳細画面で Test Rule ボタンをクリック、または API
/api/v2/alert-rules/{uid}/evaluateを呼び出す - 結果比較
- 期待する「予測閾値超過」かつ「通知チャネル送信」が行われたか JSON 応答で確認
6‑2. よくある障害と対処法
| 症状 | 想定原因 | 推奨対策 |
|---|---|---|
| アラートが発火しない | データソースのタイムゾーン不一致 | 全データソースを UTC に統一 |
| 予測モデルが古い | 自動更新設定がオフ | AI Settings → Auto‑update model を有効化 |
| 通知遅延(Slack) | Slack のレートリミットに達している | rate_limit 設定を緩和、もしくはバッチ送信へ切替 |
6‑3. エラーバジェット活用によるノイズ削減
SRE が提唱する Error Budget Burn Rate を AI アラートに組み込むと、短時間の小規模異常は自動的に抑制され、本当に重要なインシデントだけが通知されます。
- エラーバジェット閾値例:月間 99.9% 可用性 →
burn_rate > 5の場合のみ「Critical」レベルで通知 - 設定手順
- アラートルール編集画面の Advanced タブへ移動
- Burn Rate Condition を追加し、
error_budget_remaining < 12hと比較
根拠:Google SRE Book(第 3 版)に基づくベストプラクティスです。
7. まとめ
- 利用可能プラン
- Cloud の Pro プラン以上、Enterprise 全プランで AI アラートを使用可。Enterprise+ はカスタムモデルと専任サポートが追加。
- 有効化は組織設定だけで完了し、権限が適切なら即座に利用開始できる。
- データソース・メトリクス選定が鍵。AI が自動提案する閾値を活用すれば、設定工数は大幅に削減されます。
- UI と API の両方でルール作成可能。CI/CD パイプラインからの自動デプロイも容易です。
- 通知チャネルは事前登録しリッチペイロードを活用すると、インシデント対応が迅速化します。
- テスト・デバッグとエラーバジェットベースのノイズ削減 を実装すれば、信頼性の高い運用が実現できます。
これらのステップに従うことで、Grafana AI アラートをゼロから本番環境へ導入し、インシデント検知と対応プロセスの自動化・最適化を達成できるでしょう。
参考文献
1. Grafana Documentation – AI Alerting (2024/10) – https://grafana.com/docs/grafana/latest/alerting/ai/
2. Facebook Prophet: Open‑source forecasting library – https://facebook.github.io/prophet/
3. Hochreiter, S., & Schmidhuber, J. (1997). Long Short‑Term Memory. Neural Computation.
4. Google Cloud Platform – Site Reliability Engineering (2020) – https://sre.google/sre-book/table-of-contents/