Contents
Grafana Cloud の全体像とフルスタックオブザーバビリティ
Grafana Cloud は Metrics・Logs・Traces・Dashboards を一元管理できるフルスタックの観測基盤です。
本セクションでは、各コンポーネントがどんな役割を担い、相互にどう連携するかを把握します。これを理解すれば、システム全体の可視化設計がスムーズに進められます。
Metrics(Mimir)
Mimir は Grafana Cloud が提供する水平スケーラブルな時系列データベースで、Prometheus 互換の Remote Write に対応しています。
- 高可用性:分散ストレージとマルチテナント設計により、数十億サンプルでも低遅延でクエリ可能
- スケール特性:クラスタを横方向に増やすだけで書き込みスループットが伸びます(公式ドキュメント: https://grafana.com/docs/mimir/latest/))
- 実績例:1 日あたり 10 億サンプルでも数秒以内に結果が返ると公開されています
Logs(Loki)
Loki はインデックスを最小限に抑えてログを保存し、Prometheus と同じラベル体系で検索できる点が特徴です。
- 低コスト:インデックス作成の負荷がほぼゼロなので、GB 単位のログでも経済的に保持できます
- メトリクス連携:Metrics のラベルと同じ形式でクエリできるため、障害時に「メトリクス → ログ」の相関が容易です(Loki ドキュメント: https://grafana.com/docs/loki/latest/))
- 無料プラン:月間 5 GB の保存上限で開発・PoC に十分な容量を提供
Traces(Tempo)
Tempo はオブジェクトストレージへの書き込みのみでトレースデータを永続化する設計です。OpenTelemetry とフル互換です。
- スケールアウトが簡単:バックエンドは S3 互換ストレージなので、容量増加に伴う追加設定は不要
- 低コスト・高耐久:書き込み側でほとんど処理を行わないため、数十億スパンのトレースでもコストが抑えられます(Tempo ドキュメント: https://grafana.com/docs/tempo/latest/))
- 保存単位の明確化:プランごとに「月間 10 M spans」などの上限が設定され、1 M は 1 百万スパンを意味します
Dashboards による統合可視化
Grafana のダッシュボードは Metrics・Logs・Traces を同一画面で組み合わせ、リアルタイムに更新できる UI を提供します。
- 統合ビュー:単一パネル内で時系列グラフとログ検索結果、トレースのサマリを表示可能
- 拡張性:プラグインやテンプレートが豊富で、組織固有の可視化要件に合わせてカスタマイズできます(Grafana ダッシュボードガイド: https://grafana.com/docs/grafana/latest/dashboards/))
- アラート機能:クエリ結果に基づく閾値アラートを直接パネルから設定でき、運用フローと統合しやすい
無料プランで始める手順と有料プラン比較ポイント
無料プランは 数分で利用開始 でき、導入検証に最適です。ここではサインアップから基本設定までの流れと、有料プランとの主要違いを整理します。
クレジットカード不要のサインアップフロー
まずは公式サイトの「Start for free」ボタンからアカウント作成します。以下の手順で完了できます(実際に 3 ページだけです)。
- メールアドレスとパスワード、または GitHub/Google の OAuth で認証
- ワークスペース名を入力し、プラン選択画面で Free を選択
- 「Create workspace」ボタンをクリックして完了
ポイント:サインアップにクレジットカードは不要で、5 分以内に UI にアクセス可能です(参考: CodeZine 記事 https://codezine.jp/article/detail/23698))。
数分で完了する設定ステップ
以下の表は無料プランで最小構成を作るための手順と目安時間です。各項目は公式「One‑Click」ガイドに基づいています(https://grafana.com/docs/grafana-cloud/quickstart/)。
| 手順 | 内容 | 所要時間目安 |
|---|---|---|
| 1. ワークスペース作成 | 無料プランのワークスペースが自動生成されます | < 1 分 |
| 2. API キー取得 | Settings → Service Accounts からキーを発行 | 1 分 |
| 3. Grafana Agent ダウンロード | OS に合わせたバイナリを取得(Linux/Windows) | 1 分 |
| 4. Remote Write 設定 | grafana-agent.yaml に Mimir エンドポイントを書き込む |
2 分 |
| 5. データ送信確認 | UI の Explore でメトリクスが表示されるかチェック | 1 分 |
有料プランとの主要違いと選択基準
プランごとのリソース上限や機能は以下の通りです。単位は「月間保存量」または「月間スパン数」を明示し、曖昧さを排除しました。
| 項目 | Free (無料) | Pro | Advanced |
|---|---|---|---|
| Metrics 保存期間 | 30 日 | 無制限 | 無制限 |
| Logs 保存上限 | 5 GB/月 | 50 GB/月 | 200 GB/月 |
| Traces(Spans)保存上限 | 10 M spans/月 | 100 M spans/月 | 500 M spans/月 |
| AI‑Observability 利用可否 | 制限付き(プロトタイプのみ) | フル機能利用可 | エンタープライズ向け拡張あり |
| SLA (稼働率) | 99.5 % | 99.9 % | 99.99 % |
| 価格(月額) | 無料 | $49/ユーザー相当 | カスタム見積もり |
ポイント:AI‑Observability は Pro プラン以上でフル機能が提供され、無料プランでは試用レベルのアクセスに留まります(公式 AI ドキュメント: https://grafana.com/docs/grafana-cloud/observability/ai-observability/)。
Grafana Agent とテレメトリ収集の実装
Grafana Agent は Metrics・Logs・Traces を単一バイナリで取得し、Cloud へ転送できる軽量エージェントです。各 OS および Kubernetes 環境へのインストール手順と基本設定例を示します。
Linux / Windows へのインストール手順
Linux(Ubuntu/Debian 系)
以下のコマンドでバイナリを取得し、システムユーザーとして配置します。
|
1 2 3 4 5 6 |
curl -fsSL https://dl.grafana.com/agent/release/grafana-agent-linux-amd64.zip -o agent.zip unzip agent.zip && sudo mv grafana-agent /usr/local/bin/ sudo useradd --system --no-create-home --shell /sbin/nologin grafana-agent sudo mkdir -p /etc/grafana-agent sudo chown grafana-agent:grafana-agent /etc/grafana-agent |
Windows(PowerShell)
PowerShell でダウンロードし、サービスとして登録します。
|
1 2 3 4 5 6 |
Invoke-WebRequest -Uri https://dl.grafana.com/agent/release/grafana-agent-windows-amd64.zip -OutFile agent.zip Expand-Archive .\agent.zip -DestinationPath "C:\Program Files\GrafanaAgent" New-Service -Name "grafana-agent" ` -BinaryPathName "C:\Program Files\GrafanaAgent\grafana-agent.exe" ` -DisplayName "Grafana Agent" |
ポイント:Go で単一バイナリ化されているため、依存パッケージのインストールは不要です(エージェントドキュメント: https://grafana.com/docs/grafana-agent/latest/installation/)。
Kubernetes 環境でのデプロイ例
Kubernetes では DaemonSet と ConfigMap を組み合わせると、全ノードからテレメトリを自動収集できます。
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 |
apiVersion: apps/v1 kind: DaemonSet metadata: name: grafana-agent namespace: monitoring spec: selector: matchLabels: app: grafana-agent template: metadata: labels: app: grafana-agent spec: serviceAccountName: grafana-agent containers: - name: agent image: grafana/agent:latest args: - -config.file=/etc/agent/grafana-agent.yaml volumeMounts: - name: config mountPath: /etc/agent volumes: - name: config configMap: name: grafana-agent-config |
ポイント:DaemonSet により、クラスタの各ノードがエージェントを実行し、Prometheus の Remote Write へ直接転送します(K8s ガイド: https://grafana.com/docs/grafana-cloud/kubernetes/)。
Prometheus Remote Write 設定方法
grafana-agent.yaml に Mimir エンドポイントと認証情報を書き込むだけで完了します。
|
1 2 3 4 5 6 7 8 9 10 11 12 |
metrics: wal_directory: /tmp/wal global: scrape_interval: 15s configs: - name: default remote_write: - url: https://prometheus-prod-01.grafana.net/api/prom/push basic_auth: username: <YOUR_USER_ID> password: <API_KEY> |
ポイント:Mimir が提供する Prometheus 互換 API を利用するため、既存の Prometheus 設定をほぼそのまま流用できます。
Loki ログ収集設定例
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
logs: configs: - name: default positions: filename: /tmp/positions.yaml target_config: sync_period: 10s scrape_configs: - job_name: systemd-journal journal: max_age: 12h labels: job: systemd-journal relabel_configs: - source_labels: ['__journal__systemd_unit'] target_label: 'unit' clients: - url: https://logs-prod-01.grafana.net/loki/api/v1/push basic_auth: username: <YOUR_USER_ID> password: <API_KEY> |
ポイント:Loki の Push API へ直接送信するため、ログローテーションやインデックス作成の負荷が大幅に削減されます(Loki 設定リファレンス: https://grafana.com/docs/loki/latest/configuration/)。
Tempo トレースエクスポート設定例
|
1 2 3 4 5 6 7 8 9 |
traces: configs: - name: default remote_write: - endpoint: https://tempo-prod-01.grafana.net/api/traces basic_auth: username: <YOUR_USER_ID> password: <API_KEY> |
ポイント:OTLP/GRPC エンドポイントに対してエージェントがトレースを送信し、Tempo がオブジェクトストレージへ永続化します(Tempo 設定ガイド: https://grafana.com/docs/tempo/latest/configuration/)。
OpenTelemetry Collector との併用例
OpenTelemetry Collector をサイドカーとしてデプロイすると、メトリクス・ログ・トレースを単一パイプラインで Grafana Cloud に送信できます。
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
receivers: otlp: protocols: grpc: {} http: {} exporters: prometheusremotewrite: endpoint: https://prometheus-prod-01.grafana.net/api/prom/push loki: endpoint: https://logs-prod-01.grafana.net/loki/api/v1/push tempo: endpoint: https://tempo-prod-01.grafana.net/api/traces service: pipelines: metrics: receivers: [otlp] exporters: [prometheusremotewrite] logs: receivers: [otlp] exporters: [loki] traces: receivers: [otlp] exporters: [tempo] |
ポイント:Collector が全テレメトリ形式を統一的に受け取り、Grafana Cloud の各バックエンドへ自動転送します(OTel Collector ドキュメント: https://opentelemetry.io/docs/collector/)。
AI Observability と Java プロファイリング機能の活用
AI Observability は機械学習を利用して 異常検知・予測分析 を行う機能です。Pro 以上のプランでフルに提供され、Java アプリ向けプロファイラは低侵襲で CPU/メモリのボトルネックを可視化します。
AI Observability の概要と主な利用シーン
AI Observability はテレメトリ全体を学習し、リアルタイムに異常スコアを算出します。代表的な活用例は次の通りです。
- インシデント予測:過去 30 日間の CPU・ネットワーク指標から、翌週のスパイク確率を提示
- 根因自動推定:異常が検出された瞬間に、関連ログ・トレースを相関付けて原因候補をハイライト
ポイント:ユーザー側でモデルを構築する必要はなく、Grafana Cloud が提供するマネージド AI エンジンが自動で学習します(AI Observability ドキュメント: https://grafana.com/docs/grafana-cloud/observability/ai-observability/)。
AI 機能の有効化手順
- Grafana Cloud コンソール左メニュー Observability → AI を選択
- 「Enable AI Observability」スイッチをオンにし、対象ワークスペースを確認
- 必要なデータセット(Metrics/Loki/Tempo)へのアクセス権が自動付与される
ポイント:有効化は UI の数クリックで完了し、その後すぐに AI ダッシュボードが利用可能です。
代表的な AI ダッシュボード
| ダッシュボード名 | 主な内容 |
|---|---|
| AI Anomaly Overview | スコア上位 10 指標の時系列と異常発生頻度 |
| Predictive Capacity | CPU・メモリ使用率の予測曲線と閾値超過確率 |
| Root Cause Assistant | 異常時に関連ログ・トレースを自動リンクし、原因候補を提示 |
ポイント:これらはデフォルトで用意されたテンプレートなので、カスタマイズせずにすぐ活用できます。
Java プロファイリングエージェントの設定方法
Grafana が提供する Java Profiler は OpenTelemetry の Instrumentation API に準拠した -javaagent 方式です。コード修正は不要で、JVM 起動オプションに追加するだけでプロファイルが取得できます。
手順概要
|
1 2 3 4 5 6 7 8 9 |
# 1. エージェント JAR をダウンロード curl -O https://dl.grafana.com/agent/java-profiler.jar # 2. アプリ起動時にエージェントを添付 java -javaagent:/path/to/java-profiler.jar \ -Dgrafana.agent.endpoint=https://tempo-prod-01.grafana.net/api/traces \ -Dgrafana.agent.authToken=<API_KEY> \ -jar your-app.jar |
ポイント:エージェントは CPU Flame Graph、Heap Snapshot などのプロファイルデータを Tempo に送信し、Grafana の「Profiler」パネルで可視化できます(Java Profiler ドキュメント: https://grafana.com/docs/grafana-cloud/observability/java-profiler/)。
可視化例
- CPU Flame Graph:リクエストごとの CPU 使用時間が階層的に表示され、ボトルネック関数が一目で分かります。
- Heap Snapshot:ヒープ使用状況のヒートマップを確認し、メモリリーク疑惑箇所を特定できます。
まとめ
AI Observability と Java プロファイラは、予測的可視化 と 低レベルパフォーマンス診断 を同時に提供します。無料プランでは機能が制限されますが、Pro 以上へのアップグレードでフル活用できるため、導入段階の要件評価と合わせて検討すると良いでしょう。
初期設定から運用までのベストプラクティスとトラブルシューティング
テレメトリが Cloud に届いたことを確認し、実務に即したダッシュボード・アラートを整備することで、投資効果を最大化できます。
データ送信確認とシンプルなダッシュボード作成手順
- Grafana UI にログイン → 左メニューの Explore を選択
- 任意の Metrics(例:
node_cpu_seconds_total)をクエリし、結果が表示されるか確認 - 「+ Create → Dashboard」から空パネルを作成し、先ほどのクエリを貼り付けて保存
ポイント:Explore がリアルタイムにバックエンドへ問い合わせるため、送信遅延や認証エラーが即座に分かります。
推奨アラート設定と代表的なルール例
以下は一般的に有効性が高いと評価されているアラートパターンです。閾値は環境に合わせて調整してください。
| 条件例 | アラートタイプ | 推奨通知先 |
|---|---|---|
| CPU 使用率 > 80 %(5 分間) | Threshold + Notification (Slack / Teams) | インフラ担当チャンネル |
| Loki のエラーログ増加率 > 2× 前日比 | LogQL アラート | SRE グループ |
| Tempo のエラー率 > 5 %(15 分) | Trace‑based アラート | Incident Management ツール |
ポイント:アラートは「ノイズが少なく、対処価値が高い」設定を心掛け、過剰通知による疲労を防ぎます。
トラブルシューティングチェックリスト
| カテゴリ | 確認項目 | 推奨対応 |
|---|---|---|
| データ送信失敗 | エージェントログに error が出ていないか |
journalctl -u grafana-agent で確認、必要なら再起動 |
| 認証エラー | API キーの有効期限・権限をチェック | Grafana Cloud の API Keys ページで新規作成 |
| 高レイテンシ | Remote Write RTT が 500 ms 超えていないか | curl -w "%{time_total}" https://prometheus-prod-01.grafana.net で測定 |
| プロファイル未送信 | Java エージェントの profiler.enabled が true か |
環境変数 GRAFANA_PROFILER_ENABLED=true を設定 |
ポイント:問題は ログ と メトリクス の両方から切り分けると、原因特定が高速化します。Grafana Cloud は各コンポーネントのステータス API も提供しているため、スクリプト化した監視を組み込むことを推奨します(ステータス API: https://grafana.com/docs/grafana-cloud/api/status/)。
まとめ
- Grafana Cloud は Metrics・Logs・Traces を統合的に管理できるフルスタック観測基盤であり、Mimir・Loki・Tempo がそれぞれのデータ種別を最適化して処理します。
- 無料プランでも数分で環境構築が完了し、API キー取得 → Grafana Agent 設定 → データ送信確認 の流れだけで実運用に近い状態になります。
- 有料プランは 保存期間・容量・AI Observability などの拡張機能で差別化され、プロジェクト規模や要件に合わせて段階的に移行できます。
- AI Observability と Java Profiler は予測的なインシデント検知と低レベルパフォーマンス診断を実現し、Pro 以上のプランでフル活用が可能です。
- 最後に、ベストプラクティス(データ送信確認 → ダッシュボード作成 → アラート設定)と トラブルシューティングチェックリスト を定期的に回すことで、観測基盤の安定運用が実現できます。
このガイドを手元に置きながら、まずは無料プランで環境を構築し、必要に応じて有料機能へステップアップしてみてください。