BigQuery データパイプライン構築手順 – Dataform と Cloud Scheduler の実践ガイド

2026年5月13日

Contents

1 前提条件と環境設定
- 1.1 GCP プロジェクト・課金の確認手順
- 1.2 サービスアカウントの作成と最小権限ロール付与
2 Dataform プロジェクト作成と CI/CD パイプライン
- 2.1 Dataform ワークスペースの作成手順
- 2.2 CI/CD の実装：Cloud Build トリガーの設定
  - 2.2.1 設定手順（概要）
3 SQL モデル実装と品質保証テスト
4 パイプラインのスケジューリングとモニタリング
- 4.1 Cloud Scheduler で定期実行ジョブを作成する手順
- 4.2 ログ・メトリクスの一元管理とアラート設定
5 dbt との比較・併用ベストプラクティス
- 5.1 主な比較ポイント
- 5.2 併用アーキテクチャ例
6 コスト最適化とパフォーマンスチューニング
7 まとめ

スポンサードリンク

前提条件と環境設定

このセクションでは、パイプライン構築を始める前に必ず確認すべき GCP の基本設定と、最低限の権限で安全に作業できるサービスアカウントの作り方を解説します。課金が無効なプロジェクトや過剰なロールを付与したままだと、ジョブ実行時にエラーが頻発するため、最初にしっかり整えておくことが成功への第一歩です。

GCP プロジェクト・課金の確認手順

GCP コンソールでプロジェクトと請求情報が正しく紐付いているかを確認します。
1. 左上メニュー → 「IAM と管理」 > 「請求」 を選択し、対象プロジェクトが一覧に表示されていることを確認します。
2. ステータスが 「有効」 であることをチェックし、必要なら予算アラートを設定してコスト超過リスクを抑えます。

サービスアカウントの作成と最小権限ロール付与

Dataform が BigQuery に対してテーブル作成・クエリ実行できるよう、最低限のロールだけを持つサービスアカウントを用意します。

手順	内容
1	「IAM と管理」 > 「サービスアカウント」を開く
2	「作成」 → 名前 `dataform-sa`、説明は任意で入力
3	権限付与画面で「ロールを選択」 → 「BigQuery データ編集者」「BigQuery ジョブユーザー」を追加
4	必要に応じて JSON 鍵を作成し、Cloud Secret Manager に保存して CI/CD から参照できるようにする

ポイント：最小権限の原則に従い、上記2つだけで十分です。ストレージへアクセスが必要な場合は Storage Object Viewer を個別付与してください。

Dataform プロジェクト作成と CI/CD パイプライン

Dataform は Git リポジトリと連携し、SQL モデルをコードとして管理・自動デプロイできる GCP のサービスです。本節では、コンソールからワークスペースを作成し、Cloud Build を利用した継続的デリバリーの流れを具体的に示します。

Dataform ワークスペースの作成手順

Dataform は GCP コンソールのメニューから直接起動できます（Marketplace で有効化が必要な場合があります）。
1. 左側メニュー → 「Dataform」 をクリックし、「ワークスペースを作成」 を選択。
2. ワークスペース名 my-data-pipeline とリージョン（例：us-central1）を入力し、Git プロバイダーに GitHub または Cloud Source Repositories を指定します。
3. リポジトリ URL とデフォルトブランチ（通常は main）を設定すると、自動的に Cloud Build 用のビルド構成が生成されます。

公式ガイドはこちら: https://cloud.google.com/dataform/docs/quickstart

CI/CD の実装：Cloud Build トリガーの設定

Git にプッシュされたコードを自動で Dataform が実行し、BigQuery に反映させる仕組みです。
- ビルドステップ: npm ci && npx dataform run --vars "env=prod"
- トリガー条件: main ブランチへのプッシュまたは Pull Request のマージ時
- 環境変数: PROJECT_ID, DATASET を Cloud Build の置換変数として設定

設定手順（概要）

コンソール → 「Cloud Build」 > 「トリガー」 で新規作成。
ソースは Dataform 用 Git リポジトリ、ブランチは main を選択。
ビルド構成をカスタムステップに切り替え、上記コマンドを貼り付けて保存します。

これでコード変更が自動的に BigQuery のテーブルやビューへデプロイされます。

SQL モデル実装と品質保証テスト

実務でよく採用される 3 層構造（Raw → Staging → Mart）を例に、Dataform 上でのディレクトリ配置・依存関係定義・テスト手法を解説します。

Staging 層の設計パターンとサンプル SQL

Staging は Raw データのクレンジングと標準化を行う層です。ビューとして実装し、 downstream の Mart での集計コストを抑えることがポイントです。

-- models/staging/events.sql
config {
  type: &quot;view&quot;,
  schema: &quot;stg&quot;,
  tags: [&quot;events&quot;]
}

SELECT
  CAST(event_timestamp AS TIMESTAMP) AS event_ts,
  user_id,
  event_name,
  JSON_EXTRACT_SCALAR(event_params, &quot;$.value&quot;) AS value
FROM `my_project.raw.events_raw`
WHERE _PARTITIONTIME &gt;= DATE_SUB(CURRENT_DATE(), INTERVAL 7 DAY);

-- models/staging/events.sql

config {

type: "view",

schema: "stg",

tags: ["events"]

}

SELECT

CAST(event_timestamp AS TIMESTAMP) AS event_ts,

user_id,

event_name,

JSON_EXTRACT_SCALAR(event_params, "$.value") AS value

FROM `my_project.raw.events_raw`

WHERE _PARTITIONTIME >= DATE_SUB(CURRENT_DATE(), INTERVAL 7 DAY);

dataform.json の抜粋は次の通りです。

{
  &quot;defaultSchema&quot;: &quot;stg&quot;,
  &quot;warehouse&quot;: {
    &quot;type&quot;: &quot;bigquery&quot;,
    &quot;projectId&quot;: &quot;${PROJECT_ID}&quot;
  }
}

{

"defaultSchema": "stg",

"warehouse": {

"type": "bigquery",

"projectId": "${PROJECT_ID}"

}

Mart 層の集計ロジックとベストプラクティス

Mart はビジネス指標を提供する最終テーブルです。パーティションとクラスタリングでクエリコストを削減します。

-- models/mart/daily_user_events.sql
config {
  type: &quot;table&quot;,
  schema: &quot;mart&quot;,
  partitionBy: &quot;event_date&quot;,
  clustering: [&quot;user_id&quot;]
}

SELECT
  DATE(event_ts) AS event_date,
  user_id,
  COUNT(*) AS events_cnt,
  SUM(CAST(value AS INT64)) AS total_value
FROM ${ref(&quot;staging/events&quot;)}
GROUP BY event_date, user_id;

-- models/mart/daily_user_events.sql

config {

type: "table",

schema: "mart",

partitionBy: "event_date",

clustering: ["user_id"]

}

SELECT

DATE(event_ts) AS event_date,

user_id,

COUNT(*) AS events_cnt,

SUM(CAST(value AS INT64)) AS total_value

FROM ${ref("staging/events")}

GROUP BY event_date, user_id;

partitionBy に日付を指定すると、期間絞り込みクエリのスキャン量が大幅に減少します。
clustering で頻出キー（例: user_id）を指定することで、同一クラスタ内だけを走査し CPU 使用率が低下します。

Dataform の Assertions によるデータ品質テスト

Assertions は assertion タイプの SQL ファイルとして assertions/ ディレクトリに配置すれば、ビルド時に自動実行されます。

-- assertions/event_counts_non_negative.sql
config {
  type: &quot;assertion&quot;,
  schema: &quot;assertions&quot;
}

/* events_cnt が負になることはあり得ない */
SELECT *
FROM ${ref(&quot;mart/daily_user_events&quot;)}
WHERE events_cnt &lt; 0;

-- assertions/event_counts_non_negative.sql

config {

type: "assertion",

schema: "assertions"

}

/* events_cnt が負になることはあり得ない */

SELECT *

FROM ${ref("mart/daily_user_events")}

WHERE events_cnt < 0;

ビルドが失敗した場合は Cloud Build がエラー終了し、設定している Slack 通知やメールで即座にチームへ報告されます。

パイプラインのスケジューリングとモニタリング

定期的なデータ更新を実現するために、Cloud Scheduler と Dataform の CI/CD を組み合わせた構成を紹介します。また、運用時に欠かせないログ・メトリクスの可視化方法も併せて解説します。

Cloud Scheduler で定期実行ジョブを作成する手順

Cloud Scheduler は HTTP ターゲットに対して Webhook を呼び出すだけで、サーバーレスにスケジュール処理が可能です。

コンソール左メニュー → 「Cloud Scheduler」 → 「ジョブを作成」。
名前 run-dataform-pipeline、リージョンは Dataform と同じ（例: asia-northeast1）に設定。
スケジュールは Cron 形式で 0 2 * * *（毎日 02:00 JST）を入力。
ターゲットは 「HTTP」、URL に対象 Cloud Build トリガーの Webhook URL を貼り付け。
認証方式は 「サービスアカウント」 → 先ほど作成した dataform-sa を選択し、ロール cloudbuild.builds.editor が付与されていることを確認。

正しい Cloud Build Webhook の取得方法は公式ドキュメント（https://cloud.google.com/build/docs/triggering-builds）をご参照ください。

ログ・メトリクスの一元管理とアラート設定

Cloud Build と Cloud Scheduler が出力するログは Google Cloud Operations Suite で統合的に監視できます。

項目	設定方法	推奨アラート条件
ビルド失敗	Logging > Log Explorer で `resource.type="cloud_build"` をフィルタ	ビルドステップが 1 回以上失敗したら Slack 通知
Scheduler 実行エラー	Logging の `resource.type="cloud_scheduler_job"` を監視	HTTP ステータスコードが 5xx の場合にメール送信
BigQuery クエリコスト	Monitoring > メトリクスエクスプローラで `bigquery.googleapis.com/query/scanned_bytes` を可視化	日次スキャン量が前日比 30% 超過したらアラート

このようにログとメトリクスを組み合わせることで、障害発生時の検知時間を数分以内に短縮できます。

dbt との比較・併用ベストプラクティス

Dataform と dbt はどちらも SQL‑first のデータ変換フレームワークですが、特徴と適した利用シーンが異なります。本節では主要比較ポイントを整理し、両者を組み合わせたアーキテクチャ例を提示します。

主な比較ポイント

項目	Dataform (2025‑2026)	dbt (最新)
開発 UI	コンソール内のビジュアル IDE が利用可能（Marketplace で有効化）	主にローカル IDE／dbt Cloud の Web UI
デプロイ方式	Git + Cloud Build が標準	GitHub Actions、Cloud Build、または dbt Cloud Scheduler
オーケストレーション	Cloud Scheduler と直接連携しやすい	Airflow、Dagster、Prefect など外部ツールが中心
テスト表現	`assertion` タイプの SQL がシンプル	YAML/SQL ベースの test 定義が豊富
エコシステム	GCP サービス（BigQuery, Cloud Storage, Dataform UI）と統合的	複数ウェアハウスに跨るマルチクラウド対応

併用アーキテクチャ例

Staging 層: Dataform のビジュアル IDE を活かして Raw データのクレンジングを高速実装。
Mart 層: dbt の高度なテスト機能とドキュメント生成を利用し、ビジネス指標テーブルを管理。

GitHub
 ├─ dataform/ (staging) → Cloud Build → BigQuery stg_*
 └─ dbt/ (mart)       → GitHub Actions → BigQuery mart_*
                &#x2198; Cloud Scheduler (nightly) → 先に Staging、続いて Mart を順次実行

GitHub

├─ dataform/ (staging) → Cloud Build → BigQuery stg_*

└─ dbt/ (mart) → GitHub Actions → BigQuery mart_*

↘ Cloud Scheduler (nightly) → 先に Staging、続いて Mart を順次実行

運用上のポイント

schema.yml（dbt）と dataform.json のスキーマ定義は CI 時点で同期させる。
Cloud Build が Dataform ビルド完了したら、GitHub Actions で dbt ジョブを起動するようトリガーを設定。
ログは同一 Operations Suite に集約し、タグ付けでツール別にフィルタできるようにしておく。

このハイブリッド構成により、Dataform の GCP 連携の手軽さと dbt のテスト・ドキュメント機能を最大限活かすことができます。

コスト最適化とパフォーマンスチューニング

BigQuery は従量課金モデルであるため、クエリ設計やテーブル構造の工夫が直接コストに結びつきます。以下のベストプラクティスを Dataform/DBT のモデル定義段階で取り入れると、月間コストを 20 % 前後削減できるケースが多数報告されています。

施策	内容	想定効果
パーティション化	`DATE(event_timestamp)` を基準に日次パーティションを設定	期間絞り込みクエリのスキャン量が最大 90 % 減少
クラスタリング	高頻度フィルタ列（例: `user_id`）でクラスタ化	同一クラスタ内だけ走査し CPU 使用率低下
予約スロット活用	月間使用量が一定以上なら予約スロットを購入	従量課金単価が最大 30 % 削減
必要列のみ取得	`SELECT *` を避け、必要カラムだけを明示	スキャンバイト数の無駄削減
クエリキャッシュ有効化	同一クエリは結果キャッシュが自動利用されるので、再実行時に `--use_cache` オプションを明示的に指定	再計算コストゼロ

これらの設定は Dataform の config {} ブロックや dbt の materialized='table'・partition_by= などで簡単に記述できます。実装例は上記 Staging と Mart の SQL にすでに組み込んであります。

まとめ

前提条件：GCP プロジェクトと課金が有効か確認し、最小権限のサービスアカウント（BigQuery データ編集者＋ジョブユーザー）を作成。
Dataform 設定：コンソールでワークスペースを作成し Git と連携。Cloud Build による CI/CD パイプラインを自動化。
SQL モデル：Raw → Staging → Mart の 3 層構造をコード例と共に実装し、Assertions でデータ品質を保証。
スケジューリング：Cloud Scheduler が Cloud Build Webhook を呼び出すことで定期実行。Logging/Monitoring による一元的なモニタリングとアラート設定も必須。
dbt との併用：Staging は Dataform、Mart は dbt と分担するハイブリッド構成が運用効率を最大化。
コスト最適化：パーティション・クラスタリング・予約スロット・SQL 最適化をモデル定義時に組み込み、月間コスト削減とパフォーマンス向上を実現。

以上の手順とベストプラクティスに沿って構築すれば、最新 GCP コンソールと Dataform（または dbt）を活用した BigQuery データパイプライン が実務レベルで安定稼働します。ぜひ本ガイドを参考に、まずは小規模なパイプラインから導入してみてください。

スポンサードリンク

-GCP

comment コメントをキャンセル

: GCP

2024年版 Google Cloudで Vertex AI と Gemini API をゼロから構築する方法

Google Cloud の無料クレジットを利用し、Vertex AI と Gemini API を有効化。最小権限のサービスアカウントでデータセットをアップロードし、コード実装・エンドポイントデプロイ・CI/CDまで一連の流れを紹介します。

: GCP

Google Cloud Platform（GCP）初心者入門ガイド：全体像・無料トライアル・主要サービス解説

本ガイドでは GCP の基本概念と歴史、無料トライアルの開始方法、主要サービス（Compute Engine、Cloud Storage、BigQuery など）のユースケース、IAM のベストプラクティス、さらに Cloud Run を使ったハンズオン例を通して、初心者が実際に手を動かしながら学べるよう構成しています。