Google CloudでBigQueryを始める手順とPython設定ガイド

2026年6月11日

もっとスキルを活かしたいエンジニアへ

スポンサードリンク

働き方から選べる

無料で使えて良質な案件の情報収集ができるサービス

エンジニアの世界では、「いつでも動ける状態を作っておけ」とよく言われます。
技術やポートフォリオがあっても、自分に合う案件情報を日常的に見れていないと、いざ動こうと思った時に比較や判断が難しくなってしまいます。
普段から案件情報が集まる環境を作っておくと、良い案件が出た時にすぐ動きやすくなりますよ。
筆者自身も、メガベンチャー勤務時代に年収1,500万円を超えた経験があります。振り返ると、技術だけでなく「どんな案件や働き方があるか」を日頃から見ていたことが、キャリアの選択肢を広げるきっかけになりました。
このブログを読んでくれた方に感謝を込めて、実際に使っている情報収集サービスを紹介します。

フルリモート・週3日・高単価、どんな条件も妥協したくないなら

フリーランスボードに無料会員登録する

利用者10万人以上。業界最大規模45万件の案件。AIマッチ機能や無料の相場情報が人気。

年収800万円以上のキャリアアップ・ハイクラス正社員を視野に入れているなら

Beyond Careerに無料相談する

内定獲得率90%以上。紹介先企業とは役員クラスのコネクションがある安心と信頼できるエージェント。

Contents

1 1. Google Cloud コンソールでプロジェクト作成と BigQuery API を有効化
- 1.1 1‑1. プロジェクトの新規作成
- 1.2 1‑2. BigQuery API の有効化
2 2. 認証と Python 環境のセットアップ
3 3. BigQuery クライアントの初期化と同期クエリ実行
- 3.1 3‑1. クライアントオブジェクトの生成
- 3.2 3‑2. 同期クエリで DataFrame に変換
4 4. 非同期ジョブの高度な活用と BigQuery DataFrames
5 5. Cloud Storage とのデータ入出力、ジョブモニタリング、サンプル体験環境
6 まとめ

スポンサードリンク

1. Google Cloud コンソールでプロジェクト作成と BigQuery API を有効化

BigQuery の利用は 「プロジェクト」 と 「API が有効」 という二つの前提条件が整っていなければ開始できません。この章では、コンソール画面を操作しながら確実に設定する手順をご紹介します。

1‑1. プロジェクトの新規作成

GCP コンソール https://console.cloud.google.com/ にログイン
左上メニュー 「プロジェクト選択」 → 「新しいプロジェクト」 をクリック
プロジェクト名・請求先アカウントを入力し 「作成」

ポイント：作成に数秒かかりますが、完了したら左上に表示される プロジェクト ID を必ずメモしておきましょう（後の bigquery.Client(project=PROJECT_ID) で使用します）。

1‑2. BigQuery API の有効化

コンソール左側メニュー 「API とサービス」 → 「ライブラリ」
検索ボックスに BigQuery と入力し、Google Cloud BigQuery API を選択
「有効にする」 ボタンをクリック

公式手順はこちらのドキュメントにあります。API が有効になると、次の認証設定へスムーズに移行できます。

2. 認証と Python 環境のセットアップ

BigQuery へのアクセスは サービスアカウントキー または Application Default Credentials (ADC) のどちらかで実現します。ここでは両方の作成手順と、Python 用ライブラリのインストール・バージョン確認方法を解説します。

2‑1. 最小権限でサービスアカウントを作成する

最小権限とは：業務に必要な機能だけを許可し、余計な権限は付与しないことです。これによりセキュリティインシデント時の被害範囲が限定されます。

推奨ロール	用途
`roles/bigquery.dataViewer`	データセット・テーブルの読み取り
`roles/bigquery.jobUser`	クエリやロードジョブの実行
`roles/storage.objectViewer`（GCS 連携時）	バケット内オブジェクトの参照

注意：BigQuery Admin ロールはすべての権限を持つため、開発環境以外では極力避けましょう。最小権限で足りない場合だけ段階的に追加してください。

作成手順

コンソール左側 「IAM と管理」 → 「サービスアカウント」 を選択
「作成」 ボタン → 名前・説明を入力 → 「続行」
ロールの追加 で上表のロールを選択（必要に応じて複数）
完了後、対象サービスアカウントの 「キー」タブ → 「鍵を追加」 → JSON をダウンロード

キーは機密情報です。安全な場所に保管し、Git などのリポジトリには絶対に入れないでください。

2‑2. Application Default Credentials (ADC) の設定

ローカル開発や Cloud Shell では ADC が手軽です。環境変数 GOOGLE_APPLICATION_CREDENTIALS にキーへのフルパスを設定するだけで、google-cloud-bigquery ライブラリが自動的に認証情報を取得します。

# 環境変数の永続化例（~/.bashrc へ追記）
export GOOGLE_APPLICATION_CREDENTIALS=&quot;$HOME/keys/bq-service-account.json&quot;

# 環境変数の永続化例（~/.bashrc へ追記）

export GOOGLE_APPLICATION_CREDENTIALS="$HOME/keys/bq-service-account.json"

ユーザー認証で ADC を作り直す場合は次を実行：

gcloud auth application-default login

1 2	gcloud auth application-default login

公式ドキュメントはこちらです。

2‑3. Python 環境構築とライブラリバージョン確認

2026 年 6 月時点で google-cloud-bigquery の最新安定系は v3.x 系です。将来のメジャーアップデートが出た際は、必ず公式 PyPI ページ（https://pypi.org/project/google-cloud-bigquery/）で最新版を確認してください。

# 仮想環境作成（任意）
python -m venv bq-env
source bq-env/bin/activate

# 必要パッケージ一括インストール
pip install --upgrade &quot;google-cloud-bigquery&gt;=3.0,&lt;4.0&quot; pandas pyarrow pandas-gbq

# 仮想環境作成（任意）

python -m venv bq-env

source bq-env/bin/activate

# 必要パッケージ一括インストール

pip install --upgrade "google-cloud-bigquery>=3.0,<4.0" pandas pyarrow pandas-gbq

バージョン確認スクリプト

import google.cloud.bigquery as bq
import pandas, pyarrow, pandas_gbq

print(&quot;google-cloud-bigquery :&quot;, bq.__version__)
print(&quot;pandas               :&quot;, pandas.__version__)
print(&quot;pyarrow              :&quot;, pyarrow.__version__)
print(&quot;pandas-gbq           :&quot;, pandas_gbq.__version__)

import google.cloud.bigquery as bq

import pandas, pyarrow, pandas_gbq

print("google-cloud-bigquery :", bq.__version__)

print("pandas :", pandas.__version__)

print("pyarrow :", pyarrow.__version__)

print("pandas-gbq :", pandas_gbq.__version__)

ポイント：pandas-gbq は read_gbq 系のヘルパー関数を提供し、DataFrame への高速ロードが可能です。インストール時に [pandas] エクストラオプションを付与すると、bigquery.read_gbq が直接利用できるようになります。

3. BigQuery クライアントの初期化と同期クエリ実行

認証情報が環境変数または ADC に設定されていれば、bigquery.Client() は自動的にそれらを検出します。この章ではシンプルな 同期クエリ の流れと、結果を pandas.DataFrame に変換する方法を示します。

3‑1. クライアントオブジェクトの生成

from google.cloud import bigquery

# プロジェクト ID を明示的に指定（省略可）
client = bigquery.Client(project=&quot;my-sample-project&quot;)
print(&quot;Client initialized for project:&quot;, client.project)

from google.cloud import bigquery

# プロジェクト ID を明示的に指定（省略可）

client = bigquery.Client(project="my-sample-project")

print("Client initialized for project:", client.project)

3‑2. 同期クエリで DataFrame に変換

以下はパブリックデータセットから人口上位 10 カ国を取得する例です。client.query() が内部的に非同期ジョブを起動し、.result() が完了待ちと結果取得を行います。

sql = &quot;&quot;&quot;
SELECT
  country_name,
  SUM(population) AS total_population
FROM `bigquery-public-data.world_bank_intl_education.population_by_country`
WHERE year = 2022
GROUP BY country_name
ORDER BY total_population DESC
LIMIT 10
&quot;&quot;&quot;

# クエリ送信 → 完了待ち → DataFrame 化
query_job = client.query(sql)               # 非同期ジョブの作成
df = query_job.result().to_dataframe()      # 結果取得 &amp; pandas へ変換

print(df.head())

sql = """

SELECT

country_name,

SUM(population) AS total_population

FROM `bigquery-public-data.world_bank_intl_education.population_by_country`

WHERE year = 2022

GROUP BY country_name

ORDER BY total_population DESC

LIMIT 10

"""

# クエリ送信 → 完了待ち → DataFrame 化

query_job = client.query(sql) # 非同期ジョブの作成

df = query_job.result().to_dataframe() # 結果取得 & pandas へ変換

print(df.head())

ポイント：pyarrow がインストールされていると、列指向フォーマットで高速に DataFrame 化できます。大規模テーブルでも数秒でロード可能です。

4. 非同期ジョブの高度な活用と BigQuery DataFrames

大量データや長時間実行クエリは 非同期ジョブ として管理する方が安全かつ効率的です。ここではジョブステータスのポーリング、Dry‑run によるコスト見積もり、そしてサーバ側で計算を完結させてデータ転送量を削減する BigQuery DataFrames（bigquery.read_gbq）の実装例を示します。

4‑1. 非同期ジョブの作成・ステータスチェック

import time                               # ← 重要：time モジュールが必要です
from google.cloud import bigquery

job_config = bigquery.QueryJobConfig(
    use_query_cache=True,                 # 同一クエリはキャッシュ利用
    maximum_bytes_billed=10**9            # 1 GB 超過時に失敗させる安全策
)

sql = &quot;&quot;&quot;
SELECT *
FROM `my_dataset.large_table`
WHERE event_date BETWEEN '2025-01-01' AND '2025-12-31'
&quot;&quot;&quot;

query_job = client.query(sql, job_config=job_config)   # 非同期送信

# ポーリングでジョブ状態を確認
while not query_job.done():
    print(f&quot;Job {query_job.job_id} 状態: {query_job.state}&quot;)
    time.sleep(5)

print(&quot;ジョブ完了。取得行数:&quot;, query_job.result().total_rows)

import time # ← 重要：time モジュールが必要です

from google.cloud import bigquery

job_config = bigquery.QueryJobConfig(

use_query_cache=True, # 同一クエリはキャッシュ利用

maximum_bytes_billed=10**9 # 1 GB 超過時に失敗させる安全策

)

sql = """

SELECT *

FROM `my_dataset.large_table`

WHERE event_date BETWEEN '2025-01-01' AND '2025-12-31'

"""

query_job = client.query(sql, job_config=job_config) # 非同期送信

# ポーリングでジョブ状態を確認

while not query_job.done():

print(f"Job {query_job.job_id} 状態: {query_job.state}")

time.sleep(5)

print("ジョブ完了。取得行数:", query_job.result().total_rows)

4‑2. Dry‑run によるコスト見積もり

実際にクエリを走らせる前にスキャンバイト数だけをシミュレートできます。

dry_config = bigquery.QueryJobConfig(dry_run=True, use_query_cache=False)
dry_job = client.query(sql, job_config=dry_config)

estimated_gb = dry_job.total_bytes_processed / (1024**3)
print(f&quot;予想スキャンサイズ: {estimated_gb:.2f} GB&quot;)

dry_config = bigquery.QueryJobConfig(dry_run=True, use_query_cache=False)

dry_job = client.query(sql, job_config=dry_config)

estimated_gb = dry_job.total_bytes_processed / (1024**3)

print(f"予想スキャンサイズ: {estimated_gb:.2f} GB")

ベストプラクティス：maximum_bytes_billed と Dry‑run の併用で、予算超過リスクを徹底的に排除します。

4‑3. BigQuery DataFrames（`bigquery.read_gbq`）の活用

google-cloud-bigquery[pandas] をインストールすると、以下のように サーバ側で集計 した結果だけを DataFrame に取り込めます。コード例では SUM と HAVING がすべて BigQuery 上で実行され、転送データは数千行程度に抑えられます。

# 必要なインポート（エイリアス bq を使う）
from google.cloud import bigquery as bq

df = bq.read_gbq(
    &quot;&quot;&quot;
    SELECT
      user_id,
      SUM(purchase_amount) AS total_spent
    FROM `my_dataset.purchases`
    WHERE purchase_date &gt;= '2025-01-01'
    GROUP BY user_id
    HAVING total_spent &gt; 1000
    &quot;&quot;&quot;,
    project_id=client.project,
    dialect=&quot;standard&quot;,          # 標準SQL を使用
)

print(df.head())

# 必要なインポート（エイリアス bq を使う）

from google.cloud import bigquery as bq

df = bq.read_gbq(

"""

SELECT

user_id,

SUM(purchase_amount) AS total_spent

FROM `my_dataset.purchases`

WHERE purchase_date >= '2025-01-01'

GROUP BY user_id

HAVING total_spent > 1000

""",

project_id=client.project,

dialect="standard", # 標準SQL を使用

)

print(df.head())

ポイント：read_gbq は内部的に pandas-gbq の高速エンジンを呼び出すため、ローカルでの集計よりもはるかに速く結果が取得できます。

4‑4. パーティション・クラスタリングによるさらなる最適化

手法	効果例
日付パーティション (`events$202506*`)	スキャンデータを対象月だけに限定し、コストを 90 % 削減
クラスタリング (`CLUSTER BY user_id`)	同一キーの行が物理的に近くなるため、フィルタ処理が高速化

# パーティションテーブルへのクエリ例
sql_partition = &quot;&quot;&quot;
SELECT *
FROM `my_dataset.events$202506*`
WHERE event_type = 'click'
&quot;&quot;&quot;

# クラスタリング付きテーブル作成例
table_ref = client.dataset(&quot;analytics&quot;).table(&quot;session_stats&quot;)
schema = [
    bigquery.SchemaField(&quot;session_id&quot;, &quot;STRING&quot;),
    bigquery.SchemaField(&quot;user_id&quot;,   &quot;STRING&quot;),
    bigquery.SchemaField(&quot;event_time&quot;,&quot;TIMESTAMP&quot;),
]
table = bigquery.Table(table_ref, schema=schema)
table.clustering_fields = [&quot;user_id&quot;]
client.create_table(table)  # クラスタリング有効テーブルを作成

# パーティションテーブルへのクエリ例

sql_partition = """

SELECT *

FROM `my_dataset.events$202506*`

WHERE event_type = 'click'

"""

# クラスタリング付きテーブル作成例

table_ref = client.dataset("analytics").table("session_stats")

schema = [

bigquery.SchemaField("session_id", "STRING"),

bigquery.SchemaField("user_id", "STRING"),

bigquery.SchemaField("event_time","TIMESTAMP"),

]

table = bigquery.Table(table_ref, schema=schema)

table.clustering_fields = ["user_id"]

client.create_table(table) # クラスタリング有効テーブルを作成

5. Cloud Storage とのデータ入出力、ジョブモニタリング、サンプル体験環境

実務では CSV/JSON/Parquet のロード・エクスポートが頻繁に発生します。この章では GCS と BigQuery の双方向データフローと、ジョブ状態を Cloud Logging で確認する方法をまとめます。

5‑1. GCS からのインポート（`load_table_from_uri`）

gcs_uri = &quot;gs://my-bucket/sample_data.csv&quot;
table_id = &quot;my_dataset.sample_table&quot;

job_config = bigquery.LoadJobConfig(
    source_format=bigquery.SourceFormat.CSV,
    skip_leading_rows=1,        # ヘッダー行をスキップ
    autodetect=True,            # スキーマ自動検出
)

load_job = client.load_table_from_uri(gcs_uri, table_id, job_config=job_config)
load_job.result()               # 完了待ち

print(f&quot;ロード完了：{load_job.output_rows} 行が {table_id} に挿入されました&quot;)

gcs_uri = "gs://my-bucket/sample_data.csv"

table_id = "my_dataset.sample_table"

job_config = bigquery.LoadJobConfig(

source_format=bigquery.SourceFormat.CSV,

skip_leading_rows=1, # ヘッダー行をスキップ

autodetect=True, # スキーマ自動検出

)

load_job = client.load_table_from_uri(gcs_uri, table_id, job_config=job_config)

load_job.result() # 完了待ち

print(f"ロード完了：{load_job.output_rows} 行が {table_id} に挿入されました")

5‑2. テーブルのエクスポート（`extract_table`）

export_uri = &quot;gs://my-bucket/exported_data_*.parquet&quot;
extract_job = client.extract_table(
    table_id,
    export_uri,
    job_config=bigquery.ExtractJobConfig(destination_format=bigquery.DestinationFormat.PARQUET)
)

extract_job.result()
print(&quot;エクスポート完了：Parquet ファイルが GCS に保存されました&quot;)

export_uri = "gs://my-bucket/exported_data_*.parquet"

extract_job = client.extract_table(

table_id,

export_uri,

job_config=bigquery.ExtractJobConfig(destination_format=bigquery.DestinationFormat.PARQUET)

)

extract_job.result()

print("エクスポート完了：Parquet ファイルが GCS に保存されました")

5‑3. ジョブモニタリングとログ確認

Cloud Logging でジョブ情報を取得

gcloud logging read \
    'resource.type=&quot;bigquery_resource&quot; AND protoPayload.methodName=&quot;jobservice.jobcompleted&quot;' \
    --limit=10 --format=&quot;json&quot;

gcloud logging read \

'resource.type="bigquery_resource" AND protoPayload.methodName="jobservice.jobcompleted"' \

--limit=10 --format="json"

コンソールの「ジョブ」タブ

実行中・完了・失敗ジョブをリアルタイムで確認
ジョブ詳細画面からエラーメッセージやスキャンバイト数が閲覧可能

Stackdriver Monitoring でメトリクス可視化

公式ガイドは Monitoring BigQuery にあります。ダッシュボードに クエリレイテンシ、スキャンバイト数、ジョブ成功率 を追加すれば、運用時の異常検知が容易になります。

5‑4. サンプルノートブックと Cloud Shell で即体験

Cloud Shell 起動（右上 >_ アイコン）
リポジトリをクローンし、Jupyter Notebook を起動

git clone https://github.com/googlecodelabs/cloud-bigquery-python.git
cd cloud-bigquery-python
cloudshell open notebook .

git clone https://github.com/googlecodelabs/cloud-bigquery-python.git

cd cloud-bigquery-python

cloudshell open notebook .

ノートブックの各セルは 認証 → クエリ実行 → GCS 入出力 の流れを順に体感できるよう構成されています。ローカル環境でも同様に pip install jupyterlab で動作させられます。

ポイント：Cloud Shell は事前設定不要で即座に実行可能なため、初心者がハードルなく学習を始めるのに最適です。

まとめ

プロジェクトと API の有効化 がすべての出発点
サービスアカウントは最小権限（bigquery.dataViewer、bigquery.jobUser 等）で作成し、キーは安全に管理
Python 環境は google-cloud-bigquery>=3.0,<4.0 をインストールし、バージョンは常に公式 PyPI で確認
同期クエリはシンプルに、非同期ジョブはステータスチェック・Dry‑run でコスト管理
DataFrames (read_gbq) によりサーバ側集計を最大活用し、転送データ量とレイテンシを最小化
GCS と連携したロード/エクスポート と Cloud Logging / Monitoring で運用可視性を確保
サンプルノートブック を使えば、コードの実行から結果確認まで一貫した体験が可能

この手順に沿って環境を整えれば、BigQuery の強力な分析基盤をすぐに活用できるようになります。疑問点やエラーが出た場合は、公式ドキュメントと Cloud Logging を併せて確認してください。 Happy querying!

スポンサードリンク

もっとスキルを活かしたいエンジニアへ

スポンサードリンク

働き方から選べる

無料で使えて良質な案件の情報収集ができるサービス

フルリモート・週3日・高単価、どんな条件も妥協したくないなら

フリーランスボードに無料会員登録する

利用者10万人以上。業界最大規模45万件の案件。AIマッチ機能や無料の相場情報が人気。

年収800万円以上のキャリアアップ・ハイクラス正社員を視野に入れているなら

Beyond Careerに無料相談する

内定獲得率90%以上。紹介先企業とは役員クラスのコネクションがある安心と信頼できるエージェント。

-GCP

comment コメントをキャンセル

: GCP

Anthos の全体像・ハイブリッドマルチクラウド導入ガイド

AnthosはKubernetesベースのハイブリッド・マルチクラウドプラットフォームで、主要コンポーネントと導入手順を詳しく紹介します。

: GCP

BigQueryサンドボックス完全ガイド：無料枠でシート外部テーブルと課金アラート設定

この記事では、BigQueryサンドボックスの有効化からGoogleスプレッドシート外部テーブル作成、課金アラート設定までを実践的に紹介します。

: GCP

BigQuery GIS入門：超大規模地理空間分析の始め方

BigQuery GISの概要・GEOGRAPHY型活用からデータロード、主要空間関数、可視化までをステップバイステップで紹介します。

: GCP

GCPのVertex AI徹底比較と移行ガイド – AIサービス全体像・機能・料金・生成AI

Vertex AIはGCPのコアMLプラットフォームとして、従来サービスを統合し、開発・運用・管理を一元化。機能比較や料金削減効果、他社生成AIとの比較、移行ベストプラクティスを解説します。

: GCP

BigQuery と Looker Studio 連携方法【2025年版】完全ガイド

BigQuery と Looker Studio を連携させることで、リアルタイムに大規模データを可視化し、意思決定を加速できます。

2026年最新版おてがる光の基本料金・プランと他社比較

JOYSOUND X1 対 X3比較：導入費用・機能・運用負担徹底解説

Google CloudでBigQueryを始める手順とPython設定ガイド

1. Google Cloud コンソールでプロジェクト作成と BigQuery API を有効化

1‑1. プロジェクトの新規作成

1‑2. BigQuery API の有効化

2. 認証と Python 環境のセットアップ

2‑1. 最小権限でサービスアカウントを作成する

作成手順

2‑2. Application Default Credentials (ADC) の設定

2‑3. Python 環境構築とライブラリバージョン確認

バージョン確認スクリプト

3. BigQuery クライアントの初期化と同期クエリ実行

3‑1. クライアントオブジェクトの生成

3‑2. 同期クエリで DataFrame に変換

4. 非同期ジョブの高度な活用と BigQuery DataFrames

4‑1. 非同期ジョブの作成・ステータスチェック

4‑2. Dry‑run によるコスト見積もり

4‑3. BigQuery DataFrames（bigquery.read_gbq）の活用

4‑4. パーティション・クラスタリングによるさらなる最適化

5. Cloud Storage とのデータ入出力、ジョブモニタリング、サンプル体験環境

5‑1. GCS からのインポート（load_table_from_uri）

5‑2. テーブルのエクスポート（extract_table）

5‑3. ジョブモニタリングとログ確認

Cloud Logging でジョブ情報を取得

コンソールの「ジョブ」タブ

Stackdriver Monitoring でメトリクス可視化

5‑4. サンプルノートブックと Cloud Shell で即体験

まとめ

4‑3. BigQuery DataFrames（`bigquery.read_gbq`）の活用

5‑1. GCS からのインポート（`load_table_from_uri`）

5‑2. テーブルのエクスポート（`extract_table`）