Apache Spark と PySpark の最新概要と2024年版導入ガイド

2026年6月13日

もっとスキルを活かしたいエンジニアへ

スポンサードリンク

働き方から選べる

無料で使えて良質な案件の情報収集ができるサービス

エンジニアの世界では、「いつでも動ける状態を作っておけ」とよく言われます。
技術やポートフォリオがあっても、自分に合う案件情報を日常的に見れていないと、いざ動こうと思った時に比較や判断が難しくなってしまいます。
普段から案件情報が集まる環境を作っておくと、良い案件が出た時にすぐ動きやすくなりますよ。
筆者自身も、メガベンチャー勤務時代に年収1,500万円を超えた経験があります。振り返ると、技術だけでなく「どんな案件や働き方があるか」を日頃から見ていたことが、キャリアの選択肢を広げるきっかけになりました。
このブログを読んでくれた方に感謝を込めて、実際に使っている情報収集サービスを紹介します。

フルリモート・週3日・高単価、どんな条件も妥協したくないなら

フリーランスボードに無料会員登録する

利用者10万人以上。業界最大規模45万件の案件。AIマッチ機能や無料の相場情報が人気。

年収800万円以上のキャリアアップ・ハイクラス正社員を視野に入れているなら

Beyond Careerに無料相談する

内定獲得率90%以上。紹介先企業とは役員クラスのコネクションがある安心と信頼できるエージェント。

Contents

1 Apache Spark と PySpark の概要（Spark 3.5 系）
2 開発環境の構築（ローカル & クラウド）
- 2.1 ローカルマシンでの Python 環境構築
- 2.2 Amazon EMR で Spark 3.5 を使用する際の留意点
3 PySpark DataFrame 操作と SparkSQL 入門
- 3.1 データ読み込みと基本変換
- 3.2 SparkSQL を用いた同等クエリ
4 パフォーマンスチューニング（AQE・キャッシュ・パーティショニング）
- 4.1 Adaptive Query Execution（AQE）の最適設定
- 4.2 キャッシュとパーティショニング
  - 4.2.1 推奨デフォルト設定（Spark 3.5）
5 MLlib と Structured Streaming のハンズオン
- 5.1 1. MLlib パイプライン（前処理 → 標準化 → ロジスティック回帰）
- 5.2 2. Structured Streaming による Kafka からのリアルタイム集計
6 まとめ

スポンサードリンク

Apache Spark と PySpark の概要（Spark 3.5 系）

Spark 3.5 は 2023 年末にリリースされた最新の安定版で、クエリ最適化機能や API の利便性が大幅に向上しています。Python からは公式パッケージ PySpark が提供されており、ローカル環境でもクラウド上のマネージド Spark サービスでも同一コードで実行できます。本節では Spark 3.5 の主要特徴と、特に注目すべき機能を概観します。

Catalyst Optimizer の改良：統計情報取得が自動化され、プラン選択が高速化。
Adaptive Query Execution（AQE） がデフォルトでオフになっているものの、簡単な設定だけで実行時に最適化が働くようになります。
Pandas API on Spark の拡張：分散環境下でも Pandas ライクなコードを書きやすくなり、to_pandas() の呼び出し回数を減らすだけでメモリ使用量が大幅に削減できます。

根拠：Apache Spark 公式ドキュメント（Adaptive Query Execution）および、2023 年に実施された独立ベンチマーク（TPC‑DS, 1 TB データセット）では、AQE 有効化によりジョブ実行時間が 平均 22 %、最長で 30 % 短縮されることが報告されています。

開発環境の構築（ローカル & クラウド）

Spark アプリケーションはまずローカルで動作確認し、その後マネージドサービスや自前クラスタにデプロイするケースが一般的です。ここでは、Python 仮想環境の作成手順と、代表的なクラウド環境（Amazon EMR）で Spark 3.5 を利用する際のポイントを示します。

ローカルマシンでの Python 環境構築

仮想環境の作成（conda または venv いずれでも可）。
PySpark のバージョンを 3.5.* に固定してインストール。

# conda の例
conda create -n spark35 python=3.10 -y
conda activate spark35
pip install pyspark==3.5.*

# venv の例
python -m venv spark35_env
source spark35_env/bin/activate   # Windows は .\Scripts\activate
pip install pyspark==3.5.*

# conda の例

conda create -n spark35 python=3.10 -y

conda activate spark35

pip install pyspark==3.5.*

# venv の例

python -m venv spark35_env

source spark35_env/bin/activate # Windows は .\Scripts\activate

pip install pyspark==3.5.*

インストール後は pyspark --version でバージョンを確認してください。

Amazon EMR で Spark 3.5 を使用する際の留意点

EMR のリリースラベル emr-6.15.0 は Spark 3.4 系までしかサポートしていません。Spark 3.5 を利用したい場合は、EMR 7.x 系（例：emr-7.2.0）を選択する必要があります。

aws emr create-cluster \
  --name &quot;Spark35Cluster&quot; \
  --release-label emr-7.2.0 \   # Spark 3.5 対応ラベル
  --applications Name=Spark \
  --instance-type m5.xlarge \
  --instance-count 3 \
  --use-default-roles

aws emr create-cluster \

--name "Spark35Cluster" \

--release-label emr-7.2.0 \ # Spark 3.5 対応ラベル

--applications Name=Spark \

--instance-type m5.xlarge \

--instance-count 3 \

--use-default-roles

クラスター起動後は SSH 接続して spark-submit が利用可能です。ローカルで動作確認したコードをそのまま移行できる点が大きな利点です。

PySpark DataFrame 操作と SparkSQL 入門

DataFrame は Spark の中心概念であり、遅延評価により必要なタイミングでだけ計算が走ります。ここでは CSV/JSON の読み込みから基本的な変換・集計までの流れを示します。

データ読み込みと基本変換

from pyspark.sql import functions as F

# CSV 読み込み（ヘッダーあり、スキーマ自動推測）
df = spark.read.option(&quot;header&quot;, &quot;true&quot;) \
               .option(&quot;inferSchema&quot;, &quot;true&quot;) \
               .csv(&quot;/data/sales.csv&quot;)

# 必要な列だけ抽出し、条件でフィルタリング
filtered = df.select(&quot;date&quot;, &quot;region&quot;, &quot;revenue&quot;) \
             .filter(F.col(&quot;revenue&quot;) &gt; 1000)

# 地域別の集計（平均・合計）
agg = filtered.groupBy(&quot;region&quot;) \
              .agg(F.avg(&quot;revenue&quot;).alias(&quot;avg_rev&quot;),
                   F.sum(&quot;revenue&quot;).alias(&quot;total_rev&quot;))
agg.show()

from pyspark.sql import functions as F

# CSV 読み込み（ヘッダーあり、スキーマ自動推測）

df = spark.read.option("header", "true") \

.option("inferSchema", "true") \

.csv("/data/sales.csv")

# 必要な列だけ抽出し、条件でフィルタリング

filtered = df.select("date", "region", "revenue") \

.filter(F.col("revenue") > 1000)

# 地域別の集計（平均・合計）

agg = filtered.groupBy("region") \

.agg(F.avg("revenue").alias("avg_rev"),

F.sum("revenue").alias("total_rev"))

agg.show()

SparkSQL を用いた同等クエリ

DataFrame を一時ビューに登録すれば、SQL 文で同様の集計が可能です。

df.createOrReplaceTempView(&quot;sales&quot;)
sql_result = spark.sql(&quot;&quot;&quot;
    SELECT region,
           AVG(revenue) AS avg_rev,
           SUM(revenue) AS total_rev
    FROM sales
    WHERE revenue &gt; 1000
    GROUP BY region
&quot;&quot;&quot;)
sql_result.show()

df.createOrReplaceTempView("sales")

sql_result = spark.sql("""

SELECT region,

AVG(revenue) AS avg_rev,

SUM(revenue) AS total_rev

FROM sales

WHERE revenue > 1000

GROUP BY region

""")

sql_result.show()

SQL と API を組み合わせることで、既存の BI ツールやデータエンジニアリングパイプラインとの親和性が高まります。

パフォーマンスチューニング（AQE・キャッシュ・パーティショニング）

実運用で求められるスループットは、適切な設定とチューニングに依存します。本節では Spark 3.5 で有効化すべき主要オプションをまとめます。

Adaptive Query Execution（AQE）の最適設定

AQE は実行時に統計情報を再評価し、シャッフルやジョインの戦略を自動的に切り替えます。以下の 3 つのパラメータが特に効果的です。

パラメータ	推奨設定	効果
`spark.sql.adaptive.enabled`	`"true"`	AQE 本体を有効化
`spark.sql.adaptive.coalescePartitions.enabled`	`"true"`	小さなパーティションを自動統合し、タスク数を削減
`spark.sql.adaptive.minPartitionSize`	`"64MB"`（必要に応じて調整）	1 パーティションあたりの最小サイズを設定し、過剰分割を防止

spark.conf.setAll({
    &quot;spark.sql.adaptive.enabled&quot;: &quot;true&quot;,
    &quot;spark.sql.adaptive.coalescePartitions.enabled&quot;: &quot;true&quot;,
    &quot;spark.sql.adaptive.minPartitionSize&quot;: &quot;64MB&quot;
})

spark.conf.setAll({

"spark.sql.adaptive.enabled": "true",

"spark.sql.adaptive.coalescePartitions.enabled": "true",

"spark.sql.adaptive.minPartitionSize": "64MB"

})

この構成で、groupBy 後のパーティション数が自動的に最適化され、前述のベンチマークと同様に 20 % 前後 の実行時間短縮が期待できます。

キャッシュとパーティショニング

キャッシュ：頻繁に再利用する DataFrame は cache() でメモリ上に保持し、I/O コストを削減します。
均一なパーティション分割：データのキー偏りがある場合は repartition（ハッシュベース）か coalesce（縮小のみ）で調整します。

big_df = spark.read.parquet(&quot;/data/large_table/&quot;)
big_df.cache()                     # メモリに保持

balanced = big_df.repartition(200, &quot;user_id&quot;)   # user_id 基準で均等化
balanced.write.mode(&quot;overwrite&quot;).parquet(&quot;/tmp/balanced&quot;)

big_df = spark.read.parquet("/data/large_table/")

big_df.cache() # メモリに保持

balanced = big_df.repartition(200, "user_id") # user_id 基準で均等化

balanced.write.mode("overwrite").parquet("/tmp/balanced")

推奨デフォルト設定（Spark 3.5）

設定項目	推奨値
`spark.sql.shuffle.partitions`	ワーカー数 × 2〜4 (例: 200‑400)
`spark.executor.memory`	4 GB 以上
`spark.driver.maxResultSize`	2 GB

MLlib と Structured Streaming のハンズオン

機械学習とリアルタイム処理は Spark の主要ユースケースです。以下に、マネージドクラスターでもそのまま実行できるサンプルコードを示します。

1. MLlib パイプライン（前処理 → 標準化 → ロジスティック回帰）

from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark.ml.classification import LogisticRegression

# データ読み込み
data = spark.read.csv(&quot;/data/credit.csv&quot;, header=True, inferSchema=True)

# 前処理ステージ
assembler = VectorAssembler(
    inputCols=[&quot;age&quot;, &quot;income&quot;, &quot;balance&quot;], outputCol=&quot;features_raw&quot;)
scaler = StandardScaler(inputCol=&quot;features_raw&quot;, outputCol=&quot;features&quot;)

# 学習モデル
lr = LogisticRegression(featuresCol=&quot;features&quot;, labelCol=&quot;default&quot;)

pipeline = Pipeline(stages=[assembler, scaler, lr])
model = pipeline.fit(data)

# 推論例（上位 5 行）
model.transform(data.limit(5)).select(&quot;features&quot;, &quot;prediction&quot;).show()

from pyspark.ml import Pipeline

from pyspark.ml.feature import VectorAssembler, StandardScaler

from pyspark.ml.classification import LogisticRegression

# データ読み込み

data = spark.read.csv("/data/credit.csv", header=True, inferSchema=True)

# 前処理ステージ

assembler = VectorAssembler(

inputCols=["age", "income", "balance"], outputCol="features_raw")

scaler = StandardScaler(inputCol="features_raw", outputCol="features")

# 学習モデル

lr = LogisticRegression(featuresCol="features", labelCol="default")

pipeline = Pipeline(stages=[assembler, scaler, lr])

model = pipeline.fit(data)

# 推論例（上位 5 行）

model.transform(data.limit(5)).select("features", "prediction").show()

2. Structured Streaming による Kafka からのリアルタイム集計

from pyspark.sql.functions import window, col, avg

# Kafka ソースからストリーム取得
stream_df = spark.readStream.format(&quot;kafka&quot;) \
    .option(&quot;kafka.bootstrap.servers&quot;, &quot;localhost:9092&quot;) \
    .option(&quot;subscribe&quot;, &quot;events&quot;) \
    .load() \
    .selectExpr(&quot;CAST(value AS STRING) as json&quot;)

# JSON パース（簡易例）
parsed = stream_df.selectExpr(
    &quot;json_tuple(json, 'user_id', 'event_time', 'value') as (user_id, ts, val)&quot;
).withColumn(&quot;ts&quot;, col(&quot;ts&quot;).cast(&quot;timestamp&quot;))

# 5 分ウィンドウでユーザー別平均値を算出
agg = parsed.groupBy(window(col(&quot;ts&quot;), &quot;5 minutes&quot;), &quot;user_id&quot;) \
           .agg(avg(col(&quot;val&quot;)).alias(&quot;avg_val&quot;))

# コンソールへ出力（デバッグ用）
query = agg.writeStream.outputMode(&quot;update&quot;) \
    .format(&quot;console&quot;) \
    .option(&quot;truncate&quot;, &quot;false&quot;) \
    .start()

query.awaitTermination()

from pyspark.sql.functions import window, col, avg

# Kafka ソースからストリーム取得

stream_df = spark.readStream.format("kafka") \

.option("kafka.bootstrap.servers", "localhost:9092") \

.option("subscribe", "events") \

.load() \

.selectExpr("CAST(value AS STRING) as json")

# JSON パース（簡易例）

parsed = stream_df.selectExpr(

"json_tuple(json, 'user_id', 'event_time', 'value') as (user_id, ts, val)"

).withColumn("ts", col("ts").cast("timestamp"))

# 5 分ウィンドウでユーザー別平均値を算出

agg = parsed.groupBy(window(col("ts"), "5 minutes"), "user_id") \

.agg(avg(col("val")).alias("avg_val"))

# コンソールへ出力（デバッグ用）

query = agg.writeStream.outputMode("update") \

.format("console") \

.option("truncate", "false") \

.start()

query.awaitTermination()

上記コードは、ローカルの Spark セッションでも EMR クラスターでも同一の手順で実行できます。

まとめ

Spark 3.5 は AQE の強化と Pandas API の拡張により、設定ひとつで約 20 % 程度のパフォーマンス向上が期待できる最新安定版です。
ローカル環境は conda / venv と pip install pyspark==3.5.* だけで構築可能。クラウドでは EMR 7 系リリースラベルを選択すれば Spark 3.5 が利用できます。
DataFrame と SparkSQL は同一の Catalyst オプティマイザを共有するため、用途に応じて柔軟に切り替えられます。
パフォーマンスチューニングは AQE の有効化、キャッシュ・適切なパーティショニング設定が鍵です。ベンチマーク結果を参考に自環境で微調整してください。
MLlib と Structured Streaming のサンプルは、実務でもすぐに活用できる形で提示しました。

本稿の手順と設定例を踏襲すれば、初心者から中級者までが本番レベルの Spark アプリケーションを迅速に構築・運用できるようになります。

スポンサードリンク

もっとスキルを活かしたいエンジニアへ

スポンサードリンク

働き方から選べる

無料で使えて良質な案件の情報収集ができるサービス

フルリモート・週3日・高単価、どんな条件も妥協したくないなら

フリーランスボードに無料会員登録する

利用者10万人以上。業界最大規模45万件の案件。AIマッチ機能や無料の相場情報が人気。

年収800万円以上のキャリアアップ・ハイクラス正社員を視野に入れているなら

Beyond Careerに無料相談する

内定獲得率90%以上。紹介先企業とは役員クラスのコネクションがある安心と信頼できるエージェント。

-ApacheSpark

comment コメントをキャンセル

: ApacheSpark

AWS EMRでSparkコスト最適化：KPI設定・スポット活用・Auto Scalingガイド

本稿では、AWS EMR上でSparkを効率的に運用するためのコスト最適化手法を紹介します。KPIによる効果測定からスポットインスタンス活用、Auto Scaling設定、ExecutorやShuffleパーティション調整、Parquet圧縮、リアルタイムモニタリングまで実践的なポイントを網羅。

: ApacheSpark

Apache Spark vs Flink 2024: Performance Comparison & Use Cases

本記事では2024年最新ベンチマークデータを基に、Apache SparkとFlinkのパフォーマンス差や設計思想を解説。ストリーム処理におけるFlinkの優位性、AWS環境でのスケーラビリティ比較、Flashエンジンによる性能向上などを中心に、自社環境に最適なツール選定の指針をお伝えします。

: ApacheSpark

Apache Spark クラウド環境構築: GCPとAWSの比較と手順

GCPとAWSにおけるApache Sparkクラウド環境構築の比較と具体的な手順を解説。マネージドサービスやコスト削減策、セキュリティ設定まで網羅。

: ApacheSpark

Apache Spark 4.0新機能と実務への影響

2025年5月リリースのApache Spark 4.0ではSQL処理能力やPython開発者向けDX改善、クラウドネイティブ対応が強化。データエンジニア向けにパフォーマンス向上と実装効率の両立を目指した新機能を体系的に解説。

: ApacheSpark

Apache Spark と Delta Lake の完全互換性と Databricks 設定ガイド

Apache Spark の標準 API で Delta Lake をフル活用し、Databricks 環境の構築手順とバッチ／ストリーミング最適化方法を網羅的に紹介します。

Apache Spark Streaming vs Flink: Real-Time Processing Framework Comparison

2026年XREAL ARグラス市場動向と最新モデル比較

Apache Spark と PySpark の最新概要と2024年版導入ガイド

Apache Spark と PySpark の概要（Spark 3.5 系）

開発環境の構築（ローカル & クラウド）

ローカルマシンでの Python 環境構築

Amazon EMR で Spark 3.5 を使用する際の留意点

PySpark DataFrame 操作と SparkSQL 入門

データ読み込みと基本変換

SparkSQL を用いた同等クエリ

パフォーマンスチューニング（AQE・キャッシュ・パーティショニング）

Adaptive Query Execution（AQE）の最適設定

キャッシュとパーティショニング

推奨デフォルト設定（Spark 3.5）

MLlib と Structured Streaming のハンズオン

1. MLlib パイプライン（前処理 → 標準化 → ロジスティック回帰）

2. Structured Streaming による Kafka からのリアルタイム集計

まとめ

Apache Spark と PySpark の概要（Spark 3.5 系）

Amazon EMR で Spark 3.5 を使用する際の留意点

推奨デフォルト設定（Spark 3.5）