Spark Structured Streaming実装手順と設計ポイント

2026年5月31日

もっとスキルを活かしたいエンジニアへ

スポンサードリンク

働き方から選べる

無料で使えて良質な案件の情報収集ができるサービス

エンジニアの世界では、「いつでも動ける状態を作っておけ」とよく言われます。
技術やポートフォリオがあっても、自分に合う案件情報を日常的に見れていないと、いざ動こうと思った時に比較や判断が難しくなってしまいます。
普段から案件情報が集まる環境を作っておくと、良い案件が出た時にすぐ動きやすくなりますよ。
筆者自身も、メガベンチャー勤務時代に年収1,500万円を超えた経験があります。振り返ると、技術だけでなく「どんな案件や働き方があるか」を日頃から見ていたことが、キャリアの選択肢を広げるきっかけになりました。
このブログを読んでくれた方に感謝を込めて、実際に使っている情報収集サービスを紹介します。

フルリモート・週3日・高単価、どんな条件も妥協したくないなら

フリーランスボードに無料会員登録する

利用者10万人以上。業界最大規模45万件の案件。AIマッチ機能や無料の相場情報が人気。

年収800万円以上のキャリアアップ・ハイクラス正社員を視野に入れているなら

Beyond Careerに無料相談する

内定獲得率90%以上。紹介先企業とは役員クラスのコネクションがある安心と信頼できるエージェント。

Contents

1 Spark Structured Streaming 実装手順：マイクロバッチ処理から永続化まで体系的に解説
2 Structured Streaming の計算モデルと内部アーキテクチャ概要
- 2.1 マイクロバッチ処理の特徴
- 2.2 状態保持処理の設計パターン
3 foreachBatch APIによるマイクロバッチ処理の実装方法
- 3.1 データ変換ロジックの定義
- 3.2 リソース管理のベストプラクティス
4 遅延イベント/順序乱れイベントへの対応策
- 4.1 ワォーターマーキングの設定方法
- 4.2 イベントタイムの取り扱い
5 リアルタイムソース（Kafkaなど）との連携手順
- 5.1 Kafka Source の設定例
- 5.2 パーティション数の最適化
6 MySQLなどの永続化先へのデータ書き込み処理
- 6.1 JDBC 接続の最適化
- 6.2 トランザクション管理とリトライ戦略
7 フォールトトレランス設計と運用管理
- 7.1 チェックポイントの配置戦略
- 7.2 メトリクス監視の重要性
8 まとめ

スポンサードリンク

Spark Structured Streaming 実装手順：マイクロバッチ処理から永続化まで体系的に解説

Spark Structured Streaming を実務で活用するには、ストリームデータの取り扱いや設計のポイントを理解することが不可欠です。本記事では、構造化ストリーミングの計算モデル・マイクロバッチ処理の実装方法・リアルタイムソース連携の手順など、実際のプロジェクトで必要な知識を段階的に解説します。読者には「Structured Streaming を実際に導入するための具体的な実装例と設計考慮点」を提供することが目的です。

Structured Streaming の計算モデルと内部アーキテクチャ概要

Spark Structured Streaming は、ストリームデータを マイクロバッチ処理 として扱うことで、リアルタイム性と高可用性を両立させる仕組みです。このモデルの理解が設計の基盤となります。

このセクションでは、Structured Streaming の計算モデルや内部アーキテクチャについて解説します。特に、マイクロバッチ処理の特徴や状態保持処理の設計パターンに焦点を当てます。これらの知識は、安定したストリームアプリケーション構築に不可欠です。

マイクロバッチ処理の特徴

マイクロバッチは、ストリームデータを一定時間ごとにバッチとして処理する方式です。これにより、低レイテンシーと高スケーラビリティ を実現できますが、リアルタイム性に限界がある点は注意が必要です。

特徴	説明
バッチ単位の処理	一定時間（例：1秒）ごとにストリームデータをバッチとして取り込みます。
状態保持可能な処理	状態を持つアプリケーション（例：カウンターストリーム）でも実行可能です。
チェックポイントメカニズム	エラー発生時の再開や、データの整合性を保つためにチェックポイントが自動保存されます。

状態保持処理の設計パターン

状態保持が必要な処理（例：ユーザーごとの行動履歴集計）には、groupByKey や aggregateByKey と組み合わせたアプローチが一般的です。

注意：永続化するデータ量が多い場合は、外部ストレージ（Redisなど）への状態の保存を検討してください。

以下に設計時のポイントを箇条書きでまとめます：

状態保持処理は groupByKey や aggregateByKey で実装し、計算効率を向上させる
メモリが不足する場合、外部ストレージ（RedisやHDFS）への状態保存が必要
高頻度の更新がある場合は、ステートフル処理の性能評価を事前に実施

foreachBatch APIによるマイクロバッチ処理の実装方法

foreachBatch API は、マイクロバッチごとの処理をカスタマイズするための強力な機能です。ここでは具体的なコード例とリソース管理のポイントについて説明します。

このセクションでは、foreachBatch API の仕組みと実際にストリームデータを加工・永続化する実装方法について解説します。特に、KafkaからMySQLへのデータ連携処理に焦点を当てます。

データ変換ロジックの定義

以下に、Kafkaから受信したデータを加工してMySQLへ書き込む処理の例を示します。コードのリファクタリングにより、永続化先への書き込み処理が共通化されている点に注目してください。

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName(&quot;StructuredStreamingExample&quot;).getOrCreate()

def process_batch(batch_df, batch_id):
    # 共通のデータ変換ロジック（例：カラムリネーム）
    transformed_df = batch_df.selectExpr(
        &quot;CAST(value AS STRING) as data&quot;,
        &quot;CAST(timestamp AS TIMESTAMP) as event_time&quot;
    )

    # MySQLへの永続化処理
    jdbc_url = &quot;jdbc:mysql://localhost:3306/mydb&quot;
    connection_properties = {
        &quot;user&quot;: &quot;root&quot;,
        &quot;password&quot;: &quot;password&quot;,
        &quot;driver&quot;: &quot;com.mysql.cj.jdbc.Driver&quot;
    }

    transformed_df.write \
        .mode(&quot;append&quot;) \
        .option(&quot;url&quot;, jdbc_url) \
        .option(&quot;dbtable&quot;, &quot;results_table&quot;) \
        .option(&quot;user&quot;, connection_properties[&quot;user&quot;]) \
        .option(&quot;password&quot;, connection_properties[&quot;password&quot;]) \
        .jdbc()

query = spark.readStream.format(&quot;kafka&quot;) \
    .option(&quot;kafka.bootstrap.servers&quot;, &quot;localhost:9092&quot;) \
    .option(&quot;subscribe&quot;, &quot;test-topic&quot;) \
    .load() \
    .writeStream.foreachBatch(process_batch) \
    .outputMode(&quot;append&quot;) \
    .start()

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("StructuredStreamingExample").getOrCreate()

def process_batch(batch_df, batch_id):

# 共通のデータ変換ロジック（例：カラムリネーム）

transformed_df = batch_df.selectExpr(

"CAST(value AS STRING) as data",

"CAST(timestamp AS TIMESTAMP) as event_time"

)

# MySQLへの永続化処理

jdbc_url = "jdbc:mysql://localhost:3306/mydb"

connection_properties = {

"user": "root",

"password": "password",

"driver": "com.mysql.cj.jdbc.Driver"

}

transformed_df.write \

.mode("append") \

.option("url", jdbc_url) \

.option("dbtable", "results_table") \

.option("user", connection_properties["user"]) \

.option("password", connection_properties["password"]) \

.jdbc()

query = spark.readStream.format("kafka") \

.option("kafka.bootstrap.servers", "localhost:9092") \

.option("subscribe", "test-topic") \

.load() \

.writeStream.foreachBatch(process_batch) \

.outputMode("append") \

.start()

リソース管理のベストプラクティス

以下に、リソース制限とバッチ処理の最適化に関するポイントをまとめます：

チェックポイントディレクトリを外部ストレージ（HDFSやS3）に設定し、再起動時のデータ整合性を保つ
バッチ間隔は trigger(processingTime="5 seconds") のように、リアルタイム性と処理負荷のバランスを見ながら調整する
並列度の最適化：Sparkのエクスキュータ数とKafkaパーティション数を一致させることで、リソース利用率を向上させる

遅延イベント/順序乱れイベントへの対応策

ストリームデータは、時刻が逆転したり、遅延して届くケースがあります。このような状況に対応するには、ウォーターマーキング や イベントタイムの取り扱い が重要です。

このセクションでは、遅延イベントや順序乱れデータへの対策として、ウォーターマーキングとイベントタイム管理の実装方法を解説します。特に、処理精度とリアルタイム性を両立させるための設計ポイントを重視しています。

ワォーターマーキングの設定方法

ウォーターマーキングは、遅延イベントの取り扱いに重要な役割を持ちます。以下に、20秒以内に到着したイベントだけを処理対象とし、それ以降の遅延イベントを無視する設定例を示します。

df = df.withWatermark(&quot;event_time&quot;, &quot;20 seconds&quot;)

1 2	df = df.withWatermark("event_time", "20 seconds")

イベントタイムの取り扱い

以下に、イベントタイム管理に関する実装ポイントと設計考慮点をまとめます：

時刻列の明示：withColumn("event_time", col("timestamp").cast("timestamp")) のように、イベントの発生時刻を明示的に定義する
出力モードの選択：outputMode("append") は新規データのみを出力し、outputMode("update") は更新されたレコードのみを出力する
イベントタイムのソート：時刻が乱れたデータに備え、orderBy("event_time") を使用して処理順序を保証する

リアルタイムソース（Kafkaなど）との連携手順

Structured Streaming は、KafkaやFileなど、様々なリアルタイムソースと連携可能です。ここでは Kafka ソースの設定例を取り上げます。

このセクションでは、Kafkaからデータを読み込む際の最適な設定方法について解説します。特に、パーティション数の最適化とスキーマ進化対応策に焦点を当てています。

Kafka Source の設定例

以下に、Kafkaソースからのストリーム読み込み処理を示します。このコードは、subscribe モードでトピックを指定し、ストリームデータを読み込む基本的な構造を持っています。

df = spark.readStream.format(&quot;kafka&quot;) \
    .option(&quot;kafka.bootstrap.servers&quot;, &quot;host1:port1,host2:port2&quot;) \
    .option(&quot;subscribe&quot;, &quot;topic_name&quot;) \
    .load()

df = spark.readStream.format("kafka") \

.option("kafka.bootstrap.servers", "host1:port1,host2:port2") \

.option("subscribe", "topic_name") \

.load()

パーティション数の最適化

以下に、KafkaとSpark Structured Streamingの連携におけるパーティション数の最適化に関するポイントをまとめます：

Kafkaのパーティション数とSparkの並列度（spark.sql.streaming.checkpointLocation）を合わせることで、処理効率が向上します。
トピックごとに 複数のConsumer Group を設定し、負荷分散を行うことで高可用性を確保する
Kafka Consumer API のパラメータ（max.poll.records） を調整して、バッチ処理の効率化を目指す

MySQLなどの永続化先へのデータ書き込み処理

ストリーム処理の結果を MySQL や PostgreSQL に保存する場合、適切なトランザクション管理とリトライ戦略が求められます。

このセクションでは、ストリームデータをMySQLに永続化する際の設計ポイントについて解説します。特に、トランザクション管理とエラーハンドリングの実装方法に重点を置きます。

JDBC 接続の最適化

以下に、PySparkでJDBCを使用してMySQLへのデータ書き込みを行うコード例を示します。この実装では、永続化先への書き込み処理が共通化されており、再利用性が向上しています。

from pyspark.sql import DataFrame

def process_batch(batch_df: DataFrame, batch_id: int):
    # MySQL への接続情報
    jdbc_url = &quot;jdbc:mysql://localhost:3306/mydb&quot;
    connection_properties = {
        &quot;user&quot;: &quot;root&quot;,
        &quot;password&quot;: &quot;password&quot;,
        &quot;driver&quot;: &quot;com.mysql.cj.jdbc.Driver&quot;
    }

    batch_df.write \
        .mode(&quot;append&quot;) \
        .option(&quot;url&quot;, jdbc_url) \
        .option(&quot;dbtable&quot;, &quot;results_table&quot;) \
        .option(&quot;user&quot;, connection_properties[&quot;user&quot;]) \
        .option(&quot;password&quot;, connection_properties[&quot;password&quot;]) \
        .jdbc()

from pyspark.sql import DataFrame

def process_batch(batch_df: DataFrame, batch_id: int):

# MySQL への接続情報

jdbc_url = "jdbc:mysql://localhost:3306/mydb"

connection_properties = {

"user": "root",

"password": "password",

"driver": "com.mysql.cj.jdbc.Driver"

}

batch_df.write \

.mode("append") \

.option("url", jdbc_url) \

.option("dbtable", "results_table") \

.option("user", connection_properties["user"]) \

.option("password", connection_properties["password"]) \

.jdbc()

トランザクション管理とリトライ戦略

以下に、永続化処理における設計考慮点をまとめます：

バッチ単位でのトランザクション：mode("append") で、失敗時は全体をロールバックします。
エラー発生時のリトライ：Spark Structured Streaming 内部の checkpointLocation を活用し、処理が中断した場合でも再開できるようにします。
JDBC接続の最適化：接続プール（HikariCPなど）を使用して、複数バッチ処理のパフォーマンスを向上させる

フォールトトレランス設計と運用管理

ストリームアプリケーションは長時間稼働するため、フォールトトレランス設計が不可欠です。以下にチェックポイントの配置やメトリクス監視の重要性を解説します。

このセクションでは、Structured Streamingアプリケーションにおけるフォールトトレランス設計と運用管理について解説します。特に、チェックポイントの保存場所・頻度設定、監視ツールとの連携方法に焦点を当てています。

チェックポイントの配置戦略

以下に、チェックポイントの保存場所と頻度に関する設計ポイントをまとめます：

永続化先（HDFS, S3 など）への保存：spark.sql.streaming.checkpointLocation を外部ストレージに設定することで、ノードの障害やクラスタ再構成時の再起動を確実に行えます。
頻度とサイズのバランス：チェックポイントが頻繁すぎる場合、I/O 負荷が増加します。10秒〜1分程度の間隔 で保存する設定が一般的です。

メトリクス監視の重要性

以下に、ストリームアプリケーションの監視と異常検知に関するポイントをまとめます：

Spark UI からの確認：http://localhost:4040 などで、ストリーム処理の進捗やレイテンシーをリアルタイムで確認できます。
外部モニタリングツール（Prometheus, Grafana）との連携：異常発生時のアラート設定などを自動化し、運用負荷を軽減します。

まとめ

本記事では、Spark Structured Streaming の実装手順について、以下の要点を解説しました。

マイクロバッチ処理の仕組みと設計
foreachBatch API を活用したデータ変換とリソース管理
Kafka との連携設定とスキーマ進化対応
MySQL への永続化処理とトランザクション管理のポイント
フォールトトレランス設計と運用監視のノウハウ

実務では、これらの知識を基にプロジェクトに最適な構成を設計することが重要です。記事の実装例を参考に、自社環境での構造化ストリーミングパイプライン構築を開始してください。実装中に発生する課題はコメント欄でご相談ください。

スポンサードリンク

もっとスキルを活かしたいエンジニアへ

スポンサードリンク

働き方から選べる

無料で使えて良質な案件の情報収集ができるサービス

フルリモート・週3日・高単価、どんな条件も妥協したくないなら

フリーランスボードに無料会員登録する

利用者10万人以上。業界最大規模45万件の案件。AIマッチ機能や無料の相場情報が人気。

年収800万円以上のキャリアアップ・ハイクラス正社員を視野に入れているなら

Beyond Careerに無料相談する

内定獲得率90%以上。紹介先企業とは役員クラスのコネクションがある安心と信頼できるエージェント。

-ApacheSpark

comment コメントをキャンセル

: ApacheSpark

DatabricksとAmazon EMR Sparkの2026年コスト比較

2026年、企業がデータ処理ニーズに応じてDatabricksとAmazon EMR Sparkのコスト比較を解説。料金プランや運用戦略によるROI分析も。

: ApacheSpark

Apache Spark コスト最適化と料金モデル徹底解説

Spark の運用費は CPU・メモリ・ストレージ・ネットワークで決まり、監視と動的割当で大幅削減が可能です。

: ApacheSpark

Lakehouse Architecture in 2024: Databricks vs Apache Spark Comparison

データ処理基盤の進化に伴い、企業は高速な分析と柔軟なデータ管理を両立するLakehouseアーキテクチャを求めています。Databricks LakehouseやApache Sparkの特徴と実用性に焦点を当てた比較分析です。

: ApacheSpark

Apache Sparkデータパイプライン設計ガイド

Apache Sparkによるデータパイプライン構築の要点を解説。耐障害性やコスト最適化など5つの設計原則と、Structured Streaming・Hadoop統合の実装ステップを紹介。

: ApacheSpark

Apache Spark 4.0新機能と実務への影響

2025年5月リリースのApache Spark 4.0ではSQL処理能力やPython開発者向けDX改善、クラウドネイティブ対応が強化。データエンジニア向けにパフォーマンス向上と実装効率の両立を目指した新機能を体系的に解説。

Apache Spark と Delta Lake の完全互換性と Databricks 設定ガイド

Dropbox Business 2026プラン選定ガイド｜中小企業向けコストパフォーマンス比較

Spark Structured Streaming実装手順と設計ポイント

Spark Structured Streaming 実装 手順：マイクロバッチ処理から永続化まで体系的に解説

Structured Streaming の計算モデルと内部アーキテクチャ概要

マイクロバッチ処理の特徴

状態保持処理の設計パターン

foreachBatch APIによるマイクロバッチ処理の実装方法

データ変換ロジックの定義

リソース管理のベストプラクティス

遅延イベント/順序乱れイベントへの対応策

ワォーターマーキングの設定方法

イベントタイムの取り扱い

リアルタイムソース（Kafkaなど）との連携手順

Kafka Source の設定例

パーティション数の最適化

MySQLなどの永続化先へのデータ書き込み処理

JDBC 接続の最適化

トランザクション管理とリトライ戦略

フォールトトレランス設計と運用管理

チェックポイントの配置戦略

メトリクス監視の重要性

まとめ

Spark Structured Streaming 実装手順：マイクロバッチ処理から永続化まで体系的に解説