Azure Synapse Analytics のLakeデータベース全体アーキテクチャと構築手順

2026年7月6日

もっとスキルを活かしたいエンジニアへ

スポンサードリンク

働き方から選べる

無料で使えて良質な案件の情報収集ができるサービス

エンジニアの世界では、「いつでも動ける状態を作っておけ」とよく言われます。
技術やポートフォリオがあっても、自分に合う案件情報を日常的に見れていないと、いざ動こうと思った時に比較や判断が難しくなってしまいます。
普段から案件情報が集まる環境を作っておくと、良い案件が出た時にすぐ動きやすくなりますよ。
筆者自身も、メガベンチャー勤務時代に年収1,500万円を超えた経験があります。振り返ると、技術だけでなく「どんな案件や働き方があるか」を日頃から見ていたことが、キャリアの選択肢を広げるきっかけになりました。
このブログを読んでくれた方に感謝を込めて、実際に使っている情報収集サービスを紹介します。

フルリモート・週3日・高単価、どんな条件も妥協したくないなら

フリーランスボードに無料会員登録する

利用者10万人以上。業界最大規模45万件の案件。AIマッチ機能や無料の相場情報が人気。

年収800万円以上のキャリアアップ・ハイクラス正社員を視野に入れているなら

Beyond Careerに無料相談する

内定獲得率90%以上。紹介先企業とは役員クラスのコネクションがある安心と信頼できるエージェント。

Contents

1 Azure Synapse Analytics の全体アーキテクチャと Lake データベース概念
- 1.1 コンポーネント概要
- 1.2 Lake データベースの役割
2 環境構築：前提条件・ロール・リソース作成手順
- 2.1 必要な Azure ロールと権限設定
- 2.2 リソースグループ・ストレージアカウント・Synapse ワークスペースの作成
  - 2.2.1 ARM テンプレート例（抜粋）
  - 2.2.2 Portal 手順（概要）
3 Lake データベース設計とテンプレート適用
4 データインジェストとガバナンス設定
5 パフォーマンス最適化・検証・運用、PoC コスト感覚と本番移行の留意点
6 次のアクション：無料 Azure アカウントで PoC 環境を作成

スポンサードリンク

Azure Synapse Analytics の全体アーキテクチャと Lake データベース概念

Azure Synapse はデータウェアハウス、ビッグデータ処理、リアルタイム分析を単一プラットフォームで提供します。本節では主要コンポーネントの概要と、ストレージ上の Parquet などを直接参照できる Lake データベース がどのようにデータレイクハウスとして機能するかを解説します。

コンポーネント概要

Synapse の主要サービスは以下の通りです。

コンポーネント	主な役割	代表的な利用シーン
SQL pool (Serverless / Dedicated)	T‑SQL によるクエリ実行	ad‑hoc 分析、ETL 不要の高速レポート
Spark pool	分散処理基盤（Scala / PySpark）	機械学習パイプライン、バッチ変換
Data Explorer	時系列データ検索エンジン	ログ・IoT データのリアルタイム分析

Lake データベースの役割

Lake データベースは Azure Data Lake Storage (ADLS) 上に保存されたファイルを「仮想テーブル」として扱い、SQL と Spark の両方から同一スキーマで参照できます。Microsoft Learn では「エンティティ・属性・リレーションシップ」をモデル化できるデザイナーが提供されていると説明されています（公式ドキュメント）。これにより、従来はスキーマレスだったレイクでもリレーショナルな分析が可能になります。

環境構築：前提条件・ロール・リソース作成手順

本節では Lake データベースを利用するための権限設定と、Azure Portal もしくは ARM テンプレートでのリソース作成フローを具体的に示します。

必要な Azure ロールと権限設定

Lake データベースの作成・管理には Synapse 管理者 または Synapse 共同作成者 のロールが必要です。以下にロール付与手順と推奨シナリオを示します。

# Azure CLI による Synapse 共同作成者ロールの付与例
az role assignment create \
  --assignee &lt;userPrincipalName&gt; \
  --role &quot;Synapse Collaborative Contributor&quot; \
  --scope /subscriptions/&lt;subId&gt;/resourceGroups/&lt;rgName&gt;/providers/Microsoft.Synapse/workspaces/&lt;workspaceName&gt;

# Azure CLI による Synapse 共同作成者ロールの付与例

az role assignment create \

--assignee <userPrincipalName> \

--role "Synapse Collaborative Contributor" \

--scope /subscriptions/<subId>/resourceGroups/<rgName>/providers/Microsoft.Synapse/workspaces/<workspaceName>

Synapse 管理者：全機能へのフルアクセス。大規模導入時の初期設定に適しています。
Synapse 共同作成者：データベース・パイプラインの作成・編集が可能で、運用担当者向けの最小権限です。

ポイント：ロール付与は Azure AD のグループ単位で行うと、メンバー追加時に自動的に権限が継承され管理コストを削減できます。

リソースグループ・ストレージアカウント・Synapse ワークスペースの作成

リソースは「リソースグループ → ストレージアカウント → Synapse ワークスペース」の順に構築します。以下は ARM テンプレートと Portal 手順です。

ARM テンプレート例（抜粋）

{
  &quot;$schema&quot;: &quot;https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#&quot;,
  &quot;contentVersion&quot;: &quot;1.0.0.0&quot;,
  &quot;parameters&quot;: {
    &quot;workspaceName&quot;: { &quot;type&quot;: &quot;string&quot; },
    &quot;storageAccountName&quot;: { &quot;type&quot;: &quot;string&quot; }
  },
  &quot;resources&quot;: [
    {
      &quot;type&quot;: &quot;Microsoft.Storage/storageAccounts&quot;,
      &quot;apiVersion&quot;: &quot;2022-09-01&quot;,
      &quot;name&quot;: &quot;[parameters('storageAccountName')]&quot;,
      &quot;location&quot;: &quot;[resourceGroup().location]&quot;,
      &quot;sku&quot;: { &quot;name&quot;: &quot;Standard_LRS&quot; },
      &quot;kind&quot;: &quot;StorageV2&quot;
    },
    {
      &quot;type&quot;: &quot;Microsoft.Synapse/workspaces&quot;,
      &quot;apiVersion&quot;: &quot;2021-06-01&quot;,
      &quot;name&quot;: &quot;[parameters('workspaceName')]&quot;,
      &quot;location&quot;: &quot;[resourceGroup().location]&quot;,
      &quot;properties&quot;: {
        &quot;defaultDataLakeStorage&quot;: {
          &quot;accountUrl&quot;: &quot;[concat('https://', parameters('storageAccountName'), '.dfs.core.windows.net/')]&quot;,
          &quot;filesystem&quot;: &quot;synapse&quot;
        }
      },
      &quot;dependsOn&quot;: [
        &quot;[resourceId('Microsoft.Storage/storageAccounts', parameters('storageAccountName'))]&quot;
      ]
    }
  ]
}

{

"$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",

"contentVersion": "1.0.0.0",

"parameters": {

"workspaceName": { "type": "string" },

"storageAccountName": { "type": "string" }

"resources": [

{

"type": "Microsoft.Storage/storageAccounts",

"apiVersion": "2022-09-01",

"name": "[parameters('storageAccountName')]",

"location": "[resourceGroup().location]",

"sku": { "name": "Standard_LRS" },

"kind": "StorageV2"

{

"type": "Microsoft.Synapse/workspaces",

"apiVersion": "2021-06-01",

"name": "[parameters('workspaceName')]",

"location": "[resourceGroup().location]",

"properties": {

"defaultDataLakeStorage": {

"accountUrl": "[concat('https://', parameters('storageAccountName'), '.dfs.core.windows.net/')]",

"filesystem": "synapse"

}

"dependsOn": [

"[resourceId('Microsoft.Storage/storageAccounts', parameters('storageAccountName'))]"

]

}

]

}

Portal 手順（概要）

リソースの作成 → データ + AI → Synapse Analytics を選択。
ワークスペース名・リージョンを入力し、既存または新規のストレージアカウントを紐付ける。
必要に応じて Azure AD のロール割当やネットワーク設定を行い、作成完了。

ポイント：リソースグループ単位でタグ付与（例：Env=Dev）しておくと、コスト分析やポリシー適用が容易になります。

Lake データベース設計とテンプレート適用

この章では Synapse Studio の Database Designer を利用したスキーマ作成手順と、公式提供のテンプレートをインポートしてすぐに活用できる流れを示します。

Database Designer でのデータベース作成

Designer は GUI だけでエンティティ・属性・リレーションシップを定義できます。以下は基本的な操作フローです。

Synapse Studio にサインインし左メニューの 「データ」→「Database Designer」 を選択。
「新しい Lake データベース」をクリックし、名前と ADLS のファイルシステムパスを入力して作成。
エンティティ追加：+ エンティティ → 名前・主キー属性（例: SalesOrderId）を設定。
属性定義：列名・データ型（String, Int64, DateTime 等）を追加。
リレーションシップ：外部キーをドラッグしてエンティティ間の関係を作成。

作成したモデルは自動的に Parquet ファイルと紐付くため、保存後すぐに SQL on‑demand でクエリが実行可能です。

公式テンプレートのインポート方法

Microsoft が提供する Lake データベーステンプレート（例：Sales Sample）を利用すると、代表的なテーブル構造とサンプルデータが即座に手元に届きます。

Designer の画面左上の 「テンプレートギャラリー」 を開く。
「Lake データベーステンプレート」一覧から 「Sales (sample)」 を選択し 「インポート」 ボタンをクリック。
インポート完了後、エンティティ・属性を自社要件に合わせてカスタマイズ（列の追加・削除）すれば準備完了です。

※テンプレート利用には Synapse ユーザーロール が必要です（詳細は quick‑start を参照）。

スキーマモデリングのベストプラクティス

実務で安定運用できるスキーマは 命名規則・正規化とデノーマライズのバランス が鍵です。以下に推奨項目をまとめました。

項目	推奨内容
エンティティ名	`PascalCase`（例：`SalesOrder`）
属性名	`camelCase`、単位はサフィックスで表す（例：`orderDateUtc`）
主キー	`<EntityName>Id` または単純に `Id` （例：`salesOrderId`）
外部キー	`<ReferenceEntity>NameId`（例：`customerId`）
正規化レベル	第 3 正規形まで実装し、分析頻度が高いディメンションはデノーマライズ
パーティショニング	日付系属性で年/月フォルダー構造を推奨（例：`/sales/2025/03/`）

ポイント：一貫した命名と適切なパーティション設計は、クエリプランの最適化やメンテナンス効率に直結します。

データインジェストとガバナンス設定

本節では Azure Data Factory / Synapse Pipelines によるデータ取り込み手順と、アクセス制御・監査を組み合わせたガバナンス実装方法を解説します。Qiita 記事は参考情報として掲載していますが、公式ドキュメントで最新のベストプラクティスをご確認ください。

Data Factory / Synapse Pipelines による取り込みフロー

Pipeline と Data Flow を組み合わせれば、CSV や Parquet など多様なフォーマットを 自動スキーマ検出＋変換しながら Lake データベースへロードできます。主なステップは次の通りです。

Linked Service：Blob/ADLS と Synapse ワークスペースを接続。
Copy Activity：source: blob/*.csv → sink: lakeDatabase.SalesOrder（Parquet に変換）。
Data Flow：日付文字列を DateTime 型へ変換し、欠損値はデフォルトで埋める。
パラメータ化：実行時にフォルダー名（年月）を渡すだけで自動的に該当パーティションへロード。

{
  &quot;name&quot;: &quot;CopyCsvToLake&quot;,
  &quot;type&quot;: &quot;Copy&quot;,
  &quot;inputs&quot;: [{ &quot;referenceName&quot;: &quot;BlobCsv&quot;, &quot;type&quot;: &quot;DatasetReference&quot; }],
  &quot;outputs&quot;: [{ &quot;referenceName&quot;: &quot;LakeSalesOrder&quot;, &quot;type&quot;: &quot;DatasetReference&quot; }]
}

{

"name": "CopyCsvToLake",

"type": "Copy",

"inputs": [{ "referenceName": "BlobCsv", "type": "DatasetReference" }],

"outputs": [{ "referenceName": "LakeSalesOrder", "type": "DatasetReference" }]

}

ポイント：テンプレート化したパイプラインは、スケジュールやトリガー変更だけで新規データソースに対応できます。

アクセス制御と行レベルセキュリティ（RLS）

Lake データベースでも Azure RBAC と Row‑Level Security を併用し、部門ごとの閲覧権限を細かく管理します。以下は正確な構文例です。

-- 1. 部門情報テーブル（スキーマ dbo に配置）
CREATE TABLE dbo.UserDepartment (
    UserPrincipalName NVARCHAR(128) NOT NULL,
    Department        NVARCHAR(64)  NOT NULL,
    PRIMARY KEY (UserPrincipalName)
);
GO

-- 2. RLS 用フィルタ関数（SCHEMABINDING 必須）
CREATE FUNCTION dbo.fn_SalesRls(@Dept NVARCHAR(64))
RETURNS TABLE WITH SCHEMABINDING AS
RETURN SELECT 1 AS fn_result
WHERE @Dept = (SELECT Department FROM dbo.UserDepartment WHERE UserPrincipalName = USER_NAME());
GO

-- 3. セキュリティポリシーの作成（対象テーブルは SalesOrder）
CREATE SECURITY POLICY dbo.SalesRlsPolicy
ADD FILTER PREDICATE dbo.fn_SalesRls(Department) ON dbo.SalesOrder
WITH (STATE = ON);
GO

-- 1. 部門情報テーブル（スキーマ dbo に配置）

CREATE TABLE dbo.UserDepartment (

UserPrincipalName NVARCHAR(128) NOT NULL,

Department NVARCHAR(64) NOT NULL,

PRIMARY KEY (UserPrincipalName)

);

-- 2. RLS 用フィルタ関数（SCHEMABINDING 必須）

CREATE FUNCTION dbo.fn_SalesRls(@Dept NVARCHAR(64))

RETURNS TABLE WITH SCHEMABINDING AS

RETURN SELECT 1 AS fn_result

WHERE @Dept = (SELECT Department FROM dbo.UserDepartment WHERE UserPrincipalName = USER_NAME());

-- 3. セキュリティポリシーの作成（対象テーブルは SalesOrder）

CREATE SECURITY POLICY dbo.SalesRlsPolicy

ADD FILTER PREDICATE dbo.fn_SalesRls(Department) ON dbo.SalesOrder

WITH (STATE = ON);

ポイント
USER_NAME() は現在クエリ実行ユーザーの Azure AD UPN を取得します。
フィルタ関数は SCHEMABINDING が必須で、テーブル構造が変わると再作成が必要です。

監査ログと Azure Policy によるガバナンス自動化

監査とポリシーの組み合わせでコンプライアンス要件を継続的に満たす仕組みを構築します。

ポリシー名	定義内容	推奨状態
`synapse-workspace-diagnostic-enabled`	Synapse ワークスペースで診断設定が必須	適用済み
`storage-encryption-at-rest`	ストレージは SSE が有効か確認	適用済み
`lake-database-encrypted`	Lake データベースの保存先ストレージが暗号化されていることを保証	未適用（手動設定要）

診断設定：Synapse ワークスペース → 「診断設定」から SQLSecurityAuditEvents や SparkLogs を Log Analytics に送信。
アラート例：ポリシー違反が検出されたら Azure Monitor のメール通知をトリガーし、必要に応じて自動修復スクリプト（Azure Automation Runbook）を実行。

ポイント：ポリシーは「評価頻度」をデイリーかウィークリーに設定すると、コスト増加なく継続的な監視が可能です。

パフォーマンス最適化・検証・運用、PoC コスト感覚と本番移行の留意点

この章ではクエリ高速化手法、デバッグ方法、運用モニタリング、そして PoC 段階での費用感覚と本番環境へのスケール戦略をまとめます。

パーティショニング・キャッシュ・マテリアライズドビュー

Lake データベースでは パーティションプルーニング と 結果キャッシュ、さらに Materialized View が有効です。代表的な構文例は以下の通りです。

-- 1. パーティショニング（年・月で分割）
CREATE TABLE dbo.SalesPartitioned
WITH (
    LOCATION = 'abfss://synapse@mydatalake.dfs.core.windows.net/sales/',
    PARTITION (Year int, Month int)
) AS SELECT * FROM dbo.RawSales;
GO

-- 2. キャッシュヒント使用例（同一クエリの再実行を高速化）
SELECT /*+ CACHE */ Year, SUM(Amount) AS Total
FROM dbo.SalesPartitioned
WHERE Year = 2025 AND Month BETWEEN 1 AND 3
GROUP BY Year;
GO

-- 3. マテリアライズドビューで集計結果を事前算出
CREATE MATERIALIZED VIEW dbo.MonthlySalesSummary
WITH (CLUSTERED COLUMNSTORE INDEX)
AS
SELECT Year, Month, SUM(Amount) AS MonthlyTotal
FROM dbo.SalesPartitioned
GROUP BY Year, Month;
GO

-- 1. パーティショニング（年・月で分割）

CREATE TABLE dbo.SalesPartitioned

WITH (

LOCATION = 'abfss://synapse@mydatalake.dfs.core.windows.net/sales/',

PARTITION (Year int, Month int)

) AS SELECT * FROM dbo.RawSales;

-- 2. キャッシュヒント使用例（同一クエリの再実行を高速化）

SELECT /*+ CACHE */ Year, SUM(Amount) AS Total

FROM dbo.SalesPartitioned

WHERE Year = 2025 AND Month BETWEEN 1 AND 3

GROUP BY Year;

-- 3. マテリアライズドビューで集計結果を事前算出

CREATE MATERIALIZED VIEW dbo.MonthlySalesSummary

WITH (CLUSTERED COLUMNSTORE INDEX)

SELECT Year, Month, SUM(Amount) AS MonthlyTotal

FROM dbo.SalesPartitioned

GROUP BY Year, Month;

ポイント：パーティションキーはクエリで頻繁にフィルタリングされる列（例：Year/Month）を選ぶと、スキャン量が数十％削減できます。

デバッグと実行計画の確認方法

開発フェーズでは Synapse Studio のデバッグモード と SET SHOWPLAN_ALL ON を併用し、ボトルネックを可視化します。

Database Designer 上でクエリを右クリック → 「デバッグ」。
パラメータ（例：日付範囲）を設定して実行。
出力タブの Execution details に表示される Data Skew, Estimated Rows, I/O Cost を確認し、不要なスキャンや非効率的なジョイン順序があればパーティションやビューで調整。

ポイント：デバッグは 小規模サンプルデータ でも実行できるため、本番環境に影響を与えることなく最適化が可能です。

Azure Monitor と Log Analytics による運用監視

本番では Azure Monitor のメトリクスと Log Analytics ワークスペースに集約したログで総合的な可視化を行います。

// 例：Synapse Pipelines の失敗回数を日別に集計
AzureDiagnostics
| where ResourceProvider == &quot;MICROSOFT.SYNAPSE&quot;
      and Category == &quot;PipelineRun&quot;
      and Status_s == &quot;Failed&quot;
| summarize FailCount = count() by bin(TimeGenerated, 1d), PipelineName_s
| order by TimeGenerated desc

// 例：Synapse Pipelines の失敗回数を日別に集計

AzureDiagnostics

| where ResourceProvider == "MICROSOFT.SYNAPSE"

and Category == "PipelineRun"

and Status_s == "Failed"

| summarize FailCount = count() by bin(TimeGenerated, 1d), PipelineName_s

| order by TimeGenerated desc

アラート：FailCount > 5（過去 24 時間）でメール通知。
ダッシュボード：CPU、DTU、スキャン量、パイプライン成功率を表示する Workbooks を作成し、ステークホルダー向けに共有。

ポイント：Log Analytics のクエリは保存して再利用できるため、定期的なレポート作成が自動化できます。

PoC のコスト概算と本番スケール戦略（最新料金リンク付き）

PoC では主に Serverless SQL、Spark pool、ストレージ、Data Factory が課金対象です。以下は 2026 年 7 月時点の参考価格（USD 表示、為替レート 1 USD = 150 JPY 前提）です。実際の請求額は使用量とリージョンにより変動しますので、必ず公式料金ページをご確認ください。

項目	単価（2026/7 時点）※	想定利用量 (PoC)	月間概算費用
Serverless SQL (クエリ実行)	$5 / 1,000 クエリ（1 TB スキャン）	2,000 クエリ、10 TB スキャン	約 $100 （≈15,000 JPY）
Spark pool (Small)	$0.90 / vCore‑hour	50 vCore‑hour	約 $45 （≈6,800 JPY）
Storage (Hot)	$0.0184 / GB‑month	5 TB	約 $92 （≈13,800 JPY）
Data Factory アクティビティ実行	$1 / 1,000 実行	10,000 実行	約 $10 （≈1,500 JPY）

※価格は公式ページ（Azure Synapse の料金）を参照し、2026 年 7 月時点の情報です。実際のプロジェクトでは 予約インスタンス や 長期プラン を活用すると最大 55% の割引が得られます。

本番移行時のスケール戦略

項目	推奨アクション
SQL 実行基盤	ピーク時は Dedicated SQL pool (DWU) に切り替え、並列度を上げる。
ストレージ層	アクセス頻度が低いテーブルは Cool/Archive 層へ移行し、スキャン単価を削減。
予約インスタンス	1 年または 3 年の予約で vCore‑hour 単価を最大 55% 割引。
自動スケーリング	Spark pool のオートスケール設定で、負荷に応じたリソース調整を実現。

ポイント：PoC 段階で取得した使用パターン（CPU・メモリ・I/O）を基に、予算シミュレーションと予約購入のタイミングを計画すると、本番運用時のコストサプライズを防げます。

次のアクション：無料 Azure アカウントで PoC 環境を作成

この最終セクションでは、Azure の無料アカウント（$200 クレジット）でも本ガイドの全手順が実行可能な流れをご紹介します。

Azure ポータルにサインアップし、無料クレジットを取得。
「環境構築」セクションの手順で リソースグループ → ストレージアカウント → Synapse ワークスペース を作成。
Synapse Studio の Database Designer から公式 Lake データベーステンプレート（Sales Sample）をインポートし、必要なエンティティを自社要件に合わせて調整。
Qiita 記事で紹介された ADF / Synapse Pipelines のサンプルをコピーし、テストデータの取り込みと RLS + 監査ログ を有効化。

これらの作業が完了すれば、自社環境で Azure Synapse の Lake データベース設計・構築・運用 が体験でき、実務プロジェクトへの適用準備が整います。ぜひ無料クレジットを活用して、データレイクハウスの第一歩を踏み出してください。

本稿は執筆時点で確認された情報に基づき作成しています。サービス仕様や料金は変更される可能性がありますので、導入前には必ず最新の公式ドキュメントをご参照ください。

スポンサードリンク

もっとスキルを活かしたいエンジニアへ

スポンサードリンク

働き方から選べる

無料で使えて良質な案件の情報収集ができるサービス

フルリモート・週3日・高単価、どんな条件も妥協したくないなら

フリーランスボードに無料会員登録する

利用者10万人以上。業界最大規模45万件の案件。AIマッチ機能や無料の相場情報が人気。

年収800万円以上のキャリアアップ・ハイクラス正社員を視野に入れているなら

Beyond Careerに無料相談する

内定獲得率90%以上。紹介先企業とは役員クラスのコネクションがある安心と信頼できるエージェント。

-Azure

comment コメントをキャンセル

: Azure

Azure VMware Solution 移行コスト比較と導入のポイント

Azure VMware Solutionの導入費用、運用コスト、スケーラビリティを軸にしたコスト比較と企業規模別の選択肢を解説します。

: Azure

Azure DevOpsでのCI/CDパイプライン構築ガイド（2026年版）

Azure DevOpsでCI/CDパイプラインを作成し、YAMLマルチステージによるデプロイとベストプラクティスを解説します。

: Azure

Azure Functions入門：無料試用枠で始めるサーバーレスアプリ開発ガイド

本稿では、Azure Functions の無料試用枠取得からローカル開発環境構築、コード作成、CI/CD デプロイまでの手順を実践的に紹介します。

: Azure

Azure AI開発2026年のトレンドとノーコード導入ガイド

Azure AI Foundryによるノーコードワークフロー、MCP連携手順、OpenAIモデルの最適化、セキュリティ設計基準をステップバイステップで解説。

: Azure

2026 Azureリージョン選定のコストと地理的要因

2026年におけるAzureリージョン選定はコスト効率と地理的特性のバランスが不可欠です。価格モデルV2の変更やデータローカライゼーション要件を考慮した最適な選択方法を解説。

Azure VMware Solution 移行コスト比較と導入のポイント

Azure AI スタジオの活用事例：製造・小売・金融業での実績と導入イメージ