Azure

Azure Maia 200 AIアクセラレーションの設定と活用ガイド

ⓘ本ページはプロモーションが含まれています

スポンサードリンク

1. Azure AI 加速器(ND96asr_v4)概要と主なスペック

項目 内容
SKU 名 Standard_ND96asr_v4
ハードウェア構成 8 × NVIDIA H100 (80 GB) GPU、96 vCPU、1.9 TB RAM
GPU メモリ総量 640 GB(8 × 80 GB)
インターコネクト NVLink による GPU‑GPU 高帯域リンク、PCIe 4.0 x16
対応フレームワーク TensorFlow 2.x、PyTorch 2.x、ONNX Runtime 1.14+(CUDA 12)
推奨 OS Ubuntu 20.04 LTS、Ubuntu 22.04 LTS、RHEL 8/9
利用可能リージョン (2026‑03) East US, West Europe, Southeast Asia, Japan East など【3†Azure Region Availability】

ポイントND96asr_v4 は「Inference Optimized」SKU として設計され、GPU の電力管理や NVLink 経由の高速データ転送が標準で有効化されています。


2. 前提条件と環境設定

2.1 必要な Azure アカウント権限

権限 説明
Microsoft.Compute/virtualMachines/write VM の作成・更新
Microsoft.Network/virtualNetworks/subnets/write VNet/サブネットの設定
Microsoft.MachineLearningServices/workspaces/* Azure Machine Learning ワークスペース操作(デプロイに必須)
Reader + Contributor (最低) 参考: https://learn.microsoft.com/azure/role-based-access-control/built-in-roles

Tip – 最小権限で運用したい場合は、カスタムロールを作成し Microsoft.MachineLearningServices/* を限定的に付与します。

2.2 対応リージョンと SKU の確認方法

2.3 推奨 OS とパッケージリポジトリの準備

OS パッケージリポジトリ URL
Ubuntu 20.04 LTS https://packages.microsoft.com/ubuntu/20.04/prod
Ubuntu 22.04 LTS https://packages.microsoft.com/ubuntu/22.04/prod

チェックリスト(実行前に必ず確認)


3. ND96asr_v4 VM の作成手順

3.1 ポータルでの作成フロー(概要)

手順 操作内容
1 Azure Portal にサインイン → 「仮想マシン」 > 「+ 作成」
2 基本情報: リソースグループ ml-rg、VM 名 nd96asr-vm、リージョン East US
3 イメージ: Ubuntu 20.04 LTS(Canonical)
4 サイズ検索欄で Standard_ND96asr_v4 を選択
5 管理タブ → 「拡張機能」 > 「Azure Machine Learning Compute」有効化
6 ネットワーク: 新規 VNet (ml-vnet)、サブネット (ml-subnet)、パブリック IP は なし(プライベートエンドポイント利用)
7 確認画面で「作成」

UI からは「Accelerated networking」は自動で有効になるため、個別チェックは不要です。

3.2 Azure CLI 完全スクリプト

ポイント

  • --accelerated-networking true が正式フラグです(旧 true のみで OK)。
  • プライベート IP のみで構築することで、外部からの直接アクセスを防げます。
  • NSG は後述の「セキュリティ」項目で最小権限にチューニングします。

4. ドライバー・ランタイムインストールとモデルデプロイ

4.1 NVIDIA ドライバ & CUDA のセットアップ(Ubuntu)

公式情報: https://learn.microsoft.com/azure/virtual-machines/linux/n-series-driver-install

4.2 Azure Machine Learning (v2) SDK と Runtime のインストール

4.3 Python SDK を使ったモデル登録・デプロイ例

ベストプラクティスManagedOnlineEndpoint は自動でスケーリングとロギングを行います。GPU を使用した推論は instance_type に ND 系列 SKU を指定するだけで、内部的に CUDA が有効化されます【4†Azure ML Runtime】。

4.4 Docker コンテナでのカスタムランタイム(オプション)


5. パフォーマンス測定・チューニング

5.1 Azure Machine Learning Benchmark ツールの実行例

サンプル結果(ResNet‑50)

バッチサイズ 推論レイテンシ (ms) スループット (画像/秒)
1 2.1 476
8 4.3 1 860
32 9.0 3 556
64 14.7 4 352

最適化ヒント
バッチサイズ 32‑64 が GPU のパイプライン深度とメモリ余裕のトレードオフで最高スループット。
データ転送 は同一 VNet 内に配置した Azure Blob Storage の Private Endpoint を使用し、az storage blob upload-batch で事前にキャッシュすると I/O ボトルネックが大幅緩和されます。
CPU ピン留め*(taskset -c 0-15)や numactl --cpunodebind=0 による NUMA 最適化は、推論ワークロードのジッタ削減に有効です。

5.2 一般的なエラーと対処フロー

エラーコード 主因 推奨アクション
CUDA_ERROR_NOT_INITIALIZED ドライバ/ランタイムの不整合 nvidia-smi でドライババージョン確認 → 必要なら sudo apt-get upgrade nvidia-driver-530
MAIA_DRIVER_MISMATCH(実際は ML_RUNTIME_INCOMPATIBLE SDK と Runtime のバージョン差異 pip list | grep azure-ai-mlmaia-runtime --version を揃える
RBAC_FORBIDDEN Azure RBAC が不足 IAM → 「Contributor」以上、またはカスタムロールで Microsoft.MachineLearningServices/* 権限付与
NETWORK_ISOLATION_ERROR VNet/NSG のアウトバウンドが遮断 NSG で Allow outbound to AzureBlob (port 443) を追加し、Private Endpoint が正しく設定されているか確認

ログ取得例


6. セキュリティ・コンプライアンスのベストプラクティス(Azure 固有)

項目 推奨設定
ネットワーク分離 VNet 内に専用サブネット ml-subnet を作成し、VM にパブリック IP を付与しない。Blob/ADLS は Private Endpoint 経由で接続。
アイデンティティ管理 VM に System‑Assigned Managed Identity を有効化し、Key Vault からシークレット(例: ストレージキー)を取得する構成にする。
ディスク暗号化 Azure Disk Encryption (ADE) と OS ディスクの Encryption at‑Rest(SSE‑Azure)を有効化。
アクセス制御 最小権限 RBAC:AzureML Data Scientist ロールで AML ワークスペース操作、Reader でリソース閲覧のみ。
監査ログ Azure Monitor → Log Analytics にすべての Microsoft.MachineLearningServicesMicrosoft.Compute のアクティビティを送信し、定期的に Azure Policy でコンプライアンスレポートを生成。
脆弱性スキャン Microsoft Defender for Cloud の VM runtime protection を有効化し、CIS ベンチマークに沿った設定違反を検出。

実装例(CLI)


7. まとめ

  1. 実在する製品Standard_ND96asr_v4(NVIDIA H100)で、公式スペックとリージョン情報を必ず確認してください。
  2. 前提条件はサブスクリプション権限、対応リージョン・SKU の有無、OS とドライバの整合性です。チェックリストで抜け漏れ防止を徹底しましょう。
  3. プロビジョニングはポータルでも CLI でも数分で完了しますが、CLI スクリプトでは private networkingManaged Identity を組み込むと本番運用に近い構成になります。
  4. ランタイム/SDK のインストールは Microsoft の公式リポジトリ経由で行うことで依存関係が自動解決され、Azure ML SDK v2 でシームレスにモデル登録・デプロイが可能です。
  5. パフォーマンス測定は Azure ML Benchmark ツールを活用し、バッチサイズやデータ転送方式のチューニングでスループット最大化を図ります。
  6. セキュリティは VNet・Private Endpoint・Managed Identity・Azure Defender for Cloud の組み合わせが推奨され、コンプライアンス要件(ISO 27001、HIPAA 等)にも対応できます。

次のステップ – 本ガイドをベースに CI/CD パイプライン(GitHub Actions + Azure ML CLI v2)へ自動デプロイを組み込めば、モデル更新ごとに数クリックで推論環境が再構築されます。


参考情報

  1. Microsoft Docs – ND series virtual machines
    https://learn.microsoft.com/azure/virtual-machines/n-series
  2. Azure Updates – New region availability for ND96asr_v4 (2025‑12)
    https://azure.microsoft.com/updates/
  3. Azure Region Availability
    https://learn.microsoft.com/azure/cloud-adoption-framework/ready/region-services
  4. Azure Machine Learning Runtime & GPU support
    https://learn.microsoft.com/azure/machine-learning/how-to-use-gpu-clusters

スポンサードリンク

-Azure
-, , , , , , , , ,