Textbook

AWS Certified Machine Learning Engineer Associate(MLA-C01)教科書

**AWS Certified Machine Learning Engineer ─ Associate(MLA-C01)** は、AWS が 2024 年に正式リリースした **ML Engineer 向けの Associate レベル** 認定。**AWS AI Practitioner(AIF-C01)の上位** として、ML パイプラインの **データ準備・特徴量エンジニアリング・モデル学習・デプロイ・監視・ MLOps** までを実装できる技術者を認定します。**ML Specialty(MLS-C01)** より入門的で、AWS で本格的に ML を扱う技術者の標準資格として位置付けられます。本教科書は出題範囲を 10 章で体系的にカバーします。

第 1 章 · MLA-C01 ─ 試験の全体像
試験形式・出題範囲・他 AWS ML 認定との位置付けを整理します。
- 1.1 試験の位置付け
- 1.2 出題ドメインと推奨学習プラン
第 2 章 · ML の基礎と AWS データサービス
ML / DL / 生成 AI の基礎と、AWS のデータサービスを整理します。
第 3 章 · Amazon SageMaker の全体像
SageMaker のサブサービスを整理します。
- 3.1 SageMaker の主要コンポーネント
- 3.2 計算リソース
第 4 章 · 学習とハイパーパラメータチューニング
Built-in アルゴリズム・ BYOC ・ HPO を整理します。
第 5 章 · 推論デプロイ
Real-time / Batch / Async / Serverless / Edge を整理します。
- 5.1 推論オプションの選び分け
- 5.2 コンテナとカスタマイズ
第 6 章 · MLOps とパイプライン
SageMaker Pipelines ・ Model Registry ・ CI/CD を整理します。
第 7 章 · モニタリングとデータドリフト
Model Monitor ・ Clarify ・メトリクスを整理します。
第 8 章 · セキュリティとコンプライアンス
ML ワークロード固有のセキュリティを整理します。
第 9 章 · 生成 AI と Bedrock
AWS の生成 AI 関連サービスを整理します。
第 10 章 · コスト最適化と受験対策
ML ワークロードのコスト管理と試験当日の戦略を整理します。

Chapter 1

第 1 章 · MLA-C01 ─ 試験の全体像

§1.1

試験の位置付け

MLA-C01 は AWS 認定の Associate レベル で、ML / 生成 AI を業務で実装する技術者 を対象とします。AI Practitioner(AIF-C01、Foundational)の上位 で、ML Specialty(MLS-C01、Specialty) よりは入門的という中間に位置します。

主催: Amazon Web Services(AWS)
形式: CBT(Pearson VUE)or オンライン監督受験
問題数 / 時間: 65 問 / 130 分
回答方式: 単一選択 + 複数選択 + 順序付け + ケーススタディ
合格スコア: 720 / 1000
有効期限: 3 年
受験料: 150 USD(参考)
前提知識: SageMaker / Python / SQL / 統計の基礎

AWS の ML / AI 認定階層

Foundational: AI Practitioner(AIF-C01)
Associate: ML Engineer(MLA-C01、本資格)
Specialty: ML Specialty(MLS-C01)

§1.2

出題ドメインと推奨学習プラン

公式試験ガイドのドメイン

Domain 1: ML 用データ準備(28%): S3 / Glue / Data Wrangler / 特徴量エンジニアリング
Domain 2: ML モデル開発(26%): SageMaker / 学習 / ハイパーパラメータチューニング / 評価
Domain 3: ML ワークフローのデプロイとオーケストレーション(22%): Endpoints / Pipelines / Step Functions / コンテナ
Domain 4: ML ソリューションのモニタリングと保守 / セキュリティ(24%): Model Monitor / Clarify / 監査 / コスト

150 〜 250 時間プラン

Week 1 〜 2: AWS 基礎(IAM / S3 / VPC)+ AI Practitioner 範囲復習
Week 3 〜 4: SageMaker のすべて(Studio / Pipelines / Endpoints)
Week 5: データ準備(Glue / Athena / Data Wrangler / Feature Store)
Week 6: 学習 + ハイパーパラメータ + Built-in アルゴリズム
Week 7: 推論デプロイ(Real-time / Batch / Async / Serverless / Edge)
Week 8: モニタリング + Clarify + コスト最適化
Week 9: 生成 AI(Bedrock / Q)概要
Week 10: 模擬試験 + 過去問

AWS Skill Builder + 実機ハンズオンが王道

AWS Skill Builder に MLA-C01 専用ラーニングパスが無料で公開されています。AWS Free Tier で SageMaker Studio Lab(完全無料)or Free Tier 内の SageMaker でハンズオンが可能。実機で SageMaker Pipelines + Endpoints + Model Monitor を作るのが理解の近道。

Chapter 2

第 2 章 · ML の基礎と AWS データサービス

§2.1

ML の基礎(MLA レベル)

3 つの学習方式: 教師あり / なし / 強化学習
主要モデル: 線形回帰 / 決定木 / GBDT / SVM / NN / CNN / Transformer
評価指標: 分類(Accuracy / Precision / Recall / F1 / ROC-AUC / PR-AUC)・回帰(MSE / RMSE / MAE / R²)
過学習対策: 正則化 / Dropout / Early Stopping / 交差検証 / データ拡張
バイアス・バリアンス分解
ハイパーパラメータ vs パラメータ

§2.2

AWS のデータサービス

S3: オブジェクトストレージ、ML ワークフローの中核
S3 Express One Zone: ms 級レイテンシ、ML 学習向け
Athena: S3 上の SQL クエリ(サーバレス)
Glue: マネージド ETL + Data Catalog
Glue DataBrew: ノーコードデータ準備
EMR: Hadoop / Spark / Presto
Kinesis: ストリーミングデータ
Lake Formation: データレイク管理
Redshift: DWH
Aurora ・ DynamoDB ・ DocumentDB: トランザクション系
OpenSearch: 検索 + 分析

§2.3

データ品質と前処理

欠測処理: 削除 / 平均 / 中央値 / 多重代入
外れ値検出: IQR / Z スコア / Isolation Forest
スケーリング: 標準化 / Min-Max / ロバストスケーリング
カテゴリエンコーディング: One-hot / Target / Ordinal
不均衡データ: SMOTE / オーバーサンプリング / アンダーサンプリング / クラス重み
特徴量エンジニアリング: ビニング / 変換 / 交互作用 / 集約
SageMaker Data Wrangler: GUI でこれらを実行

Chapter 3

第 3 章 · Amazon SageMaker の全体像

§3.1

SageMaker の主要コンポーネント

SageMaker Studio: 統合開発環境(JupyterLab ベース)
SageMaker Studio Lab: 完全無料の学習環境(Studio とは別)
SageMaker Canvas: ノーコード ML
SageMaker Autopilot: AutoML
SageMaker Ground Truth: ラベル付け管理(Plus は完全マネージド)
SageMaker Data Wrangler: データ準備
SageMaker Feature Store: 特徴量管理
SageMaker Pipelines: ML パイプライン
SageMaker Model Registry: モデル管理
SageMaker Endpoints: 推論デプロイ
SageMaker Model Monitor: ドリフト検出
SageMaker Clarify: バイアス検出 + 説明可能性
SageMaker JumpStart: 学習済モデル + 微調整テンプレート
SageMaker MLflow: マネージド MLflow
SageMaker HyperPod: 大規模分散学習向け

§3.2

計算リソース

インスタンスタイプ: ml.t / m / c / r / p / g / inf / trn
Inferentia(inf): AWS 自家製の推論専用 AI チップ
Trainium(trn): AWS 自家製の学習専用 AI チップ
Spot Training: 中断耐性ある学習で 90% コスト削減
Managed Warm Pools: 学習ジョブの起動高速化
Reserved / Savings Plans: 長期コミットで割引
Distributed Training: Data Parallel / Model Parallel

Chapter 4

第 4 章 · 学習とハイパーパラメータチューニング

§4.1

学習方式の選択

Built-in アルゴリズム: XGBoost / Linear Learner / DeepAR / Random Cut Forest / Object Detection / Image Classification など 30 種以上
スクリプトモード: Python スクリプトで TensorFlow / PyTorch / Hugging Face を使用
Bring Your Own Container(BYOC): 任意のコンテナで学習
SageMaker JumpStart: 学習済モデルからの微調整
AutoML(Autopilot): 自動最適化

§4.2

ハイパーパラメータ最適化(HPO)

Grid Search / Random Search: 古典的
Bayesian Optimization: SageMaker のデフォルト、過去試行から次を予測
Hyperband: 早期終了 + 並列探索
ASHA(非同期的成功半減): 並列性高い大規模探索
Warm Start: 過去の HPO 結果を引き継ぐ
Early Stopping: 性能向上が見込めない試行を打ち切り

§4.3

実験管理とトレーサビリティ

SageMaker Experiments: 試行記録(廃止予定、MLflow 推奨)
SageMaker MLflow: マネージド MLflow、現在の標準
Lineage Tracking: モデル → データ → コードの来歴
Debugger: 学習中の異常検出
Profiler: GPU / CPU 利用率の可視化

Chapter 5

第 5 章 · 推論デプロイ

§5.1

推論オプションの選び分け

推論オプション 5 種

1. Real-time Inference: 低遅延・常時稼働。Web/モバイルアプリ向け。

2. Serverless Inference: 自動スケール・従量課金。低 / 不定期トラフィック向け。

3. Asynchronous Inference: 大ペイロード・長時間処理(最大 1 時間)。

4. Batch Transform: 大量データの一括推論、コスト最小。

5. Edge: SageMaker Edge Manager でエッジデバイス推論。

デプロイのベストプラクティス

Multi-Model Endpoint(MME): 1 エンドポイントに多数モデル同居、コスト効率良
Multi-Container Endpoint: 複数コンテナ並列
Inference Pipelines: 前処理 → モデル → 後処理を 1 エンドポイントで
Shadow Variant: 本番影響なしで新モデル試験
A/B テスト(Production Variant): 重み付けトラフィック分散

§5.2

コンテナとカスタマイズ

Pre-built Containers: TensorFlow / PyTorch / MXNet / Hugging Face / scikit-learn など
BYOC(Bring Your Own Container): 任意の Docker イメージ
Inference Recommender: インスタンスタイプ・コスト性能の自動推奨
ONNX: フレームワーク間の中間表現
Neo: モデルの自動コンパイル(ハード最適化)
TorchServe / TensorFlow Serving: 推論サーバ

Chapter 6

第 6 章 · MLOps とパイプライン

§6.1

SageMaker Pipelines

SageMaker Pipelines は ML ワークフローのオーケストレーションツール。Kubeflow Pipelines に対応する位置付けで、前処理 → 学習 → 評価 → モデル登録 → デプロイ をコードで定義し、自動実行できます。

ProcessingStep: 前処理ジョブ
TrainingStep: 学習ジョブ
TuningStep: HPO
ModelStep: モデル登録
TransformStep: バッチ推論
ConditionStep: 分岐制御
LambdaStep: AWS Lambda 呼出
CallbackStep: 外部システムとの統合
EMRStep / NotebookStep
Caching: 同じステップの再実行を回避

§6.2

オーケストレーション統合

AWS Step Functions: より汎用的なステートマシン
Amazon MWAA: マネージド Apache Airflow
Amazon EventBridge: イベント駆動
AWS CodePipeline: CI/CD
AWS CodeBuild: ビルド
Git 統合: GitHub / GitLab / CodeCommit
SageMaker Projects: テンプレート化された MLOps プロジェクト

§6.3

Model Registry とモデル昇格

Model Package Group: モデルファミリ
Model Package: 学習済モデルのバージョン
Approval Status: PendingManualApproval / Approved / Rejected
Stage: dev / test / prod のステージング
自動昇格: 評価指標が閾値を満たす場合に Approved
Lineage: データ → コード → モデル → デプロイの追跡

Chapter 7

第 7 章 · モニタリングとデータドリフト

§7.1

SageMaker Model Monitor

4 種のドリフト監視

1. Data Quality: 入力データの統計的変化(欠測・範囲・分布)

2. Model Quality: 予測値 vs 正解の乖離(ground truth が必要)

3. Bias Drift: 特定グループへのバイアス変化

4. Feature Attribution Drift: 特徴量の重要度変化(SHAP ベース)

Baseline: 学習データの統計を基準として保存
Constraints / Statistics: 期待される範囲・統計
Schedule: 定期実行(時間・日)
Alarms: CloudWatch でアラーム設定
自動対応: EventBridge → Lambda → 再学習トリガー

§7.2

SageMaker Clarify

バイアス検出: 学習前(Pre-training)・学習後(Post-training)
バイアス指標: Class Imbalance / DPL / KL / Disparate Impact など 21 種
説明可能性: SHAP ベースの特徴量重要度
Partial Dependence Plots: 個別特徴量の影響
Online Explainability: 推論時のリアルタイム説明
LLM 評価: 生成 AI の品質・安全性評価

§7.3

ログ・監査・コスト管理

CloudWatch Logs / Metrics: ログ + メトリクス
CloudTrail: API 呼出監査
X-Ray: 分散トレーシング
Cost Explorer + Budgets: コスト可視化 + アラート
Tags: リソース分類 + コスト配賦
Compute Optimizer: インスタンス最適化推奨

Chapter 8

第 8 章 · セキュリティとコンプライアンス

§8.1

ML 特有のセキュリティ

IAM: 最小権限、SageMaker Execution Role
KMS: モデル / データの暗号化
VPC + Private Endpoint: SageMaker をプライベート接続
Network Isolation: 学習コンテナをインターネットから切離し
Secrets Manager: API キー・ DB パスワード
S3 Bucket Policies + Object Lock: データ保護
Macie: S3 内の個人情報自動検出
GuardDuty: 脅威検出
Sensitivity labels: 分類済データの統制

§8.2

ML 攻撃と対策

Model Poisoning: 学習データに悪意ある投入。検証 + 異常検知
Adversarial Examples: わずかな摂動で誤分類。Adversarial Training
Model Inversion: モデルから訓練データの推測。差分プライバシー
Membership Inference: 特定データが訓練に含まれたかの推測
Prompt Injection: 生成 AI への悪意あるプロンプト。Guardrails
Model Extraction: API 呼出でモデルを複製。レート制限 + 透かし

§8.3

責任ある AI

Bedrock Guardrails: 生成 AI の入出力制御
SageMaker Clarify: バイアス検出 + 説明可能性
Model Cards: モデルの透明性・制限の文書化
Data Cards: 訓練データの来歴・偏り情報
AI Service Cards: AWS AI サービスの設計・利用範囲
監査ログ: CloudTrail で全操作記録

Chapter 9

第 9 章 · 生成 AI と Bedrock

§9.1

Amazon Bedrock

Bedrock: 複数の基盤モデル(Claude / Titan / Llama / Mistral / Cohere)を単一 API で
Knowledge Bases: マネージド RAG
Agents: ツール使用と行動計画
Guardrails: 危険トピック・ PII の遮断
Model Evaluation: 自動評価 + Human-in-the-loop
Custom Model Import: 独自モデルの取込み
Provisioned Throughput: スループット予約
Batch Inference: 50% 割引

§9.2

SageMaker での生成 AI

SageMaker JumpStart: Hugging Face / Meta などの基盤モデル
SageMaker Fine-tuning: 独自データでの微調整
SageMaker MLflow: 生成 AI 実験管理
SageMaker HyperPod: 大規模学習(数千 GPU)
SageMaker Distributed Training Libraries: SMDDP / SMP

§9.3

Amazon Q ファミリ

Amazon Q Developer: コード補完・説明・デバッグ
Amazon Q Business: 社内データ Q&A
Amazon Q in QuickSight: BI / レポート
Amazon Q in Connect: コンタクトセンター

Chapter 10

第 10 章 · コスト最適化と受験対策

§10.1

コスト最適化

Spot Training: 学習 90% コスト削減
Savings Plans: 1 / 3 年予約割引
Inferentia / Trainium: AWS 自家製 AI チップで価格性能比改善
Multi-Model Endpoint: 推論コスト集約
Serverless Inference: 不定期トラフィックで安価
Batch Transform: 大量データの一括推論
SageMaker Inference Recommender: 自動推奨
Distillation / Quantization: モデル軽量化

§10.2

範囲別チェックリスト

第 2 章: 評価指標 / 不均衡対策 / Data Wrangler
第 3 章: SageMaker サブサービス全体像 / Inferentia/Trainium
第 4 章: Built-in / BYOC / Bayesian HPO / Hyperband / MLflow
第 5 章: 推論オプション 5 種 / Multi-Model Endpoint / Inference Recommender
第 6 章: SageMaker Pipelines / Model Registry / Step Functions
第 7 章: Model Monitor 4 種 / Clarify バイアス指標
第 8 章: VPC + Private Endpoint / KMS / Network Isolation
第 9 章: Bedrock / JumpStart / Fine-tuning / Amazon Q

試験当日のコツ

65 問 / 130 分 = 1 問約 2 分
ケーススタディ: 長文 + 複数問のセット
最も○○な答え を選ぶ問題が中心(コスト効率 / 性能 / セキュリティ)
Practice Exam(AWS 公式)を必ず受ける
極端な選択肢に警戒: 『常に』『必ず』は誤答が多い

§10.3

次のステップ

MLA-C01 合格 → ML Specialty(MLS-C01) で深い数学・アルゴリズム理解、または AWS SAA → AWS SAP でクラウドアーキテクト全般へ。三大クラウド ML を揃えるなら本サイトの[Azure AI-102](/certs/azure-ai-102)・[GCP Generative AI Leader](/certs/gcp-gen-ai-leader)も。

MLA-C01 のキャリア活用

MLA-C01 は AWS で ML / 生成 AI を実装する技術者 の証明として強力。AI Practitioner(基礎)+ MLA-C01(実装)の組合せは AWS ML スペシャリストとして非常に強いシグナル。AWS パートナー企業・ AI ベンチャー・クラウド ML 案件 で評価が特に高い。

目次

AWS の ML / AI 認定階層

公式試験ガイドのドメイン

150 〜 250 時間プラン

デプロイのベストプラクティス

試験当日のコツ