本文へスキップ
統計ロードマップ
Textbook

AWS Certified Machine Learning Engineer Associate(MLA-C01)教科書

**AWS Certified Machine Learning Engineer ─ Associate(MLA-C01)** は、AWS が 2024 年に正式リリースした **ML Engineer 向けの Associate レベル** 認定。**AWS AI Practitioner(AIF-C01)の上位** として、ML パイプラインの **データ準備 ・ 特徴量エンジニアリング ・ モデル学習 ・ デプロイ ・ 監視 ・ MLOps** までを実装できる技術者を認定します。**ML Specialty(MLS-C01)** より入門的で、AWS で本格的に ML を扱う技術者の標準資格として位置付けられます。本教科書は出題範囲を 10 章で体系的にカバーします。

目次

  1. 1 章 · MLA-C01 ─ 試験の全体像
    試験形式・出題範囲・他 AWS ML 認定との位置付けを整理します。
  2. 2 章 · ML の基礎と AWS データサービス
    ML / DL / 生成 AI の基礎と、AWS のデータサービスを整理します。
  3. 3 章 · Amazon SageMaker の全体像
    SageMaker のサブサービスを整理します。
  4. 4 章 · 学習とハイパーパラメータチューニング
    Built-in アルゴリズム ・ BYOC ・ HPO を整理します。
  5. 5 章 · 推論デプロイ
    Real-time / Batch / Async / Serverless / Edge を整理します。
  6. 6 章 · MLOps とパイプライン
    SageMaker Pipelines ・ Model Registry ・ CI/CD を整理します。
  7. 7 章 · モニタリングとデータドリフト
    Model Monitor ・ Clarify ・ メトリクスを整理します。
  8. 8 章 · セキュリティとコンプライアンス
    ML ワークロード固有のセキュリティを整理します。
  9. 9 章 · 生成 AI と Bedrock
    AWS の生成 AI 関連サービスを整理します。
  10. 10 章 · コスト最適化と受験対策
    ML ワークロードのコスト管理と試験当日の戦略を整理します。
Chapter 1

1 章 · MLA-C01 ─ 試験の全体像


§1.1

試験の位置付け

MLA-C01 は AWS 認定の Associate レベル で、ML / 生成 AI を業務で実装する技術者 を対象とします。AI Practitioner(AIF-C01、Foundational)の上位 で、ML Specialty(MLS-C01、Specialty) よりは入門的という中間に位置します。

  • 主催: Amazon Web Services(AWS)
  • 形式: CBT(Pearson VUE)or オンライン監督受験
  • 問題数 / 時間: 65 問 / 130 分
  • 回答方式: 単一選択 + 複数選択 + 順序付け + ケーススタディ
  • 合格スコア: 720 / 1000
  • 有効期限: 3 年
  • 受験料: 150 USD(参考)
  • 前提知識: SageMaker / Python / SQL / 統計の基礎

AWS の ML / AI 認定階層

  • Foundational: AI Practitioner(AIF-C01)
  • Associate: ML Engineer(MLA-C01、本資格)
  • Specialty: ML Specialty(MLS-C01)
§1.2

出題ドメインと推奨学習プラン

公式試験ガイドのドメイン

  1. Domain 1: ML 用データ準備(28%): S3 / Glue / Data Wrangler / 特徴量エンジニアリング
  2. Domain 2: ML モデル開発(26%): SageMaker / 学習 / ハイパーパラメータチューニング / 評価
  3. Domain 3: ML ワークフローのデプロイとオーケストレーション(22%): Endpoints / Pipelines / Step Functions / コンテナ
  4. Domain 4: ML ソリューションのモニタリングと保守 / セキュリティ(24%): Model Monitor / Clarify / 監査 / コスト

150 〜 250 時間プラン

  1. Week 1 〜 2: AWS 基礎(IAM / S3 / VPC)+ AI Practitioner 範囲復習
  2. Week 3 〜 4: SageMaker のすべて(Studio / Pipelines / Endpoints)
  3. Week 5: データ準備(Glue / Athena / Data Wrangler / Feature Store)
  4. Week 6: 学習 + ハイパーパラメータ + Built-in アルゴリズム
  5. Week 7: 推論デプロイ(Real-time / Batch / Async / Serverless / Edge)
  6. Week 8: モニタリング + Clarify + コスト最適化
  7. Week 9: 生成 AI(Bedrock / Q)概要
  8. Week 10: 模擬試験 + 過去問
AWS Skill Builder + 実機ハンズオンが王道

AWS Skill Builder に MLA-C01 専用ラーニングパスが無料で公開されています。AWS Free Tier で SageMaker Studio Lab(完全無料)or Free Tier 内の SageMaker でハンズオンが可能。実機で SageMaker Pipelines + Endpoints + Model Monitor を作るのが理解の近道。

Chapter 2

2 章 · ML の基礎と AWS データサービス


§2.1

ML の基礎(MLA レベル)

  • 3 つの学習方式: 教師あり / なし / 強化学習
  • 主要モデル: 線形回帰 / 決定木 / GBDT / SVM / NN / CNN / Transformer
  • 評価指標: 分類(Accuracy / Precision / Recall / F1 / ROC-AUC / PR-AUC)・ 回帰(MSE / RMSE / MAE / R²)
  • 過学習対策: 正則化 / Dropout / Early Stopping / 交差検証 / データ拡張
  • バイアス・バリアンス分解
  • ハイパーパラメータ vs パラメータ
§2.2

AWS のデータサービス

  • S3: オブジェクトストレージ、ML ワークフローの中核
  • S3 Express One Zone: ms 級レイテンシ、ML 学習向け
  • Athena: S3 上の SQL クエリ(サーバレス)
  • Glue: マネージド ETL + Data Catalog
  • Glue DataBrew: ノーコードデータ準備
  • EMR: Hadoop / Spark / Presto
  • Kinesis: ストリーミングデータ
  • Lake Formation: データレイク管理
  • Redshift: DWH
  • Aurora ・ DynamoDB ・ DocumentDB: トランザクション系
  • OpenSearch: 検索 + 分析
§2.3

データ品質と前処理

  • 欠測処理: 削除 / 平均 / 中央値 / 多重代入
  • 外れ値検出: IQR / Z スコア / Isolation Forest
  • スケーリング: 標準化 / Min-Max / ロバストスケーリング
  • カテゴリエンコーディング: One-hot / Target / Ordinal
  • 不均衡データ: SMOTE / オーバーサンプリング / アンダーサンプリング / クラス重み
  • 特徴量エンジニアリング: ビニング / 変換 / 交互作用 / 集約
  • SageMaker Data Wrangler: GUI でこれらを実行
Chapter 3

3 章 · Amazon SageMaker の全体像


§3.1

SageMaker の主要コンポーネント

  • SageMaker Studio: 統合開発環境(JupyterLab ベース)
  • SageMaker Studio Lab: 完全無料の学習環境(Studio とは別)
  • SageMaker Canvas: ノーコード ML
  • SageMaker Autopilot: AutoML
  • SageMaker Ground Truth: ラベル付け管理(Plus は完全マネージド)
  • SageMaker Data Wrangler: データ準備
  • SageMaker Feature Store: 特徴量管理
  • SageMaker Pipelines: ML パイプライン
  • SageMaker Model Registry: モデル管理
  • SageMaker Endpoints: 推論デプロイ
  • SageMaker Model Monitor: ドリフト検出
  • SageMaker Clarify: バイアス検出 + 説明可能性
  • SageMaker JumpStart: 学習済モデル + 微調整テンプレート
  • SageMaker MLflow: マネージド MLflow
  • SageMaker HyperPod: 大規模分散学習向け
§3.2

計算リソース

  • インスタンスタイプ: ml.t / m / c / r / p / g / inf / trn
  • Inferentia(inf): AWS 自家製の推論専用 AI チップ
  • Trainium(trn): AWS 自家製の学習専用 AI チップ
  • Spot Training: 中断耐性ある学習で 90% コスト削減
  • Managed Warm Pools: 学習ジョブの起動高速化
  • Reserved / Savings Plans: 長期コミットで割引
  • Distributed Training: Data Parallel / Model Parallel
Chapter 4

4 章 · 学習とハイパーパラメータチューニング


§4.1

学習方式の選択

  • Built-in アルゴリズム: XGBoost / Linear Learner / DeepAR / Random Cut Forest / Object Detection / Image Classification など 30 種以上
  • スクリプトモード: Python スクリプトで TensorFlow / PyTorch / Hugging Face を使用
  • Bring Your Own Container(BYOC): 任意のコンテナで学習
  • SageMaker JumpStart: 学習済モデルからの微調整
  • AutoML(Autopilot): 自動最適化
§4.2

ハイパーパラメータ最適化(HPO)

  • Grid Search / Random Search: 古典的
  • Bayesian Optimization: SageMaker のデフォルト、過去試行から次を予測
  • Hyperband: 早期終了 + 並列探索
  • ASHA(非同期的成功半減): 並列性高い大規模探索
  • Warm Start: 過去の HPO 結果を引き継ぐ
  • Early Stopping: 性能向上が見込めない試行を打ち切り
§4.3

実験管理とトレーサビリティ

  • SageMaker Experiments: 試行記録(廃止予定、MLflow 推奨)
  • SageMaker MLflow: マネージド MLflow、現在の標準
  • Lineage Tracking: モデル → データ → コードの来歴
  • Debugger: 学習中の異常検出
  • Profiler: GPU / CPU 利用率の可視化
Chapter 5

5 章 · 推論デプロイ


§5.1

推論オプションの選び分け

推論オプション 5 種

1. Real-time Inference: 低遅延 ・ 常時稼働。Web/モバイルアプリ向け。

2. Serverless Inference: 自動スケール ・ 従量課金。低 / 不定期トラフィック向け。

3. Asynchronous Inference: 大ペイロード ・ 長時間処理(最大 1 時間)。

4. Batch Transform: 大量データの一括推論、コスト最小。

5. Edge: SageMaker Edge Manager でエッジデバイス推論。

デプロイのベストプラクティス

  • Multi-Model Endpoint(MME): 1 エンドポイントに多数モデル同居、コスト効率良
  • Multi-Container Endpoint: 複数コンテナ並列
  • Inference Pipelines: 前処理 → モデル → 後処理を 1 エンドポイントで
  • Shadow Variant: 本番影響なしで新モデル試験
  • A/B テスト(Production Variant): 重み付けトラフィック分散
§5.2

コンテナとカスタマイズ

  • Pre-built Containers: TensorFlow / PyTorch / MXNet / Hugging Face / scikit-learn など
  • BYOC(Bring Your Own Container): 任意の Docker イメージ
  • Inference Recommender: インスタンスタイプ ・ コスト性能の自動推奨
  • ONNX: フレームワーク間の中間表現
  • Neo: モデルの自動コンパイル(ハード最適化)
  • TorchServe / TensorFlow Serving: 推論サーバ
Chapter 6

6 章 · MLOps とパイプライン


§6.1

SageMaker Pipelines

SageMaker Pipelines は ML ワークフローのオーケストレーションツール。Kubeflow Pipelines に対応する位置付けで、前処理 → 学習 → 評価 → モデル登録 → デプロイ をコードで定義し、自動実行できます。

  • ProcessingStep: 前処理ジョブ
  • TrainingStep: 学習ジョブ
  • TuningStep: HPO
  • ModelStep: モデル登録
  • TransformStep: バッチ推論
  • ConditionStep: 分岐制御
  • LambdaStep: AWS Lambda 呼出
  • CallbackStep: 外部システムとの統合
  • EMRStep / NotebookStep
  • Caching: 同じステップの再実行を回避
§6.2

オーケストレーション統合

  • AWS Step Functions: より汎用的なステートマシン
  • Amazon MWAA: マネージド Apache Airflow
  • Amazon EventBridge: イベント駆動
  • AWS CodePipeline: CI/CD
  • AWS CodeBuild: ビルド
  • Git 統合: GitHub / GitLab / CodeCommit
  • SageMaker Projects: テンプレート化された MLOps プロジェクト
§6.3

Model Registry とモデル昇格

  • Model Package Group: モデルファミリ
  • Model Package: 学習済モデルのバージョン
  • Approval Status: PendingManualApproval / Approved / Rejected
  • Stage: dev / test / prod のステージング
  • 自動昇格: 評価指標が閾値を満たす場合に Approved
  • Lineage: データ → コード → モデル → デプロイの追跡
Chapter 7

7 章 · モニタリングとデータドリフト


§7.1

SageMaker Model Monitor

4 種のドリフト監視

1. Data Quality: 入力データの統計的変化(欠測 ・ 範囲 ・ 分布)

2. Model Quality: 予測値 vs 正解の乖離(ground truth が必要)

3. Bias Drift: 特定グループへのバイアス変化

4. Feature Attribution Drift: 特徴量の重要度変化(SHAP ベース)

  • Baseline: 学習データの統計を基準として保存
  • Constraints / Statistics: 期待される範囲 ・ 統計
  • Schedule: 定期実行(時間 ・ 日)
  • Alarms: CloudWatch でアラーム設定
  • 自動対応: EventBridge → Lambda → 再学習トリガー
§7.2

SageMaker Clarify

  • バイアス検出: 学習前(Pre-training)・ 学習後(Post-training)
  • バイアス指標: Class Imbalance / DPL / KL / Disparate Impact など 21 種
  • 説明可能性: SHAP ベースの特徴量重要度
  • Partial Dependence Plots: 個別特徴量の影響
  • Online Explainability: 推論時のリアルタイム説明
  • LLM 評価: 生成 AI の品質 ・ 安全性評価
§7.3

ログ ・ 監査 ・ コスト管理

  • CloudWatch Logs / Metrics: ログ + メトリクス
  • CloudTrail: API 呼出監査
  • X-Ray: 分散トレーシング
  • Cost Explorer + Budgets: コスト可視化 + アラート
  • Tags: リソース分類 + コスト配賦
  • Compute Optimizer: インスタンス最適化推奨
Chapter 8

8 章 · セキュリティとコンプライアンス


§8.1

ML 特有のセキュリティ

  • IAM: 最小権限、SageMaker Execution Role
  • KMS: モデル / データの暗号化
  • VPC + Private Endpoint: SageMaker をプライベート接続
  • Network Isolation: 学習コンテナをインターネットから切離し
  • Secrets Manager: API キー ・ DB パスワード
  • S3 Bucket Policies + Object Lock: データ保護
  • Macie: S3 内の個人情報自動検出
  • GuardDuty: 脅威検出
  • Sensitivity labels: 分類済データの統制
§8.2

ML 攻撃と対策

  • Model Poisoning: 学習データに悪意ある投入。検証 + 異常検知
  • Adversarial Examples: わずかな摂動で誤分類。Adversarial Training
  • Model Inversion: モデルから訓練データの推測。差分プライバシー
  • Membership Inference: 特定データが訓練に含まれたかの推測
  • Prompt Injection: 生成 AI への悪意あるプロンプト。Guardrails
  • Model Extraction: API 呼出でモデルを複製。レート制限 + 透かし
§8.3

責任ある AI

  • Bedrock Guardrails: 生成 AI の入出力制御
  • SageMaker Clarify: バイアス検出 + 説明可能性
  • Model Cards: モデルの透明性 ・ 制限の文書化
  • Data Cards: 訓練データの来歴 ・ 偏り情報
  • AI Service Cards: AWS AI サービスの設計 ・ 利用範囲
  • 監査ログ: CloudTrail で全操作記録
Chapter 9

9 章 · 生成 AI と Bedrock


§9.1

Amazon Bedrock

  • Bedrock: 複数の基盤モデル(Claude / Titan / Llama / Mistral / Cohere)を単一 API で
  • Knowledge Bases: マネージド RAG
  • Agents: ツール使用と行動計画
  • Guardrails: 危険トピック ・ PII の遮断
  • Model Evaluation: 自動評価 + Human-in-the-loop
  • Custom Model Import: 独自モデルの取込み
  • Provisioned Throughput: スループット予約
  • Batch Inference: 50% 割引
§9.2

SageMaker での生成 AI

  • SageMaker JumpStart: Hugging Face / Meta などの基盤モデル
  • SageMaker Fine-tuning: 独自データでの微調整
  • SageMaker MLflow: 生成 AI 実験管理
  • SageMaker HyperPod: 大規模学習(数千 GPU)
  • SageMaker Distributed Training Libraries: SMDDP / SMP
§9.3

Amazon Q ファミリ

  • Amazon Q Developer: コード補完 ・ 説明 ・ デバッグ
  • Amazon Q Business: 社内データ Q&A
  • Amazon Q in QuickSight: BI / レポート
  • Amazon Q in Connect: コンタクトセンター
Chapter 10

10 章 · コスト最適化と受験対策


§10.1

コスト最適化

  • Spot Training: 学習 90% コスト削減
  • Savings Plans: 1 / 3 年予約割引
  • Inferentia / Trainium: AWS 自家製 AI チップで価格性能比改善
  • Multi-Model Endpoint: 推論コスト集約
  • Serverless Inference: 不定期トラフィックで安価
  • Batch Transform: 大量データの一括推論
  • SageMaker Inference Recommender: 自動推奨
  • Distillation / Quantization: モデル軽量化
§10.2

範囲別チェックリスト

  1. 第 2 章: 評価指標 / 不均衡対策 / Data Wrangler
  2. 第 3 章: SageMaker サブサービス全体像 / Inferentia/Trainium
  3. 第 4 章: Built-in / BYOC / Bayesian HPO / Hyperband / MLflow
  4. 第 5 章: 推論オプション 5 種 / Multi-Model Endpoint / Inference Recommender
  5. 第 6 章: SageMaker Pipelines / Model Registry / Step Functions
  6. 第 7 章: Model Monitor 4 種 / Clarify バイアス指標
  7. 第 8 章: VPC + Private Endpoint / KMS / Network Isolation
  8. 第 9 章: Bedrock / JumpStart / Fine-tuning / Amazon Q

試験当日のコツ

  • 65 問 / 130 分 = 1 問 約 2 分
  • ケーススタディ: 長文 + 複数問のセット
  • 最も○○な答え を選ぶ問題が中心(コスト効率 / 性能 / セキュリティ)
  • Practice Exam(AWS 公式)を必ず受ける
  • 極端な選択肢に警戒: 『常に』『必ず』は誤答が多い
§10.3

次のステップ

MLA-C01 合格 → ML Specialty(MLS-C01) で深い数学 ・ アルゴリズム理解、または AWS SAA → AWS SAP でクラウドアーキテクト全般へ。三大クラウド ML を揃えるなら本サイトの[Azure AI-102](/certs/azure-ai-102)・[GCP Generative AI Leader](/certs/gcp-gen-ai-leader)も。

MLA-C01 のキャリア活用

MLA-C01 は AWS で ML / 生成 AI を実装する技術者 の証明として強力。AI Practitioner(基礎)+ MLA-C01(実装)の組合せは AWS ML スペシャリストとして非常に強いシグナル。AWS パートナー企業 ・ AI ベンチャー ・ クラウド ML 案件 で評価が特に高い。