本文へスキップ
統計ロードマップ
Textbook

AWS Certified Machine Learning - Specialty(MLS-C01)教科書

**AWS Certified Machine Learning - Specialty(MLS-C01)** は、AWS 認定の **Specialty レベル** で **AWS ML 認定の最上位**。**ML Engineer Associate(MLA-C01)の上位** として、**深い数学 ・ アルゴリズム理解 + 設計判断 + 実装ニュアンス** が問われる高度試験です。**シニア ML エンジニア ・ ML 専門コンサルタント ・ 研究開発者** を対象とし、AWS で ML を扱うすべての職種の頂点に位置します。本教科書は出題範囲を 10 章で体系的にカバーします。

目次

  1. 1 章 · MLS-C01 ─ 試験の全体像
    試験形式・出題範囲・他 AWS ML 認定との位置付けを整理します。
  2. 2 章 · ML の数学的基礎
    Specialty レベルで問われる線形代数 ・ 微積分 ・ 統計を整理します。
  3. 3 章 · データエンジニアリング
    AWS のデータ収集 ・ 変換 ・ 保管を整理します。
  4. 4 章 · EDA と特徴量エンジニアリング
    データ理解 ・ 前処理 ・ 不均衡対策を整理します。
  5. 5 章 · Built-in アルゴリズムと選び分け
    SageMaker Built-in 30+ アルゴリズムと選択基準を整理します。
  6. 6 章 · ハイパーパラメータと評価
    HPO ・ 評価指標 ・ Cross Validation を整理します。
  7. 7 章 · 深層学習の深堀り
    CNN / RNN / Transformer / 生成モデルの実装ニュアンスを整理します。
  8. 8 章 · デプロイと推論最適化
    推論オプション ・ Inference Recommender ・ コスト最適化を整理します。
  9. 9 章 · MLOps と本番運用
    Pipelines ・ Model Monitor ・ セキュリティを Specialty レベルで整理します。
  10. 10 章 · 受験対策と問題演習
    Specialty レベルの試験戦略を整理します。
Chapter 1

1 章 · MLS-C01 ─ 試験の全体像


§1.1

試験の位置付け

MLS-C01 は AWS 認定の Specialty レベル で、ML / 深層学習 / 統計の 深い専門知識 が問われる最高峰試験。MLA-C01(Associate)が SageMaker / 実装中心 だったのに対し、MLS-C01 は数学的背景 ・ アルゴリズム選択 ・ ハイパーパラメータの細かい設計判断 までを測ります。

  • 主催: Amazon Web Services(AWS)
  • 形式: CBT(Pearson VUE)or オンライン監督受験
  • 問題数 / 時間: 65 問 / 180 分
  • 回答方式: 単一選択 + 複数選択 + ケーススタディ
  • 合格スコア: 750 / 1000
  • 有効期限: 3 年
  • 受験料: 300 USD(参考)
  • 前提知識: ML 実務 1 〜 2 年 + 統計 ・ 線形代数 ・ 微積分の基礎

AWS ML 認定の階層

  • Foundational: AI Practitioner(AIF-C01)
  • Associate: ML Engineer Associate(MLA-C01)
  • Specialty: ML Specialty(MLS-C01、本資格)
§1.2

出題ドメインと推奨学習プラン

公式試験ガイドのドメイン

  1. Domain 1: Data Engineering(20%): データ収集 ・ 変換 ・ 保管
  2. Domain 2: Exploratory Data Analysis(24%): EDA ・ 特徴量エンジニアリング
  3. Domain 3: Modeling(36%): アルゴリズム選択 ・ ハイパーパラメータ ・ 評価
  4. Domain 4: Machine Learning Implementation and Operations(20%): デプロイ ・ MLOps ・ セキュリティ

200 〜 400 時間プラン

  1. Month 1: ML 基礎 + 数学(線形代数 / 微積分 / 統計)
  2. Month 2: アルゴリズム深掘り(GBDT / NN / 時系列 / クラスタリング / 強化学習)
  3. Month 3: SageMaker フル機能 + Built-in アルゴリズム
  4. Month 4: AWS データサービス + デプロイ + MLOps
  5. Month 5: 模擬試験 + 過去問
MLS-C01 の本質は『数学 + アルゴリズム選択 + AWS 統合』

MLA-C01 が SageMaker 操作とサービス選択中心 だったのに対し、MLS-C01 は『なぜそのアルゴリズムが最適か』『なぜそのハイパーパラメータか』『なぜそのデータ前処理か』 が問われます。Coursera ・ Udemy の AWS ML Specialty 講座 + Practice Exam が王道学習教材。

Chapter 2

2 章 · ML の数学的基礎


§2.1

線形代数

  • ベクトル / 行列の基本演算
  • 内積 / 外積 / 転置 / 逆行列
  • 固有値 / 固有ベクトル: PCA の基礎
  • 特異値分解(SVD): 次元削減 / 推薦システム
  • ノルム: L1(マンハッタン)/ L2(ユークリッド)
  • コサイン類似度: テキスト ・ 画像の類似性
  • ランク / 線形独立
§2.2

確率統計

  • 確率分布: 正規 / 二項 / ポアソン / ベータ / ガンマ / 多項
  • 期待値 / 分散 / 共分散 / 相関
  • 条件付確率 / ベイズの定理
  • 最尤推定 / MAP 推定
  • 仮説検定 / p 値 / 信頼区間
  • 多重検定補正: ボンフェローニ / FDR
  • 中心極限定理 / 大数の法則
  • ブートストラップ / Cross Validation
§2.3

微積分と最適化

  • 偏微分 / 連鎖律(Chain Rule)
  • 勾配降下法 / 確率的勾配降下法(SGD)
  • Momentum / Adam / RMSprop / AdamW
  • Newton 法 / 準 Newton 法(BFGS / L-BFGS)
  • ヘッセ行列 / Jacobian
  • 正則化(L1 / L2)
  • 凸最適化 / 非凸最適化
  • 勾配消失 / 勾配爆発
Chapter 3

3 章 · データエンジニアリング


§3.1

データ収集とストリーミング

  • S3: データレイクの中核
  • Kinesis Data Streams: リアルタイムストリーミング、保持 1 〜 365 日
  • Kinesis Data Firehose: 自動配信(S3 / Redshift / Splunk / OpenSearch)
  • Kinesis Data Analytics: ストリーム SQL / Apache Flink
  • Amazon MSK: マネージド Kafka
  • AWS Glue: ETL + Data Catalog
  • AWS DMS: DB 移行 + CDC
  • Step Functions: ワークフロー
§3.2

データ形式と保管

  • 形式: CSV / JSON / Parquet / ORC / Avro / TFRecord / RecordIO
  • Parquet vs ORC: 列指向、Parquet がエコシステム広
  • RecordIO: SageMaker Built-in アルゴリズムの推奨形式
  • Compression: gzip / snappy / lz4 / zstd
  • S3 Storage Classes: Standard / IA / Glacier 系の使い分け
  • S3 Lifecycle: 自動移行
  • Athena: S3 上の SQL
  • Redshift: マネージド DWH
  • Lake Formation: データレイク統合
§3.3

Feature Store と Glue DataBrew

  • SageMaker Feature Store: Online + Offline 特徴量
  • Online: 低遅延推論用
  • Offline: 学習用、S3 + Glue Catalog
  • Glue DataBrew: ノーコード ETL(250+ 変換)
  • Glue Studio: GUI / コードベース ETL
  • Glue Crawler: スキーマ自動検出
  • Glue Job Bookmark: 増分処理
Chapter 4

4 章 · EDA と特徴量エンジニアリング


§4.1

EDA(探索的データ分析)

  • 数値要約: mean / median / std / quartile / skewness / kurtosis
  • 可視化: ヒストグラム / 箱ひげ / 散布図 / ヒートマップ / バイオリン
  • 相関分析: Pearson / Spearman / Kendall
  • 多重共線性: VIF
  • 外れ値検出: IQR / Z-score / Isolation Forest / Local Outlier Factor
  • SageMaker Data Wrangler: GUI EDA + 前処理
  • SageMaker Clarify Pre-training Bias: バイアス事前検出
§4.2

特徴量エンジニアリング

  • スケーリング: StandardScaler / MinMaxScaler / RobustScaler
  • カテゴリエンコーディング: One-hot / Ordinal / Target / Frequency / Hashing
  • 変換: 対数 / Box-Cox / Yeo-Johnson
  • ビニング: 等幅 / 等頻度 / 決定木ベース
  • 特徴量交差: 多項式 / 任意関数
  • 集約特徴量: Window over time
  • テキスト: TF-IDF / Word2Vec / BERT 埋め込み
  • 画像拡張: 反転 / 回転 / 色調整 / Mixup / CutMix
  • 時系列: ラグ / 移動平均 / フーリエ展開
§4.3

欠測 ・ 不均衡対策

欠測対策

  • MCAR / MAR / MNAR の判別
  • 単一代入: 平均 / 中央値 / 最頻値
  • KNN 代入 / 回帰代入
  • 多重代入(Multiple Imputation): MICE
  • Indicator 列 + 代入: 欠測情報を残す

不均衡対策

  • Oversampling: SMOTE / ADASYN
  • Undersampling: ランダム / Tomek Links / NearMiss
  • Class Weight 調整
  • Threshold Moving: 予測閾値の調整
  • Cost-Sensitive Learning
  • 評価指標: PR-AUC / F1 / Recall(Accuracy ではなく)
Chapter 5

5 章 · Built-in アルゴリズムと選び分け


§5.1

教師あり学習 Built-in

  • Linear Learner: 線形 / ロジスティック回帰
  • XGBoost: GBDT、テーブル予測の主力
  • Factorization Machines: 推薦 / 高次元疎データ
  • KNN: 近傍ベース
  • Image Classification(ResNet)
  • Object Detection(SSD)
  • Semantic Segmentation
  • BlazingText: Word2Vec / Text Classification
  • Sequence-to-Sequence: 翻訳 / 要約
  • DeepAR: 時系列予測(RNN)
  • Tabular Auto-ML(AutoGluon)
§5.2

教師なし学習 Built-in

  • K-Means: クラスタリング
  • PCA(Principal Component Analysis): 次元削減
  • Random Cut Forest(RCF): 異常検知
  • IP Insights: アクセスパターン異常検知
  • LDA(Latent Dirichlet Allocation): トピックモデル
  • NTM(Neural Topic Model): ニューラルトピックモデル
  • Object2Vec: 埋め込み学習
§5.3

強化学習とフレームワーク

  • SageMaker RL: 強化学習(Q-learning / DQN / PPO)
  • OpenAI Gym / Vowpal Wabbit / RLlib
  • 用途: ロボット / 自動運転 / 推薦 / 在庫最適化 / ゲーム
  • Built-in に加え BYOC: TensorFlow / PyTorch / MXNet / Hugging Face / scikit-learn / XGBoost フレームワーク
  • JumpStart: 事前学習済モデル + ファインチューニング
  • Bedrock 統合: 生成 AI
Chapter 6

6 章 · ハイパーパラメータと評価


§6.1

ハイパーパラメータ最適化

  • Grid Search: 全組合せ網羅、次元の呪い
  • Random Search: 同予算で Grid より発見率高
  • Bayesian Optimization: SageMaker デフォルト
  • Hyperband: 早期終了 + 並列、SageMaker サポート
  • ASHA(非同期的成功半減)
  • Warm Start: 過去 HPO の引継ぎ
  • Early Stopping: 性能向上が見込めない試行を打ち切り
  • Population-Based Training(PBT)
§6.2

評価指標(Specialty レベル)

分類

  • Accuracy / Precision / Recall / F1 / F-beta
  • ROC-AUC vs PR-AUC: 不均衡対応
  • Log Loss(Binary / Multi): 確率の質
  • Macro / Micro / Weighted Average
  • Confusion Matrix: 混同行列
  • Cohen's Kappa: 一致度
  • Matthews Correlation Coefficient(MCC)

回帰

  • MSE / RMSE / MAE / R² / MAPE / MASE
  • 残差プロット / Q-Q プロット
  • Heteroscedasticity 検定
  • 正規性検定(Shapiro-Wilk / KS)

ランキング / 推薦

  • MAP@K / NDCG@K
  • MRR(Mean Reciprocal Rank)
  • Precision/Recall@K
§6.3

Cross Validation

  • K-Fold(k=5/10): 標準
  • Stratified K-Fold: 分類でクラス比率を保つ
  • Time Series Split: 時系列で時間順を守る
  • Group K-Fold: 同グループの混在を防ぐ
  • Leave-One-Out CV: 計算コスト高
  • Nested CV: HPO + 評価の両立
  • Bias-Variance Tradeoff
Chapter 7

7 章 · 深層学習の深堀り


§7.1

CNN と画像処理

  • 畳み込み + プーリング + 全結合
  • Padding / Stride / Dilation
  • Batch Normalization / Layer Normalization / Group Normalization
  • Dropout / Stochastic Depth
  • Skip Connection(ResNet): 勾配消失対策
  • Inception / DenseNet / EfficientNet
  • Transfer Learning: ImageNet 事前学習
  • Vision Transformer(ViT): Attention ベース
  • Object Detection: YOLO / Faster R-CNN / DETR
  • Segmentation: U-Net / DeepLab / Mask R-CNN
§7.2

RNN ・ Transformer ・ NLP

  • RNN / LSTM / GRU: 順次処理
  • 勾配消失 / 勾配爆発: ゲート機構の理由
  • Seq2Seq: 翻訳 ・ 要約
  • Attention 機構: Self-Attention / Multi-Head
  • Transformer: 並列処理 + 長距離依存
  • BERT / GPT / T5: 事前学習 + 微調整
  • RAG: Retrieval Augmented Generation
  • Tokenization: BPE / WordPiece / SentencePiece
  • Embedding: Word2Vec / GloVe / fastText / 文埋め込み
§7.3

生成モデル

  • GAN(Generative Adversarial Network): 生成器 + 識別器
  • VAE(Variational Autoencoder): 潜在空間
  • 拡散モデル(Diffusion Model): ノイズ除去、画像生成の主役
  • Flow-based: 可逆変換
  • Autoregressive: GPT / PixelCNN
  • LLM Fine-tuning: SFT / RLHF / DPO / LoRA / QLoRA
  • Bedrock: Claude / Titan / Llama / Mistral / Stability AI
Chapter 8

8 章 · デプロイと推論最適化


§8.1

推論オプション(Specialty レベル)

  • Real-time Inference: 低遅延 ・ 常時稼働
  • Serverless Inference: 自動スケール ・ 従量課金
  • Asynchronous Inference: 大ペイロード ・ 長時間
  • Batch Transform: 大量データ ・ 一括
  • Edge(Greengrass / SageMaker Edge): IoT 推論
  • Multi-Model Endpoint: 多数モデル同居
  • Multi-Container Endpoint: 異種モデル同時
  • Inference Pipeline: 前処理 + モデル + 後処理
  • Production Variants: A/B テスト
  • Shadow Variants: 本番影響なしテスト
§8.2

推論最適化

  • Quantization: float32 → int8 / int4
  • Pruning: 不要重みの削除
  • Distillation: 大 → 小モデル
  • Neo: モデルの自動コンパイル(ハード最適化)
  • Inferentia / Trainium: AWS 自家製 AI チップ
  • TensorRT / ONNX Runtime / Triton: 推論サーバ
  • Model Compilation: Graph Optimization / Operator Fusion
  • Inference Recommender: インスタンスタイプ推奨
§8.3

Auto Scaling と容量計画

  • Auto Scaling Policies: Target Tracking / Step / Scheduled
  • Min / Max Replicas: スケール範囲
  • Cold Start 対策: Provisioned Concurrency
  • Load Testing: Inference Recommender / 自前ベンチマーク
  • Multi-AZ: 可用性
  • Cross-Region: 災害対策
  • Throttling 対策: Retry with backoff
Chapter 9

9 章 · MLOps と本番運用


§9.1

SageMaker Pipelines 高度

  • ProcessingStep / TrainingStep / TuningStep / ConditionStep
  • Lambda / Callback / EMR / Notebook Steps
  • Caching: 同じステップ ・ 同じ入力で結果再利用
  • Pipeline Parameters: 動的入力
  • Conditional Branching
  • Lineage Tracking: データ → モデルの来歴
  • SageMaker Projects: テンプレート化 MLOps
  • SageMaker Studio + Git: ブランチベース開発
  • MLflow on SageMaker: 実験管理
§9.2

Model Monitor 高度

  • Data Quality: 統計値変化(欠測 / 範囲 / 分布)
  • Model Quality: 予測 vs 正解の乖離
  • Bias Drift: 特定グループへのバイアス変化
  • Feature Attribution Drift: SHAP ベース重要度変化
  • Baseline 設定: 学習データの統計
  • Schedule 監視: 定期実行
  • CloudWatch + EventBridge: アラート + 自動対応
  • Human-in-the-loop(A2I): 低信頼予測の人間レビュー
§9.3

セキュリティ ・ 責任ある AI

  • SageMaker Clarify: バイアス + 説明可能性
  • Differential Privacy: 差分プライバシー
  • Federated Learning: 連合学習
  • Homomorphic Encryption: 準同型暗号
  • VPC + PrivateLink: ネットワーク分離
  • Network Isolation = True: コンテナをインターネットから切離し
  • KMS / Secrets Manager: 暗号鍵 / 機密情報
  • IAM: 最小権限 ・ Execution Role
  • Macie: S3 内の個人情報自動検出
  • Bedrock Guardrails: 生成 AI 安全制御
Chapter 10

10 章 · 受験対策と問題演習


§10.1

範囲別チェックリスト

  1. 第 2 章: 線形代数 ・ 統計 ・ 微積分の基礎
  2. 第 3 章: Kinesis / Glue / Feature Store / Parquet vs RecordIO
  3. 第 4 章: EDA / 特徴量エンジニアリング / 不均衡対策(SMOTE 等)
  4. 第 5 章: Built-in 30+ アルゴリズム + 選び分け
  5. 第 6 章: HPO(Bayesian / Hyperband)/ 評価指標(分類 / 回帰 / ランキング)
  6. 第 7 章: CNN / RNN / Transformer / 生成モデル
  7. 第 8 章: 推論 5 種 / Quantization / Distillation / Inferentia
  8. 第 9 章: Pipelines / Model Monitor / Clarify / VPC + Network Isolation

試験当日のコツ

  • 65 問 / 180 分 = 1 問 約 3 分(MLA より長い)
  • ケーススタディ: 複雑な要件 + 制約 + 最適選択
  • 最も○○な答え を選ぶ問題が中心
  • 消去法: 明らかに不適切な選択肢から除外
  • Practice Exam(AWS 公式)+ 模擬試験 サイト で出題傾向把握
§10.2

次のステップ

MLS-C01 合格 → AWS で ML / AI スペシャリストの最高峰。次は AWS Solutions Architect Professional(SAP-C02) で全体アーキテクトに進む、または 三大クラウド ML を揃える 道があります。本サイトの[Azure AI-102](/certs/azure-ai-102) ・ [GCP Professional ML Engineer](/certs/gcp-ml-engineer)も。

MLS-C01 のキャリア活用

MLS-C01 は AWS で ML を扱う技術者の頂点認定シニア ML エンジニア ・ ML 専門コンサルタント ・ AI ベンチャー CTO での評価が極めて高い。AI Practitioner → MLA-C01 → MLS-C01 のフルパスは AWS ML スペシャリストとしての最強の証明です。