統計検定 学習帳
Textbook

G検定 教科書

G 検定(ジェネラリスト検定)は、日本ディープラーニング協会(JDLA)が主催する、AI / ディープラーニングを **事業に活用するための知識** を問う試験です。技術的な実装力よりも、AI の歴史・主要手法・社会的影響・倫理を **広く浅く** 理解しているかを測ります。本教科書では、G 検定の出題範囲を概念ベースで整理します。

目次

  1. 1 章 · 人工知能の歴史と概論
    AI とは何か、3 度のブームと冬の時代、現代の AI(機械学習・ディープラーニング)に至る流れを整理します。
  2. 2 章 · AI の社会実装と倫理
    AI を社会で使うときに考えるべき倫理・法律・公平性の問題、そして主要な国際的枠組み。
Chapter 1

1 章 · 人工知能の歴史と概論


§1.1

AI の定義と 3 度のブーム

AI(人工知能) という言葉は 1956 年のダートマス会議で生まれました。それ以降、技術の発展と社会的期待のサイクルで「3 度のブーム」と「2 度の冬」を経て、現在の第 3 次 AI ブームに至っています。

AI の定義 ─ 「これが AI だ」という統一見解は実はない

AI の正確な定義は研究者によって異なります。代表的なものとして:

  • 人間のように考える機械(認知科学的アプローチ)
  • 人間のように行動する機械(チューリングテスト的アプローチ)
  • 合理的に考える機械(論理推論)
  • 合理的に行動する機械(エージェント的アプローチ、現在主流)

3 度の AI ブーム

第 1 次 AI ブーム(1950 - 1960 年代)

主役: 探索・推論。チェスや迷路解きなど「ルールが明確な問題」を機械に解かせる試み。

冬の原因: 「トイ・プロブレム」 ─ 限定された世界では動くが、現実世界の複雑さに対応できなかった。

第 2 次 AI ブーム(1980 年代)

主役: エキスパートシステム。専門家の知識をルールベースで機械に与え、医療診断・故障診断などに応用。

冬の原因: 知識獲得のボトルネック ─ 知識を 1 つずつ手で入力するコストが膨大で、暗黙知を扱えなかった。

第 3 次 AI ブーム(2010 年代〜現在)

主役: 機械学習、特に ディープラーニング。大量のデータから自動でパターンを学習する手法が、画像認識・自然言語処理で大きな成果を出した。

転換点: 2012 年、ImageNet コンテストでディープラーニングが既存手法を圧倒。

歴史上の重要なマイルストーン

  • 1956 年: ダートマス会議 ─ 「AI」という用語が生まれる
  • 1997 年: IBM Deep Blue がチェス世界王者カスパロフを破る
  • 2011 年: IBM Watson がクイズ番組「ジェパディ!」で人間王者に勝利
  • 2012 年: ImageNet で AlexNet がディープラーニングの威力を実証
  • 2016 年: Google DeepMind の AlphaGo が囲碁の世界トップ棋士に勝利
  • 2022 年: ChatGPT 公開 ─ 大規模言語モデル(LLM)が一般に普及
§1.2

機械学習とディープラーニングの位置付け

G 検定で頻出するのが「AI ⊃ 機械学習 ⊃ ディープラーニング」という入れ子構造です。これらの違いと関係性を整理します。

AI・機械学習・ディープラーニングの関係

用語の入れ子構造

AI(人工知能): 「知的な振る舞いをする機械」全般。最も広い概念。

機械学習(ML): AI のうち、データから自動でパターンを学ぶ 手法。線形回帰・決定木・SVM・ニューラルネットなど。

ディープラーニング(DL): 機械学習のうち、多層のニューラルネット を使う手法。画像・音声・自然言語など複雑なデータで威力を発揮。

機械学習の 3 つの学習スタイル

  • 教師あり学習(supervised): 入力と正解(ラベル)のペアから学習。回帰・分類など
  • 教師なし学習(unsupervised): ラベルなしデータからパターン発見。クラスタリング・次元削減など
  • 強化学習(reinforcement): 環境との相互作用で報酬を最大化する行動を学習。AlphaGo や自動運転で活躍
3 つの学習スタイルの違いは『正解の与え方』

教師あり=「答え合わせができる過去問題集」を使う学習、教師なし=「ラベルなしの大量データから自分でパターンを見つける」学習、強化学習=「成功すればご褒美、失敗すれば罰」というフィードバックを通じた試行錯誤学習。教育に例えるなら、それぞれ『家庭教師』『独学』『部活動』の違いに似ています。

ディープラーニングがなぜブレイクしたか

「3 つのデータと 1 つの計算」が揃ったから ─ と言われます:

  1. ビッグデータ: インターネットの普及で大量のラベル付きデータが手に入るように
  2. 計算資源: GPU の進化で、ニューラルネットの学習が現実的な時間で完了するように
  3. アルゴリズム改良: 勾配消失問題を緩和する ReLU、ドロップアウトなどの工夫

ディープラーニングの代表的なモデル(用語整理)

  • CNN(Convolutional Neural Network、畳み込みニューラルネット): 画像処理の標準
  • RNN / LSTM: 時系列・文章など、順序のあるデータを扱う
  • Transformer: 「Attention is All You Need」(2017)。現代の LLM の基盤
  • GAN(Generative Adversarial Network): 2 つのネットを競わせて画像生成
  • 強化学習(DQN, AlphaGo): 報酬最大化で行動を学ぶ

学習の落とし穴と評価

学習を進めると訓練誤差は下がり続けますが、未知データに対する性能(検証誤差)は途中から悪化します ─ これが過学習。G 検定では「過学習が起きる仕組み」と「早期終了 / 正則化 / 交差検証 / Dropout」のような対処法がよく問われます。

0学習量(エポック / 複雑度)誤差早期終了の理想点過学習の領域 →訓練誤差検証誤差
図: 訓練誤差(下がり続ける)と検証誤差(U 字)。検証誤差の最小点で早期終了するのが理想
なぜ過学習は起きるのか

モデルを複雑にしすぎると、訓練データに含まれる『本質的な構造』だけでなく『偶然のノイズ』までも完璧に覚え込んでしまいます。これは『過去問だけ丸暗記して本番で崩れる学生』に似ていて、学習量が多ければ多いほど良い、というわけではありません。

分類問題の評価では、単純な正解率だけでなく、ROC 曲線下面積(AUC)が広く使われます。閾値の取り方に依存しない総合性能の指標で、不均衡データ(陽性が少ない)でも信頼できます。

00.510.51偽陽性率 FPR真陽性率 TPR強い分類器(AUC≈0.92)普通(AUC≈0.75)ランダム(AUC=0.5)
図: ROC 曲線。曲線下面積(AUC)が大きいほど良い分類器。0.5 はランダム
実務での AI プロジェクトの流れ

実務の AI プロジェクトは「データ収集 → 前処理 → 特徴量エンジニアリング → モデル選択 → 学習 → 評価 → デプロイ → モニタリング」のサイクル。経験的には、データ収集と前処理だけで 7〜8 割の時間を使う と言われ、モデル設計だけが AI プロジェクトではない、というのが G 検定でも繰り返し強調されるポイントです。

Chapter 2

2 章 · AI の社会実装と倫理


§2.1

AI 倫理と社会的影響

AI が社会に深く入り込むにつれ、技術だけでは解決できない問題が次々と浮上しています。公平性・透明性・プライバシー・責任の所在 ─ G 検定では、これらの倫理的論点と、各国の規制動向を押さえる必要があります。

AI 倫理の主要 5 論点

1. 公平性(Fairness)

AI が 特定の属性(性別・人種・年齢など)に対して不当に差別的 な判断を下していないか。

: 採用 AI が女性応募者を不利に扱う、再犯リスク予測 AI が黒人を高リスクと判定する、などの実例が報告されている。学習データの偏りが原因。

2. 説明可能性(Explainability / XAI)

AI の判断根拠を 人間が理解できる形 で示せるか。

ディープラーニング はとくに「ブラックボックス」と言われ、入力から出力までの内部処理を人間が追うのが難しい。医療・金融・採用など、説明責任が重い領域では XAI(eXplainable AI)技術の導入が進んでいる。代表的な手法に LIME、SHAP など。

3. プライバシー

学習データや推論結果に含まれる 個人情報 をどう保護するか。

プライバシー保護機械学習 の代表的アプローチ: - 差分プライバシー: ノイズを加えて個人を特定できないように - 連合学習(Federated Learning): データを集中させずに分散学習 - 準同型暗号: 暗号化したまま計算

4. 著作権・データ利用

学習データに 著作物 を使うことの是非。生成 AI の出力が著作権を侵害していないか。

日本の著作権法では、機械学習目的のデータ利用は原則として認められている(著作権法 30 条の 4)。ただし、生成 AI の出力が既存の著作物に類似していると、別の問題が発生する。

5. 雇用と社会への影響

AI の自動化により、特定の職業が消失 したり、スキル要件が変化 したりすることへの対応。

「AI に置き換えられる仕事」「AI 時代に求められるスキル」は、教育・労働政策の重要な論点。リスキリング(学び直し)が政策的キーワード。

「AI を社会に出す」とは何を引き受けることか

技術者の感覚では「精度 95% なら十分」と思える AI も、実社会では『5% の誤判定が誰の人生に影響するか』を問われます。差別された就職希望者・誤診された患者・誤逮捕された市民 ─ 統計の数字では見えない個別の被害があるからこそ、公平性・説明可能性・プライバシー・著作権・雇用への配慮が技術と同じ重みで議論されるのです。

国際的なガイドラインと規制

  • OECD AI 原則(2019): 5 原則 ─ 包摂・人間中心・透明性と説明可能性・頑健性と安全性・説明責任
  • EU AI Act(2024 採択): リスクベース規制。「許容できないリスク」(社会信用スコアなど)を禁止、「高リスク」(医療・採用など)に厳しい義務
  • 米国 NIST AI Risk Management Framework: 自主的なフレームワーク。リスク評価とガバナンスの参考
  • JDLA AI ガバナンスガイドライン: 日本のディープラーニング実装者向け指針
  • G7 広島 AI プロセス(2023): 生成 AI の国際協調枠組み

AI と責任の所在

「AI が起こした事故・誤判定の責任は誰が取るか?」は、現代の難問。自動運転車の事故・医療 AI の誤診・チャットボットの不適切発言 ─ いずれもメーカー、ユーザー、開発者、運用者のどこに責任があるかが曖昧になりがち。

G 検定では「AI を導入する企業は、ガバナンス体制(AI 倫理委員会など)を整備すべき」「監査可能性を確保するためにログを残すべき」といった原則的な答えが正解になることが多いです。

生成 AI(ChatGPT など)特有の論点

  • ハルシネーション: 事実でない内容を自信を持って出力する現象
  • プロンプトインジェクション: 悪意ある入力でモデルの安全装置を回避する攻撃
  • ディープフェイク: 実在の人物を使った偽動画・音声の生成
  • 著作権・学習データ: 大規模に Web スクレイピングしたデータの法的位置づけ
  • 仕事への影響: クリエイティブ職への影響、バイトコンテンツ生成の規制

AI 倫理は技術と社会の交差点にある、急速に変化する領域です。G 検定では「最新のニュース・規制動向にもキャッチアップしている」ことが求められます。試験前には必ず、直近 3〜6 か月の AI 関連の主要ニュースを 1 度ざっと眺めることをおすすめします。