本文へスキップ
統計ロードマップ
Textbook

DS基礎 教科書

統計検定 データサイエンス基礎(DS基礎)は、Excel を使った実データ操作を中心に問う検定です。本教科書は **10 章構成**で、Excel の関数・ピボットテーブル・グラフ・回帰・データ品質・仮説検定(t 検定 / カイ二乗 / 分散分析)・時系列・多変量・ダッシュボードと BI・Excel × プログラミング・実務ケーススタディまで扱います。Excel をある程度触ったことのある方を想定します。

目次

  1. 1 章 · Excel とデータ操作の基礎
    セル・関数・テーブル機能・ピボットテーブルなど、データ分析の土台となる Excel 操作を整理します。
  2. 2 章 · 可視化と分析
    Excel のグラフ機能と回帰分析機能を使い、データを「見て」「予測する」段階に進みます。
  3. 3 章 · データ準備とデータ品質
    実務分析で 7-8 割の時間を占めるデータ整備。欠損値・外れ値・型変換・名寄せ・正規化を Excel ベースで整理。
  4. 4 章 · Excel での仮説検定とカテゴリ分析
    t 検定・カイ二乗検定・一元配置 ANOVA を Excel の分析ツール / 関数で実行し、結果の読み方と落とし穴を学びます。
  5. 5 章 · 時系列データを Excel で扱う
    売上・株価・気温など時系列データの Excel での扱い方。移動平均・トレンド・季節調整を 3 節で。
  6. 6 章 · 多変量データとピボット分析
    複数次元のデータを Excel で要約・分析する実務的手法。クロス集計・条件付き書式・スライサーを 3 節で。
  7. 7 章 · ダッシュボードと BI 連携
    Excel で意思決定に直結するダッシュボードを作る。Power BI との連携も視野に 3 節で。
  8. 8 章 · Excel × プログラミングの連携
    Excel と Python / R / VBA を組合せて、より強力な分析を実現する手法を 3 節で。
  9. 9 章 · 実務ケーススタディ
    売上分析・顧客分析・品質管理 ─ Excel での実例を 3 節で。
  10. 10 章 · DS 基礎総まとめと次のステップ
    DS 基礎 9 章の総括、合格後の学習ロードマップを 3 節で。
Chapter 1

1 章 · Excel とデータ操作の基礎


§1.1

Excel の基本操作とテーブル機能

DS基礎の出題は、ほとんどが「Excel でデータを操作して答えを出す」スタイル。本節ではまず、効率的に操作するための基本 ─ セル参照のコツとテーブル機能を整理します。

絶対参照と相対参照

覚えどころ

Excel でセルを参照する 3 つの形式:

- A1(相対参照): コピーすると参照先が動く - 1(絶対参照): コピーしても固定 - 1(複合参照): 行だけ・列だけ固定

F4 キーを押すと参照形式が切り替わる。

「ある列の値を、固定の値で割って割合を計算する」のような操作では絶対参照が必須。手で式を入力していると間違えやすいので、$ マークを押すクセをつけましょう。

テーブル機能

データ範囲を選んで「Ctrl + T」(または「挿入」→「テーブル」)で、データ範囲を テーブル化 できます。テーブル化のメリットは大きいです。

  • データを追加すると数式が自動で拡張: 新しい行を足しても、SUM や AVERAGE が自動で範囲を広げる
  • 列名で参照可能: A1:A100 ではなく `テーブル1[売上]` のような構造化参照が使える
  • フィルタとソートが組み込み: 1 クリックで絞り込み
  • 行の縞模様が自動: 視認性が上がる

頻出関数の一覧

DS基礎で必ず使う関数

集計系 - `SUM(範囲)` 合計 - `AVERAGE(範囲)` 平均 - `COUNT(範囲)` 数値の個数 - `COUNTA(範囲)` 空でない個数 - `MAX / MIN(範囲)` 最大・最小

条件付き集計 - `SUMIF(条件範囲, 条件, 合計範囲)` 条件付き合計 - `COUNTIF(範囲, 条件)` 条件付きカウント - `AVERAGEIF(条件範囲, 条件, 平均範囲)` 条件付き平均

統計 - `STDEV.S(範囲)` 標本標準偏差(不偏) - `STDEV.P(範囲)` 母集団標準偏差 - `VAR.S / VAR.P` 不偏分散・標本分散 - `MEDIAN(範囲)` 中央値 - `QUARTILE.INC(範囲, 番号)` 四分位数 - `CORREL(X, Y)` 相関係数

検索・参照 - `VLOOKUP / XLOOKUP` 表からの検索 - `IF / IFS` 条件分岐

DS基礎の出題ではこれらの関数の 使い分け が問われます。「不偏分散と標本分散」「STDEV.S と STDEV.P」のような違いを意識して使えるよう、繰り返し触っておきましょう。

実務での使い方:VLOOKUP / XLOOKUP でデータ結合

実務でいちばん使われる関数の一つが VLOOKUP / XLOOKUP(SQL の JOIN に相当)。例: 「顧客 ID から顧客名を引いてくる」「商品コードから単価マスタを引いてくる」など。`=VLOOKUP(A2, 顧客マスタ!A:C, 3, FALSE)` で、A2 の値を顧客マスタの 1 列目で検索 → 3 列目の値を返す、という使い方が定型。新しい Excel(2021/365)では、左にも検索できる XLOOKUP が VLOOKUP の上位互換として推奨されています。

§1.2

関数を使った集計

本節では、データセットに対して 集計操作 を関数で行う方法を扱います。手で書ける式は手で、難しいものはピボットテーブル(次節)へ。

条件付き集計 ─ 「〇〇な行だけの合計を出したい」

SUMIF / COUNTIF / AVERAGEIF

条件にマッチする行だけを対象に、合計・カウント・平均を計算する。

例: 売上テーブルで「東京の売上の合計」を求めたいとき

`=SUMIF(B:B, "東京", C:C)`

(B 列の支店名、C 列の売上)

例題 1.2

売上テーブル(支店、売上額)で、「東京」支店の売上の合計と平均、件数を計算したい。それぞれ使う関数は?

: - 合計: `=SUMIF(支店列, "東京", 売上列)` - 平均: `=AVERAGEIF(支店列, "東京", 売上列)` - 件数: `=COUNTIF(支店列, "東京")`

複数条件 ─ SUMIFS / COUNTIFS / AVERAGEIFS

条件が複数になったら、語尾に S を付けた `SUMIFS` 等を使います。引数の順序が SUMIF とは逆なので注意。

SUMIFS の構文

`=SUMIFS(合計範囲, 条件範囲1, 条件1, 条件範囲2, 条件2, ...)`

例: 「東京 × 4 月」の売上合計

`=SUMIFS(C:C, B:B, "東京", A:A, "4月")`

比率や割合の計算

「東京支店の売上が全体に占める割合」を計算したいとき:

Excel 式では `=SUMIF(B:B,"東京",C:C) / SUM(C:C)`。表示形式を「パーセンテージ」にすれば自動で % 表示になります。

ばらつきの集計

STDEV.S と STDEV.P の使い分け は DS基礎で頻出。

  • STDEV.S(範囲): 標本標準偏差(不偏)。分母 。「データが母集団からの標本」のとき。
  • STDEV.P(範囲): 母集団標準偏差。分母 。「データそのものが母集団全体」のとき。

実務では「データは母集団からの標本」と考える場面が多いので、原則 STDEV.S を使います。「.P」を選ぶと結果が少しだけ小さくなります(分母が大きいぶん)。

§1.3

ピボットテーブルでクロス集計

「商品別 × 月別の売上」「都道府県別 × 性別の人数」 ─ 2 つ以上の軸でデータを集計するクロス集計は、DS基礎の主役機能のひとつです。Excel ではピボットテーブルで一発。

ピボットテーブル =『データキューブの薄切り』

1 行 1 レコードのフラットなデータは、概念的には『多次元のデータキューブ』を平らに展開したもの。ピボットテーブルは、そのキューブをどの軸で切るかを GUI で指定し、別の薄切り(集計)を作る道具です。BI ツール(Tableau・Looker)も内部的には同じ操作を高速にやっているだけで、根っこは Excel と同じ。

実務での使い方:売上分析の定石

毎月の売上データを取り込んだら、まず 行=支店 / 列=商品カテゴリ / 値=売上合計 のピボットを作るのが定石。次に値を『合計』から『前月比』『前年比』に切り替え、列に時系列を加えて推移を見る ─ この 2 ステップだけで、社内会議で共有できる売上分析レポートの 7 割は完成します。

ピボットテーブルの基本手順

  1. データを準備: 1 行 1 レコード形式の表。列名(ヘッダ)が必須。
  2. 範囲を選択: データのどこかをクリック → 「挿入」→「ピボットテーブル」
  3. 配置場所を選択: 新しいシート(推奨)または既存のシート
  4. フィールドを配置: 「行」「列」「値」のボックスに列名をドラッグ
  5. 集計方法を選択: 値ボックスのドロップダウンで合計・平均・カウントなどを切替

「行・列・値・フィルタ」の配置

例 ─ 売上の月別×支店別クロス集計

: 月 : 支店 : 売上(合計)

これで「行 = 月、列 = 支店、セルにその月・その支店の売上合計」 ─ という典型的なクロス集計表ができる。

値フィールドの集計方法

値ボックスに置いたフィールドをクリックすると、集計方法を切り替えられます。

  • 合計: SUMIFS と同等
  • 個数: COUNT。「何件あるか」
  • 平均 / 最大 / 最小 / 標準偏差 など
  • 合計に対する割合: クロス集計表を「割合」表示に。「行の合計に対する割合」「列の合計に対する割合」「総計に対する割合」が選べる

「割合 % 表示」の使い分け

DS基礎では、ピボットテーブルの値表示を「○○の割合」にする操作がよく問われます。

  • 行集計に対する割合: 各行の中での横方向の構成比。例: 「ある月の中で、各支店の売上が何 % か」
  • 列集計に対する割合: 各列の中での縦方向の構成比。例: 「ある支店の中で、各月の売上が何 % か」
  • 総計に対する割合: 全体に対する各セルの割合

フィルタとスライサー

フィルタ ボックスにフィールドを置くと、その列の特定の値だけに絞った表が作れます。スライサー(挿入 → スライサー)を使うと、ボタンクリックで絞り込みができ、よりインタラクティブな分析が可能になります。

ピボットテーブルは触れば触るほど分かる機能。サンプルデータをダウンロードして、実際に手で動かしてみるのがいちばんの学習法です。

Chapter 2

2 章 · 可視化と分析


§2.1

グラフの作り方と選び方

DS基礎では「目的に合ったグラフを選べるか」がよく問われます。本節では、Excel で作れる主要グラフと、それぞれの 使い分けの原則 を整理します。

Excel でのグラフ作成手順

  1. データ範囲を選択(ヘッダ行を含めると凡例が自動生成される)
  2. 「挿入」タブ → グラフの種類を選択(おすすめグラフから選んでも OK)
  3. グラフの要素を整える: タイトル・軸ラベル・凡例・データラベル
  4. 書式を整える: 色・線の太さ・フォント

目的別グラフ選びの早見表

目的とグラフの対応

| 見たい情報 | おすすめグラフ | |---|---| | カテゴリの大きさを比較 | 棒グラフ | | 時間に沿った変化 | 折れ線グラフ | | 全体に占める割合 | 円グラフ(項目少なめ)/ 帯グラフ | | 1 変数の分布形 | ヒストグラム | | 2 変数の関係 | 散布図 | | 群間のばらつき比較 | 箱ひげ図 | | 2 次元のクロス集計 | ヒートマップ |

ヒストグラムの作り方(2016 以降)

ヒストグラムは Excel 2016 以降、ネイティブ機能として用意されています(それ以前は階級分けを手で計算する必要があった)。

  1. データ列を選択
  2. 「挿入」→「グラフ」→「ヒストグラム」
  3. 横軸の階級幅(ビン幅)を必要に応じて調整(軸の書式設定)

散布図に近似曲線を入れる

DS基礎で頻出: 散布図に 近似曲線(線形近似) を入れて回帰直線を視覚的に確認する方法。

  1. 散布図を作成
  2. データ点を右クリック → 近似曲線の追加
  3. 「線形近似」を選択、「グラフに数式を表示」「 値をグラフに表示」をチェック

これで「」と がグラフに表示されます。回帰係数と決定係数を一目で確認できる便利機能。

やってはいけないグラフ

  • 3D 効果: 立体グラフは見た目より値が読み取りにくい。原則使わない
  • 0 から始まらない縦軸: 棒グラフでは特に。差を誇張するトリック
  • 項目数の多い円グラフ: 5 項目を超えると比較困難。棒グラフに切り替え
  • 色だけに頼る凡例: モノクロ印刷や色覚多様性を配慮し、形やパターンも併用
グラフは『1 枚に 1 メッセージ』

良いグラフの共通点は『何を伝えたいか』が一目でわかること。1 枚のグラフに『売上の月別推移 + 商品別構成 + 目標達成率』を全部詰め込むと、結局何も伝わりません。実務でも『1 グラフ 1 メッセージ』を守ると、レポートの説得力が一気に上がります。タイトルを『○○が△△だった』のような 結論の文 にすると、見る人が一瞬で要点を掴めます。

§2.2

回帰分析機能を使う

Excel には 「データ分析」アドイン があり、単回帰・重回帰を GUI で実行 できます。本節では、その有効化から結果の読み方までをまとめます。

「データ分析」アドインの有効化

  1. 「ファイル」→「オプション」→「アドイン」
  2. 下部「設定」→「分析ツール」にチェック → OK
  3. 「データ」タブの右端に「データ分析」が表示される

単回帰の実行手順

  1. 「データ」→「データ分析」→「回帰分析」を選択
  2. 入力 Y 範囲」: 目的変数の列(ラベル含む)
  3. 入力 X 範囲」: 説明変数の列(ラベル含む)
  4. ラベル」にチェック(ヘッダ行を含めた場合)
  5. 「一覧の出力先」を指定して OK

出力結果の読み方

回帰分析の出力は 3 つのブロック に分かれます。

出力ブロック 1 ─ 回帰統計

重相関 R: 相関係数の絶対値 重決定 R²: 決定係数 ─ モデルの説明力(0〜1) 補正 R²: 自由度調整済み決定係数 標準誤差: 残差のばらつき 観測数: サンプルサイズ

出力ブロック 2 ─ 分散分析(ANOVA)

有意 F: F 検定の p 値。これが 未満なら「モデル全体は統計的に有意」と判定。

出力ブロック 3 ─ 係数

各係数について: 係数値・標準誤差・t 値・p 値・信頼区間 が出力される。

- p 値 < 0.05: その説明変数は有意 - 係数値: が 1 単位増えたときの の変化量

Excel 回帰出力を読む 3 ステップ

1. 有意 F を見る(全体として意味のあるモデルか) → 2. 補正 R² を見る(どれだけ説明できているか) → 3. 各係数の p 値を見る(どの変数が効いているか)。この順で見れば、初学者でも回帰結果を素早く解釈できます。注意: が高くても有意 F や個別 p 値が高ければ『偶然のフィット』の可能性。 だけで判断しないのが鉄則です。

重回帰の場合

重回帰も手順は同じ。違いは「入力 X 範囲」を 複数列 にする(隣接した列であること)。各説明変数ごとに「係数・p 値」が出力されるので、どの変数が有意かを確認できます。

実務での注意点

  • 説明変数の単位: スケールが大きく違うと係数の解釈がしにくい。標準化してから回帰を考える
  • 多重共線性: 説明変数同士の相関が高いと、係数が不安定になる。VIF を別途計算するか、相関係数を確認
  • 残差の確認: グラフで残差プロット([データ分析]オプション)を出力 → ランダムに散らばっているか確認
§2.3

Excel での統計的推測

Excel には統計的推測(信頼区間・仮説検定)のための関数が揃っています。本節では DS 基礎で頻出のものを整理します。

実務での使い方:キャンペーン効果測定

「先月のメールキャンペーンで売上が上がったか?」を判断するとき、キャンペーン前と後の各店舗売上を 2 列に並べて `=T.TEST(B2:B30, C2:C30, 2, 1)` を実行 → 返された p 値が 0.05 未満なら「有意な差あり」と報告書に書けます。Excel だけでこの判定ができるのが、DS 基礎が実務に直結するポイント。

信頼区間

関数 ─ 信頼区間の幅

`CONFIDENCE.NORM(α, σ, n)`: 母分散 σ² 既知の場合の信頼区間の幅(片側)。例: `=CONFIDENCE.NORM(0.05, 10, 100)` で 95% 信頼区間の半幅。

`CONFIDENCE.T(α, s, n)`: 母分散未知(不偏分散 s² を使う)の場合の信頼区間の幅(片側、t 分布版)。

信頼区間は「標本平均 ± 戻り値」で得られる。

1 標本 t 検定

「ある母集団の平均が値 と等しいか」を検定したいとき、Excel には専用関数が ない ので、以下のいずれかの方法で実行します。

  • 手動計算: 検定統計量 、p 値は `=T.DIST.2T(ABS(T), n-1)` で両側
  • データ分析アドイン: 「t 検定: 一対の標本による平均の検定」(2 標本対応形式)

2 標本 t 検定(2 群の平均比較)

関数 ─ T.TEST

`T.TEST(範囲1, 範囲2, 尾, 種類)`

- : 1=片側、2=両側 - 種類: 1=対応あり、2=等分散の独立 2 標本、3=等分散でない独立 2 標本(Welch 検定)

例: `=T.TEST(A1:A10, B1:B10, 2, 3)` → 等分散仮定なしの両側 t 検定の p 値が返る

カイ二乗検定

関数 ─ CHISQ.TEST

`CHISQ.TEST(観測度数の範囲, 期待度数の範囲)`

適合度検定または独立性検定の p 値を返す。両者は同じ関数で実行可能 ─ 期待度数の出し方が変わるだけ。

分割表の独立性検定: 1. 観測度数表(クロス集計)を作る 2. 行計・列計から期待度数表を計算: 3. `CHISQ.TEST(観測, 期待)` で p 値

p 値の判定基準

  • p 値 < 0.05: 有意水準 5% で帰無仮説を棄却
  • p 値 < 0.01: 有意水準 1% で棄却(より強い証拠)
  • p 値 ≥ 0.05: 棄却しない(=「H₀ が真」とは言えないが、棄却の証拠不十分)

実務での Excel 統計の限界

Excel は基本的な検定までは便利ですが、本格的な統計分析(ロジスティック回帰・時系列分析・ベイズ推論など)では Python(statsmodels, scikit-learn)R に切り替えるのが標準的です。DS基礎では「Excel で何ができるか」を押さえ、それ以上は他ツールへ、という棲み分けが現実的。

Chapter 3

3 章 · データ準備とデータ品質


§3.1

欠損値と外れ値の処理

実データには 欠損(空白)・外れ値(極端な値) が必ず混在します。これらをどう扱うかで分析結果が大きく変わります。

欠損値の扱い

  • そのまま削除: 欠損行を消す。簡単だが情報を失う(欠損が偏ると バイアス)
  • 平均・中央値で補完: シンプル。Excel: `=IF(A2="", AVERAGE(A), A2)`
  • 前後の値で補完(LOCF): 時系列データで使う
  • 回帰で予測補完: 他の変数から値を予測
  • 欠損自体を 1 つの情報として扱う: ダミー変数で『欠損フラグ』を立てる
💡 MCAR / MAR / MNAR

欠損のメカニズムは 3 種類: MCAR(完全にランダム ─ 削除 OK)、MAR(他の変数で説明できる ─ 補完 OK)、MNAR(欠損自体が情報を持つ ─ 慎重に)。年収アンケートで『高所得者ほど未回答』なら MNAR で、削除すると平均が下振れする。

外れ値の検出

  • 3σ ルール: 平均 ± 3 × 標準偏差 を超える値。正規分布前提
  • 箱ひげ図ルール: Q1 - 1.5×IQR 未満 / Q3 + 1.5×IQR 超 ─ 視覚的
  • Z スコア: (値 - 平均) / 標準偏差 が ±3 を超える
  • ドメイン知識: 『年齢 200 歳』『売上マイナス』など物理的に異常な値

外れ値の対処

  • 削除: 入力ミスや計測エラーが明らかなら
  • 修正: 元データを確認して正しい値に
  • ウィンザー化(Winsorize): 上下 5% を境界値で打ち切り
  • 対数変換: 右に裾が長い分布(年収・株価)を正規型に近づける
  • 残す: 外れ値こそが分析対象(不正検出など)
§3.2

データクリーニングと型変換

手入力データには表記ゆれ・スペース混入・型不一致が頻発。Excel の関数で整える基本パターンを押さえます。

表記ゆれの統一

  • TRIM: 余分な空白を削除(『東京都 』→『東京都』)
  • UPPER / LOWER / PROPER: 大文字小文字統一
  • SUBSTITUTE: 特定文字を置換(『株式会社→(株)』)
  • ASC / JIS: 半角全角の統一
  • CLEAN: 改行・タブなど印刷不能文字を削除

日付・数値の型変換

  • DATEVALUE: 文字列『2024/4/1』を日付型に
  • VALUE: 文字列の数字『100』を数値型に
  • TEXT: 数値を書式付き文字列に(`TEXT(A1, "yyyy-mm-dd")`)
  • Power Query: 列の型を一括変換するならこちら

重複の処理

  • 重複の削除: データ → データツール → 重複の削除
  • 条件付き書式 → 一意の値のみ強調: 重複を視覚的に確認
  • COUNTIF: `=COUNTIF(A:A, A2) > 1` で重複行を検出
  • UNIQUE 関数(M365): 動的に一意リストを返す

正規化(0〜1 スケーリング)と標準化

機械学習の前処理で必須。

  • Min-Max 正規化: `(x - MIN) / (MAX - MIN)` → 0〜1 に揃える
  • Z 標準化: `(x - AVERAGE) / STDEV` → 平均 0、標準偏差 1
🛠 名寄せの実例

顧客マスタで『株式会社マネハブ』『(株)マネハブ』『マネハブ株式会社』が別レコードになっていることが多い。SUBSTITUTE で `(株)`・`株式会社` を空文字に置換 → TRIM でほぼ統一できる。さらに表記ゆれが多い場合は Power Query の クラスタリング機能 が便利。

§3.3

データ品質チェックの観点

良い分析の基盤は データ品質。納品前の検収項目として、最低限以下をチェックする習慣をつけましょう。

5 つの品質次元

  • 完全性(Completeness): 必須項目に欠損はないか
  • 正確性(Accuracy): 値は正しいか(範囲外・型違反)
  • 整合性(Consistency): テーブル間で矛盾はないか(顧客 ID が請求テーブルにない等)
  • 一意性(Uniqueness): 主キーに重複はないか
  • 適時性(Timeliness): データは最新か(古すぎないか)

Excel での簡易チェック方法

  • ピボットテーブル: カテゴリの内訳と件数を一覧 → 表記ゆれ発見
  • 条件付き書式: 範囲外の値・空白セルをハイライト
  • COUNTBLANK: 列ごとの空白数
  • COUNTIFS: 複数条件を満たす件数(例: 売上日 > 受注日 など論理矛盾)
🛠 GIGO の原則

Garbage In, Garbage Out ─ 入力データが汚ければ、どんなに精度の高いモデルを作っても結果は信頼できない。実務 DS の時間配分は『データ準備 7 割・モデリング 2 割・可視化 1 割』が標準。データ準備こそ最重要工程です。

Chapter 4

4 章 · Excel での仮説検定とカテゴリ分析


§4.1

t 検定 ─ 2 群の平均差を判定する

t 検定 は『2 つの群の平均に差があるか』を判定する代表的な検定。Excel では分析ツールアドインまたは `T.TEST` 関数で 1 ステップ実行できます。

3 種類の t 検定

用語 ─ Excel での t 検定オプション

1 標本 t 検定: 標本平均が想定値と異なるか。例: 製品重量が 100g と異なるか

2 標本 t 検定(等分散): 2 群の母分散が等しいと仮定。Student の古典的 t 検定

2 標本 t 検定(等分散を仮定しない / Welch): 母分散が違うことを許容。実務での標準

対応のある t 検定: 同じ被験者の前後比較。投薬前後・施策前後など。誤差を相殺できるので検出力が高い

Excel 関数 T.TEST

公式 ─ T.TEST 関数

- 尾の数: 1 = 片側 / 2 = 両側 - 検定の種類: 1 = 対応あり / 2 = 等分散 / 3 = Welch

返り値は p 値 より小さければ帰無仮説を棄却(有意差あり)。

分析ツールでの実行

  1. データ → データ分析 から t 検定: 等分散を仮定した 2 標本検定 などを選択
  2. 範囲を指定 → α(有意水準)を指定
  3. 出力に t 統計量 / 自由度 / 片側 P / 両側 P / 棄却限界値(t 値) が並ぶ
  4. p 値 < α なら『有意差あり』、信頼区間も併記すれば説得力増
例題 4.1 ─ A/B テスト

ボタン色 A・B でクリック数(各 30 セッション)を測定。Welch t 検定の結果 p = 0.018、A の平均 12.3 / B の平均 14.8、差の 95% 信頼区間 [0.5, 4.5]。

読み: 5% 水準で 有意差あり(p < 0.05)。B が優位、平均で +2.5 クリック / セッション。信頼区間が 0 を含まないことも棄却の根拠と一致。

p 値だけでは語れないこと

p < 0.05 でも『差は小さい』可能性: 大標本では小さな差でも有意になる。

p > 0.05 でも『差がない』とは限らない: 標本が小さくて検出力が足りない可能性。

効果量(平均差そのもの・Cohen's d)信頼区間 を必ず併記。これが現代統計の常識(米統計学会の声明 ASA 2016)。

§4.2

カイ二乗検定 ─ クロス集計の独立性を判定する

カイ二乗(χ²)検定 は、クロス集計表で 2 つのカテゴリ変数が独立か を判定する検定。性別 × 購入 / 不購入、地域 × 政党支持などで使う。Excel でも `CHISQ.TEST` 関数で簡単に実行できます。

観測度数と期待度数

公式 ─ 期待度数と χ² 統計量

クロス表の各セルについて、行合計 × 列合計 / 全合計 で 期待度数 を計算:

自由度 のカイ二乗分布で p 値を判定。

Excel 関数 CHISQ.TEST

公式 ─ CHISQ.TEST 関数

だけで p 値 を返してくれる。期待度数を別シートに作っておくのがコツ。`CHISQ.DIST.RT` で右側確率を直接出すこともできる。

適用条件と注意

  • 期待度数 が望ましい(満たさないなら隣接カテゴリと統合 or Fisher の正確検定に切替)
  • 観測値が独立(同じ個体を二重カウントしない)
  • カテゴリ変数同士の関連 を見る(連続変数なら回帰や相関へ)
  • 有意 = 関連がある だけ。強さ は別途 Cramér's V や標準化残差で評価
例題 4.2 ─ 2x2 表

150 人の調査で性別×製品 X の購入 / 不購入を集計:

| | 購入 | 不購入 | 計 | |---|---|---|---| | 男性 | 30 | 50 | 80 | | 女性 | 40 | 30 | 70 | | 計 | 70 | 80 | 150 |

期待度数(男・購入)= 。χ² ≒ 6.79、df=1、p ≒ 0.009。

読み: p < 0.01 で性別と購入は独立とは言えない(関連あり)。女性の購入率(57%)は男性(38%)より高い。

🛠 残差分析でセルごとの寄与を見る

標準化残差 絶対値 2 以上 のセルが、関連の主たる『張本人』。Excel で別表に残差を計算すれば、どのセルが期待からずれているか が一目でわかる。実務報告では、χ² 全体の有意性 + 標準化残差マップ をセットで提示するのが説得力高い。

§4.3

一元配置分散分析(ANOVA)─ 3 群以上の平均比較

3 群以上の平均を比較するには t 検定の繰り返し ではなく ANOVA(分散分析) を使います。Excel の分析ツール → 一元配置: 1 元配置 で実行可能。

なぜ t 検定の繰り返しが NG か

多重比較の罠

3 群を比べるのに ABC を 2 群ずつ 3 回 t 検定すると、第一種の誤りが増殖 する。各回 α=5% でも、3 回中 1 回でも誤って棄却する確率は 全体の有意水準を保ったまま多群を比較 するために ANOVA が必要。さらに事後の Bonferroni / Tukey の HSD で各群ペアを比較するのが標準フロー。

ANOVA の分散分解

公式 ─ 一元配置 ANOVA

群、各群サイズ 、群平均 、総平均 :

(群間平方和)、 (群内平方和)

が大きいほど『群間の差が群内のばらつきを上回る』 → 棄却。

Excel での操作

  1. データを 群ごとに列を分けて並べる(または 1 列 + ラベル列)
  2. データ → データ分析 → 一元配置: 1 元配置 ANOVA
  3. 入力範囲・α を指定 → OK
  4. 出力で 観測値・分散の概要 + 分散分析表(F・p 値・F 境界) が並ぶ
  5. p < α なら『少なくとも 1 つの群間に差がある』(どこかは別途 Tukey 等で)

事後検定 ─ どの群に差があるか

  • Bonferroni 補正: ペアごと t 検定の α を比較数 で割る()。最も保守的
  • Tukey の HSD: 全ペア比較で第一種の誤り率を制御。実務で頻用
  • Dunnett 検定: 対照群 vs 各群の比較に特化。臨床試験で標準
  • Excel 標準では Bonferroni を α / 比較数 で手作業実装するのが一般的

ANOVA の前提条件

  • 正規性: 各群の分布が概ね正規(中央極限定理で大標本なら緩い)
  • 等分散性: 群間の分散が等しい(Welch ANOVA で緩和可能)
  • 独立性: 観測値は独立(同じ被験者を複数群に入れない)
  • 正規性が崩れたら → Kruskal-Wallis 検定(ノンパラメトリック)に切替
🛠 二元配置 ANOVA への発展

Excel の分析ツールには 繰り返しのある二元配置 / 繰り返しのない二元配置 もあり、2 因子の効果と 交互作用 を判定できる。マーケで『広告チャネル × 商品ジャンル』の影響を同時に測るのが典型。実務では本書 + 統計検定 2 級教科書 Ch4 で深掘り。

ここまで 4 章で DS 基礎の中核を扱いました。続く 5-10 章では 時系列・多変量・ダッシュボード・AI 連携・ケーススタディ など実務応用を加えて、一段上の Excel データ分析力を養います。

Chapter 5

5 章 · 時系列データを Excel で扱う


§5.1

時系列の基本と Excel の関数

時系列データ は時刻順に並んだデータ。Excel では日付列を シリアル値 として扱い、関数群で集計・変換します。

Excel の日付関数

  • `YEAR(date)` / `MONTH(date)` / `DAY(date)`: 年・月・日を抽出
  • `WEEKDAY(date)`: 曜日(1=日曜)
  • `EOMONTH(date, 0)`: 月末日
  • `EDATE(date, n)`: ヶ月後の日付
  • `DATEDIF(start, end, 'd')`: 日数差

前月比・前年同月比

公式 ─ 成長率

前月比:

前年同月比(YoY):

季節要因を取り除けるのが YoY の利点。Excel では 12 行ずらした計算で算出可能。

ピボットテーブルで時系列集計

ピボットテーブルの 行ラベルに日付を入れ、月別・四半期別 にグループ化(右クリック → グループ化)すると、瞬時に月次・四半期集計表が完成。BI ツールに頼らず Excel だけで時系列分析できる強力機能。

§5.2

移動平均とトレンド線

移動平均 は時系列データのノイズを平滑化する古典的手法。Excel では数式で実装するか、グラフのトレンド線機能で表示できます。

単純移動平均(SMA)

公式 ─ 移動平均

直近 期の単純平均。Excel では `=AVERAGE(B2:B6)` を下方向にコピー。 が大きいほど滑らかだが、変化への反応が遅れる。

指数平滑(EWMA)

公式 ─ 指数加重移動平均

直近のデータに重みづけ。 が標準。反応が速く・SMA より滑らか。Excel の データ分析 → 指数平滑 で実行可能。

グラフのトレンド線

  • 散布図/折れ線グラフを選択 → グラフ要素 → トレンドライン
  • 線形・指数・対数・累乗・多項式・移動平均 から選択
  • 値・式を表示 チェックで回帰式と当てはまり
  • 予測期間を指定すれば将来予測も可能
§5.3

季節調整と FORECAST 関数

季節パターン をもつ時系列(月次小売・電力消費など)を Excel で扱う実務的手法。

季節指数法

用語 ─ 季節指数

1. 12 ヶ月中心化移動平均でトレンドを抽出 2. 観測値 / トレンドで `S × I` 比を計算 3. 各月で平均して 季節指数 を確定 4. 季節調整値 = 観測値 / 季節指数

FORECAST 関数群

  • `FORECAST.LINEAR(x, y_range, x_range)`: 線形回帰の予測
  • `FORECAST.ETS(target_date, values, dates)`: 指数平滑による予測(季節性自動検出)
  • `FORECAST.ETS.SEASONALITY`: 季節性の周期推定
  • `FORECAST.ETS.CONFINT`: 予測信頼区間
  • Excel 2016+ で利用可能
予測シート機能

Excel の データ → 予測シート で、選択範囲から 予測グラフ + 信頼区間 を自動生成。中身は ETS(Error-Trend-Seasonality)モデル。コードを書かずに予測 ができ、ビジネスの月次予測で実用的です。

Chapter 6

6 章 · 多変量データとピボット分析


§6.1

クロス集計とピボットテーブルの応用

ピボットテーブル は Excel の最強機能の 1 つ。1 章で基礎を扱いましたが、ここでは 多次元の分析 に応用します。

計算フィールドと計算アイテム

  • 計算フィールド: ピボット内で新しい列を作る(粗利率 = 利益/売上 など)
  • 計算アイテム: カテゴリ間の演算(東日本 = 関東 + 東北)
  • 集計方法の切替: 合計・平均・カウント・最大・最小・標本標準偏差
  • 値フィールドの設定: 比率・累積・前期比など

ピボットグラフ

ピボットテーブルからワンクリックで 対話的グラフ を生成。スライサー(クリック式フィルタ)・タイムライン(日付範囲選択)を組合せると、軽量なダッシュボードが完成します。

§6.2

条件付き書式でパターンを発見

条件付き書式 は Excel の数値を 色で可視化 する機能。多変量データの探索的分析(EDA)で威力を発揮します。

主要な書式種類

  • カラースケール: 値の大小を色のグラデーションで表現(ヒートマップ風)
  • データバー: セル内に棒グラフを表示
  • アイコンセット: 信号・矢印などで状態表示
  • 上位/下位 N: 上位 10% や下位 5 件を強調
  • 重複値: 重複する値を強調(データクリーニング)
  • 数式ベース: `=A1>AVG(1:100)` のような任意条件

相関行列のヒートマップ

Excel で簡易相関ヒートマップ

データ → データ分析 → 相関 で相関行列が出力。これに カラースケール条件付き書式 を適用すれば、Python/R を使わずとも相関ヒートマップが作れる。多変量データの探索的分析で 最初に見るべき 図の一つ。

§6.3

Power Query と Power Pivot

Power Query / Power Pivot は Excel の隠れた高機能機能。100 万行以上のデータも軽快に扱え、複数テーブルの結合(JOIN)もできる。

Power Query

  • データの取得と変換 メニューから起動
  • CSV・Web・データベース・Folder など多様なソース
  • 前処理パイプライン をステップとして記録(再実行可能)
  • 列の分割・結合・型変換・行のフィルタ・ピボット解除
  • M 言語 で複雑な変換も記述可能

Power Pivot

Power Pivot はデータモデル機能。複数テーブルを リレーションシップ で結びつけ、SQL の JOIN を Excel で実現。DAX(Data Analysis eXpressions) 言語で高度な計算が可能で、100 万行を超えるデータ も扱える。

Excel の限界を超える

Excel の標準機能では 1,048,576 行が上限。Power Pivot のデータモデルなら 数百万〜数億行 を扱え、企業データ分析の現場で実用的。Power BI にデータモデルを移行すれば、本格的な BI ダッシュボードへ進化させられます。

Chapter 7

7 章 · ダッシュボードと BI 連携


§7.1

Excel ダッシュボードの設計

ダッシュボード は『重要な指標を 1 画面で俯瞰』するレポート。経営会議・営業会議で頻用。

良いダッシュボードの 5 原則

  1. 目的を 1 つに絞る(『経営状況の月次レビュー』など)
  2. KPI は 5-7 個まで ─ 多すぎると焦点がぼける
  3. 最重要指標を左上に(視線の流れに沿う)
  4. 異常を一目で(条件付き書式で赤を出す)
  5. ドリルダウン可能(スライサー / タイムラインで深掘り)

Excel ダッシュボードの構成要素

  • KPI カード: 大きい数字 + 前期比 + 目標達成率
  • 時系列グラフ: トレンドの推移
  • ピボットグラフ: カテゴリ別比較
  • ヒートマップ: 多変量の状態俯瞰
  • スライサー: フィルタ用ボタン
  • タイムライン: 期間選択
§7.2

Power BI への展開

Power BI はマイクロソフトの BI ツール。Excel の自然な発展形で、Power Query / Power Pivot がそのまま動きます。

Power BI の主要機能

  • データ接続: 100+ のデータソースに対応
  • リレーションシップ: 複数テーブルのスター・スキーマ
  • DAX: ピボットを超える集計関数
  • ビジュアル: 50+ の標準グラフ・3rd party
  • 公開: クラウドで共有(Power BI Service)
  • Mobile: スマホ用ダッシュボード自動生成

他の主要 BI ツール

  • Tableau: 老舗・データ可視化に強い
  • Looker(Google): クラウド統合・LookML
  • Qlik Sense: データ探索特化
  • Domo: SaaS 完結
  • Metabase: オープンソース
  • Redash: SQL ベース・ダッシュボード
§7.3

ストーリーテリングと意思決定

ダッシュボードは 意思決定の道具。数字を並べるだけでなく、ストーリー を語る設計が重要です。

データストーリーテリングの 3 段階

  1. 現状把握(What): 何が起きているか
  2. 原因分析(Why): なぜ起きているか
  3. 行動提案(So What / Now What): 何をすべきか

色とレイアウト

色は意味を持たせる

赤 = 危険・低下、緑 = 良好・上昇、灰 = 中立 は世界共通の感覚。色覚多様性に配慮(赤緑色弱の方には Viridis などのカラーパレット)。3 色以内 に絞ると視認性が上がる。装飾でなく 意味のある色 を使うのが原則。

Excel と AI の組合せ

  • Copilot in Excel: Excel のセル内容を ChatGPT 流に解析・要約
  • Power BI Q&A: 自然言語でクエリを書ける
  • Microsoft Fabric: Power BI と AI を統合する次世代プラットフォーム
  • ChatGPT + Excel: 数式やマクロの説明・生成
Chapter 8

8 章 · Excel × プログラミングの連携


§8.1

VBA でルーチン作業を自動化

VBA(Visual Basic for Applications) は Excel に標準搭載のマクロ言語。繰り返し作業 を 1 ボタンで自動化できます。

マクロ記録から始める

  1. 開発タブ → マクロの記録(初回は『開発タブを表示』を有効化)
  2. 通常通り Excel を操作
  3. 記録停止 → 自動生成された VBA コードを表示
  4. コードを編集して汎用化(ループ・条件分岐の追加)
  5. ボタンに割り当てて 1 クリック実行

VBA の基本構文

VBA で各シートにヘッダーを追加
' VBA コード(参考表示)
Sub AddHeaderToAllSheets()
    Dim ws As Worksheet
    For Each ws In ThisWorkbook.Sheets
        ws.Range("A1").Value = "集計表 " & ws.Name
        ws.Range("A1").Font.Bold = True
    Next ws
End Sub
ルーチンの 80% を VBA で

毎月の同じ集計、シートを 30 個コピー、データの形式変換 ─ これらを VBA で自動化すると 1 回の作業時間が数時間 → 数秒 に。最初の学習コストはあるが、1 ヶ月で元が取れる 投資です。

§8.2

Excel と Python の連携

Python in Excel(2023+)で、Excel のセル内に直接 Python コードが書けるようになりました。pandas・numpy・scikit-learn が標準で使えます。

Python in Excel の使い方

  • セルに `=PY(...)` で Python コード開始(または `Ctrl + Shift + Enter`)
  • Anaconda 環境 を Microsoft クラウドで実行(ローカル不要)
  • pandas DataFrame が結果として返る
  • matplotlib プロット を Excel 内に埋め込み
  • 他の Excel セルを `xl("A1:B10")` で参照

openpyxl と xlwings(従来手法)

  • openpyxl: Python から Excel ファイル(.xlsx)を読み書き
  • xlwings: Excel と Python の双方向連携(Excel から Python 関数を呼べる)
  • pandas: `read_excel` / `to_excel` で 1 行で読み書き
  • Excel = データ入力 UI、Python = 分析エンジン という分業
§8.3

AI と Excel の最前線

2023 年以降、生成 AI と Excel の統合 が急速に進化。実務で何が可能かを整理します。

Microsoft Copilot in Excel

  • 自然言語で式生成: 『このデータを月別に集計して』 → ピボット自動作成
  • データの説明: シートを選択 → 『要約して』で AI が傾向を解説
  • 条件付き書式の生成: 『売上 100 万円超を緑に』
  • 異常検出: 『この列で異常な値を見つけて』
  • チャート提案: データに合うグラフを自動推薦

ChatGPT/Claude × Excel ワークフロー

  1. 式の生成: 『XLOOKUP を使ってこんな検索式を書いて』
  2. マクロ生成: 『この処理の VBA コードを書いて』
  3. エラー修復: 『この #VALUE! エラーの原因を解説』
  4. データクレンジング: 『この列の表記揺れを統一する手順』
  5. 分析提案: 『この売上データから何が見えるか』
AI 時代の DS 基礎

AI で Excel 操作が劇的に楽になる時代に、DS 基礎が問うのは『何を分析するか』『結果をどう解釈するか』 という人間ならではの判断力。ツール操作よりも統計的思考 が一段重要に。

Chapter 9

9 章 · 実務ケーススタディ


§9.1

売上分析と異常検知

月次売上データ から、傾向・異常・要因を読み取る実務的な分析プロセス。

売上分析の標準フロー

  1. 全体トレンド: 線形回帰で長期トレンド抽出
  2. 季節性: 月別・曜日別パターンを見る
  3. 前年同月比: 季節要因を除去した実質成長
  4. 要因分解: 商品 × 地域 × チャネル別貢献
  5. 異常検知: ±3σ から外れる月を特定
  6. インサイト報告: 経営層への 1 ページサマリ

パレート分析

20:80 の法則

売上の 80% は商品の上位 20% から(Pareto 80:20 ルール)。Excel でパレート図(降順棒グラフ + 累積比折れ線)を作り、重点商品 を特定。新商品開発・在庫管理の優先度決めに使う。条件付き書式で上位 20 商品を赤くするだけでも有効。

§9.2

顧客分析と RFM

RFM 分析 はマーケの古典手法。顧客を Recency(最終購入)・Frequency(頻度)・Monetary(金額)で分類します。

RFM スコアリング

  1. 各顧客の R / F / M を計算(`MAX(購入日) - 今日`、`COUNT(購入)`、`SUM(金額)`)
  2. 各指標を 5 段階に分類(`PERCENTRANK` 関数で 5 分位)
  3. RFM スコア(例: 555 = 最重要顧客、111 = 離脱顧客)を算出
  4. ピボットテーブルで RFM 分類別の顧客数・売上を集計
  5. マーケ施策 を分類別に設計(VIP は厚遇・離脱顧客は呼び戻し)

顧客生涯価値(LTV)

公式 ─ 簡易 LTV

顧客 1 人あたりの累積価値の概算。LTV > 顧客獲得コスト(CAC) が事業健全性の最低条件。

コホート分析

同月入会の顧客群を時系列追跡 するコホート分析は、Excel のピボットテーブル + 条件付き書式で実装可能。入会後の月別残存率 を行 = 入会月、列 = 経過月で表示すると、施策効果や季節性が一目に。

§9.3

品質管理データの分析

品質管理(QC) データへの統計の応用。Excel で管理図・工程能力指数を計算します(QC 検定教科書とも繋がる内容)。

X̄-R 管理図を Excel で

  1. 群サイズ の測定値を 25 群分準備
  2. 各群の 平均 範囲 を計算
  3. UCL / LCL = ( は群サイズの係数表値、)
  4. 折れ線グラフで描画 + 管理限界の水平線追加

工程能力指数

公式 ─ Cp と Cpk

Excel で `=AVERAGE(...)`・`=STDEV.S(...)`・`=MIN(...)` を組合せて計算。 で十分・ でシックスシグマ目標。

🛠 QC 検定との接続

DS 基礎 → QC 検定 2 級・3 級 へ進むと、これらの管理図・工程能力をより深く扱えます。本サイトの [QC 検定教科書](/certs/qc-kentei/textbook) で 10 章にわたり詳細解説。

Chapter 10

10 章 · DS 基礎総まとめと次のステップ


§10.1

9 章の地図と身に付いた力

DS 基礎教科書 9 章を歩いてきて、Excel データ分析の主要技能 が揃いました。

9 章の地図

  1. Ch1: Excel 基礎 - 関数 + ピボットテーブル
  2. Ch2: 可視化と分析 - グラフ + 回帰機能 + 統計推測
  3. Ch3: データ準備とデータ品質
  4. Ch4: 仮説検定とカテゴリ分析
  5. Ch5: 時系列データを Excel で扱う
  6. Ch6: 多変量データとピボット応用
  7. Ch7: ダッシュボードと BI 連携
  8. Ch8: Excel × プログラミングの連携
  9. Ch9: 実務ケーススタディ
💡 Excel = データサイエンスの『フォーマル言語』

Python・R は強力ですが、経営層・営業・他部署への共有は Excel が共通語。DS 基礎で身に付くのは『結果を Excel で説明できる力』 ─ これは現代でも変わらない実務スキルです。

§10.2

次のステップ ─ 進路選択

DS 基礎の次は、目的に応じた専門化 が良いでしょう。

進路 A: 統計理論を深める

  • [統計検定 3 級](/textbook/grade-3): 推定・検定の基礎理論
  • [統計検定 2 級](/textbook/grade-2): 大学レベルの応用統計
  • 準 1 級・1 級: 実務応用・数理統計

進路 B: データサイエンスの全体像

  • [DS 検定リテラシー](/certs/ds-literacy/textbook): 3 軸スキルと最新 ML
  • [プログラミング教科書](/programming): Python・R・SQL・PyTorch
  • Kaggle / SIGNATE: 実データで腕試し

進路 C: AI / DL 系

  • [G 検定](/certs/g-test/textbook): AI 全般の知識
  • [E 資格](/certs/e-shikaku/textbook): DL 実装エンジニア向け
  • [因果推論](/causal-inference): 政策・経営判断

進路 D: 専門領域

  • [QC 検定](/certs/qc-kentei/textbook): 製造業の品質管理
  • [統計調査士](/certs/survey/textbook): 公的統計・調査設計
  • [専門統計調査士](/certs/survey-specialist/textbook): 標本設計の理論
§10.3

学習継続のヒント

DS 基礎合格は『データ分析の入口』。実務で活かしながら学び続ける のが最も効率的です。

実務で使える小さな目標

  1. 毎月の業務データ を Excel ピボットで集計してみる
  2. 自分の家計簿 を可視化する
  3. SNS で公開されているデータ を 1 つダウンロードして分析
  4. Kaggle Learn の無料コースを 1 つ完走
  5. Power BITableau Public で 1 つダッシュボード作成

学習リソース

  • 統計学会の DS 基礎公式テキスト: 試験対策の本道
  • 公式問題集 + 過去問: 出題パターンに慣れる
  • [統計用語集](/glossary): 477 語(2026 年現在)
  • [統計図解集](/figures): 50 種類の SVG 図解
  • [統計計算ツール](/tools): 17 種のオンライン計算機
💡 統計の力は人生の意思決定にも

DS 基礎で学んだ統計の力は、業務だけでなく 人生の意思決定 にも使えます。健康診断結果の読み方・選挙速報の解釈・ニュースの数字の検証 ─ 統計リテラシーは現代の必修教養。本書がその礎になれば幸いです。

DS 基礎合格、おめでとうございます。データの世界の扉 を一緒に開きました。次の領域でもお会いしましょう。