Textbook

DS基礎教科書

統計検定データサイエンス基礎(DS基礎)は、Excel を使った実データ操作を中心に問う検定です。本教科書は **10 章構成**で、Excel の関数・ピボットテーブル・グラフ・回帰・データ品質・仮説検定(t 検定 / カイ二乗 / 分散分析)・時系列・多変量・ダッシュボードと BI・Excel × プログラミング・実務ケーススタディまで扱います。Excel をある程度触ったことのある方を想定します。

第 1 章 · Excel とデータ操作の基礎
セル・関数・テーブル機能・ピボットテーブルなど、データ分析の土台となる Excel 操作を整理します。
第 2 章 · 可視化と分析
Excel のグラフ機能と回帰分析機能を使い、データを「見て」「予測する」段階に進みます。
第 3 章 · データ準備とデータ品質
実務分析で 7-8 割の時間を占めるデータ整備。欠損値・外れ値・型変換・名寄せ・正規化を Excel ベースで整理。
第 4 章 · Excel での仮説検定とカテゴリ分析
t 検定・カイ二乗検定・一元配置 ANOVA を Excel の分析ツール / 関数で実行し、結果の読み方と落とし穴を学びます。
第 5 章 · 時系列データを Excel で扱う
売上・株価・気温など時系列データの Excel での扱い方。移動平均・トレンド・季節調整を 3 節で。
第 6 章 · 多変量データとピボット分析
複数次元のデータを Excel で要約・分析する実務的手法。クロス集計・条件付き書式・スライサーを 3 節で。
第 7 章 · ダッシュボードと BI 連携
Excel で意思決定に直結するダッシュボードを作る。Power BI との連携も視野に 3 節で。
第 8 章 · Excel × プログラミングの連携
Excel と Python / R / VBA を組合せて、より強力な分析を実現する手法を 3 節で。
第 9 章 · 実務ケーススタディ
売上分析・顧客分析・品質管理 ─ Excel での実例を 3 節で。
第 10 章 · DS 基礎総まとめと次のステップ
DS 基礎 9 章の総括、合格後の学習ロードマップを 3 節で。

Chapter 1

第 1 章 · Excel とデータ操作の基礎

§1.1

Excel の基本操作とテーブル機能

DS基礎の出題は、ほとんどが「Excel でデータを操作して答えを出す」スタイル。本節ではまず、効率的に操作するための基本 ─ セル参照のコツとテーブル機能を整理します。

絶対参照と相対参照

覚えどころ

Excel でセルを参照する 3 つの形式:

- A1(相対参照): コピーすると参照先が動く - $A$ 1(絶対参照): コピーしても固定 - $A 1/ A$ 1(複合参照): 行だけ・列だけ固定

F4 キーを押すと参照形式が切り替わる。

「ある列の値を、固定の値で割って割合を計算する」のような操作では絶対参照が必須。手で式を入力していると間違えやすいので、$ マークを押すクセをつけましょう。

テーブル機能

データ範囲を選んで「Ctrl + T」(または「挿入」→「テーブル」)で、データ範囲を テーブル化 できます。テーブル化のメリットは大きいです。

データを追加すると数式が自動で拡張: 新しい行を足しても、SUM や AVERAGE が自動で範囲を広げる
列名で参照可能: A1:A100 ではなく `テーブル1[売上]` のような構造化参照が使える
フィルタとソートが組み込み: 1 クリックで絞り込み
行の縞模様が自動: 視認性が上がる

頻出関数の一覧

DS基礎で必ず使う関数

集計系 - `SUM(範囲)` 合計 - `AVERAGE(範囲)` 平均 - `COUNT(範囲)` 数値の個数 - `COUNTA(範囲)` 空でない個数 - `MAX / MIN(範囲)` 最大・最小

条件付き集計 - `SUMIF(条件範囲, 条件, 合計範囲)` 条件付き合計 - `COUNTIF(範囲, 条件)` 条件付きカウント - `AVERAGEIF(条件範囲, 条件, 平均範囲)` 条件付き平均

統計 - `STDEV.S(範囲)` 標本標準偏差(不偏) - `STDEV.P(範囲)` 母集団標準偏差 - `VAR.S / VAR.P` 不偏分散・標本分散 - `MEDIAN(範囲)` 中央値 - `QUARTILE.INC(範囲, 番号)` 四分位数 - `CORREL(X, Y)` 相関係数

検索・参照 - `VLOOKUP / XLOOKUP` 表からの検索 - `IF / IFS` 条件分岐

DS基礎の出題ではこれらの関数の 使い分け が問われます。「不偏分散と標本分散」「STDEV.S と STDEV.P」のような違いを意識して使えるよう、繰り返し触っておきましょう。

実務での使い方:VLOOKUP / XLOOKUP でデータ結合

実務でいちばん使われる関数の一つが VLOOKUP / XLOOKUP(SQL の JOIN に相当)。例: 「顧客 ID から顧客名を引いてくる」「商品コードから単価マスタを引いてくる」など。`=VLOOKUP(A2, 顧客マスタ!A:C, 3, FALSE)` で、A2 の値を顧客マスタの 1 列目で検索 → 3 列目の値を返す、という使い方が定型。新しい Excel(2021/365)では、左にも検索できる XLOOKUP が VLOOKUP の上位互換として推奨されています。

§1.2

関数を使った集計

本節では、データセットに対して 集計操作 を関数で行う方法を扱います。手で書ける式は手で、難しいものはピボットテーブル(次節)へ。

条件付き集計 ─ 「〇〇な行だけの合計を出したい」

SUMIF / COUNTIF / AVERAGEIF

条件にマッチする行だけを対象に、合計・カウント・平均を計算する。

例: 売上テーブルで「東京の売上の合計」を求めたいとき

`=SUMIF(B:B, "東京", C:C)`

(B 列の支店名、C 列の売上)

例題 1.2

売上テーブル(支店、売上額)で、「東京」支店の売上の合計と平均、件数を計算したい。それぞれ使う関数は?

解 : - 合計: `=SUMIF(支店列, "東京", 売上列)` - 平均: `=AVERAGEIF(支店列, "東京", 売上列)` - 件数: `=COUNTIF(支店列, "東京")`

複数条件 ─ SUMIFS / COUNTIFS / AVERAGEIFS

条件が複数になったら、語尾に S を付けた `SUMIFS` 等を使います。引数の順序が SUMIF とは逆なので注意。

SUMIFS の構文

`=SUMIFS(合計範囲, 条件範囲1, 条件1, 条件範囲2, 条件2, ...)`

例: 「東京 × 4 月」の売上合計

`=SUMIFS(C:C, B:B, "東京", A:A, "4月")`

比率や割合の計算

「東京支店の売上が全体に占める割合」を計算したいとき:

割合 = \frac{東京の売上合計}{全体の売上合計}

Excel 式では `=SUMIF(B:B,"東京",C:C) / SUM(C:C)`。表示形式を「パーセンテージ」にすれば自動で % 表示になります。

ばらつきの集計

STDEV.S と STDEV.P の使い分け は DS基礎で頻出。

STDEV.S(範囲): 標本標準偏差(不偏)。分母 $n - 1$ 。「データが母集団からの標本」のとき。
STDEV.P(範囲): 母集団標準偏差。分母 $n$ 。「データそのものが母集団全体」のとき。

実務では「データは母集団からの標本」と考える場面が多いので、原則 STDEV.S を使います。「.P」を選ぶと結果が少しだけ小さくなります(分母が大きいぶん)。

§1.3

ピボットテーブルでクロス集計

「商品別 × 月別の売上」「都道府県別 × 性別の人数」 ─ 2 つ以上の軸でデータを集計するクロス集計は、DS基礎の主役機能のひとつです。Excel ではピボットテーブルで一発。

ピボットテーブル =『データキューブの薄切り』

1 行 1 レコードのフラットなデータは、概念的には『多次元のデータキューブ』を平らに展開したもの。ピボットテーブルは、そのキューブをどの軸で切るかを GUI で指定し、別の薄切り(集計)を作る道具です。BI ツール(Tableau・Looker)も内部的には同じ操作を高速にやっているだけで、根っこは Excel と同じ。

実務での使い方:売上分析の定石

毎月の売上データを取り込んだら、まず 行=支店 / 列=商品カテゴリ / 値=売上合計 のピボットを作るのが定石。次に値を『合計』から『前月比』『前年比』に切り替え、列に時系列を加えて推移を見る ─ この 2 ステップだけで、社内会議で共有できる売上分析レポートの 7 割は完成します。

ピボットテーブルの基本手順

データを準備: 1 行 1 レコード形式の表。列名(ヘッダ)が必須。
範囲を選択: データのどこかをクリック → 「挿入」→「ピボットテーブル」
配置場所を選択: 新しいシート(推奨)または既存のシート
フィールドを配置: 「行」「列」「値」のボックスに列名をドラッグ
集計方法を選択: 値ボックスのドロップダウンで合計・平均・カウントなどを切替

「行・列・値・フィルタ」の配置

例 ─ 売上の月別×支店別クロス集計

行: 月列: 支店値: 売上(合計)

これで「行 = 月、列 = 支店、セルにその月・その支店の売上合計」 ─ という典型的なクロス集計表ができる。

値フィールドの集計方法

値ボックスに置いたフィールドをクリックすると、集計方法を切り替えられます。

合計: SUMIFS と同等
個数: COUNT。「何件あるか」
平均 / 最大 / 最小 / 標準偏差 など
合計に対する割合: クロス集計表を「割合」表示に。「行の合計に対する割合」「列の合計に対する割合」「総計に対する割合」が選べる

「割合 % 表示」の使い分け

DS基礎では、ピボットテーブルの値表示を「○○の割合」にする操作がよく問われます。

行集計に対する割合: 各行の中での横方向の構成比。例: 「ある月の中で、各支店の売上が何 % か」
列集計に対する割合: 各列の中での縦方向の構成比。例: 「ある支店の中で、各月の売上が何 % か」
総計に対する割合: 全体に対する各セルの割合

フィルタとスライサー

フィルタ ボックスにフィールドを置くと、その列の特定の値だけに絞った表が作れます。スライサー(挿入 → スライサー)を使うと、ボタンクリックで絞り込みができ、よりインタラクティブな分析が可能になります。

ピボットテーブルは触れば触るほど分かる機能。サンプルデータをダウンロードして、実際に手で動かしてみるのがいちばんの学習法です。

Chapter 2

第 2 章 · 可視化と分析

§2.1

グラフの作り方と選び方

DS基礎では「目的に合ったグラフを選べるか」がよく問われます。本節では、Excel で作れる主要グラフと、それぞれの 使い分けの原則 を整理します。

Excel でのグラフ作成手順

データ範囲を選択(ヘッダ行を含めると凡例が自動生成される)
「挿入」タブ → グラフの種類を選択(おすすめグラフから選んでも OK)
グラフの要素を整える: タイトル・軸ラベル・凡例・データラベル
書式を整える: 色・線の太さ・フォント

目的別グラフ選びの早見表

目的とグラフの対応

| 見たい情報 | おすすめグラフ | |---|---| | カテゴリの大きさを比較 | 棒グラフ | | 時間に沿った変化 | 折れ線グラフ | | 全体に占める割合 | 円グラフ(項目少なめ)/ 帯グラフ | | 1 変数の分布形 | ヒストグラム | | 2 変数の関係 | 散布図 | | 群間のばらつき比較 | 箱ひげ図 | | 2 次元のクロス集計 | ヒートマップ |

ヒストグラムの作り方(2016 以降)

ヒストグラムは Excel 2016 以降、ネイティブ機能として用意されています(それ以前は階級分けを手で計算する必要があった)。

データ列を選択
「挿入」→「グラフ」→「ヒストグラム」
横軸の階級幅(ビン幅)を必要に応じて調整(軸の書式設定)

散布図に近似曲線を入れる

DS基礎で頻出: 散布図に 近似曲線(線形近似) を入れて回帰直線を視覚的に確認する方法。

散布図を作成
データ点を右クリック → 近似曲線の追加
「線形近似」を選択、「グラフに数式を表示」「 $R^{2}$ 値をグラフに表示」をチェック

これで「 $y = a x + b$ 」と $R^{2}$ がグラフに表示されます。回帰係数と決定係数を一目で確認できる便利機能。

やってはいけないグラフ

3D 効果: 立体グラフは見た目より値が読み取りにくい。原則使わない
0 から始まらない縦軸: 棒グラフでは特に。差を誇張するトリック
項目数の多い円グラフ: 5 項目を超えると比較困難。棒グラフに切り替え
色だけに頼る凡例: モノクロ印刷や色覚多様性を配慮し、形やパターンも併用

グラフは『1 枚に 1 メッセージ』

良いグラフの共通点は『何を伝えたいか』が一目でわかること。1 枚のグラフに『売上の月別推移 + 商品別構成 + 目標達成率』を全部詰め込むと、結局何も伝わりません。実務でも『1 グラフ 1 メッセージ』を守ると、レポートの説得力が一気に上がります。タイトルを『○○が△△だった』のような 結論の文 にすると、見る人が一瞬で要点を掴めます。

§2.2

回帰分析機能を使う

Excel には 「データ分析」アドイン があり、単回帰・重回帰を GUI で実行 できます。本節では、その有効化から結果の読み方までをまとめます。

「データ分析」アドインの有効化

「ファイル」→「オプション」→「アドイン」
下部「設定」→「分析ツール」にチェック → OK
「データ」タブの右端に「データ分析」が表示される

単回帰の実行手順

「データ」→「データ分析」→「回帰分析」を選択
「入力 Y 範囲」: 目的変数の列(ラベル含む)
「入力 X 範囲」: 説明変数の列(ラベル含む)
「ラベル」にチェック(ヘッダ行を含めた場合)
「一覧の出力先」を指定して OK

出力結果の読み方

回帰分析の出力は 3 つのブロック に分かれます。

出力ブロック 1 ─ 回帰統計

重相関 R: 相関係数の絶対値 重決定 R²: 決定係数 ─ モデルの説明力(0〜1) 補正 R²: 自由度調整済み決定係数 標準誤差: 残差のばらつき 観測数: サンプルサイズ $n$

出力ブロック 2 ─ 分散分析(ANOVA)

有意 F: F 検定の p 値。これが $0.05$ 未満なら「モデル全体は統計的に有意」と判定。

出力ブロック 3 ─ 係数

各係数について: 係数値・標準誤差・t 値・p 値・信頼区間 が出力される。

- p 値 < 0.05: その説明変数は有意 - 係数値: $x$ が 1 単位増えたときの $y$ の変化量

Excel 回帰出力を読む 3 ステップ

1. 有意 F を見る(全体として意味のあるモデルか) → 2. 補正 R² を見る(どれだけ説明できているか) → 3. 各係数の p 値を見る(どの変数が効いているか)。この順で見れば、初学者でも回帰結果を素早く解釈できます。注意: $R^{2}$ が高くても有意 F や個別 p 値が高ければ『偶然のフィット』の可能性。 $R^{2}$ だけで判断しないのが鉄則です。

重回帰の場合

重回帰も手順は同じ。違いは「入力 X 範囲」を 複数列 にする(隣接した列であること)。各説明変数ごとに「係数・p 値」が出力されるので、どの変数が有意かを確認できます。

実務での注意点

説明変数の単位: スケールが大きく違うと係数の解釈がしにくい。標準化してから回帰を考える
多重共線性: 説明変数同士の相関が高いと、係数が不安定になる。VIF を別途計算するか、相関係数を確認
残差の確認: グラフで残差プロット([データ分析]オプション)を出力 → ランダムに散らばっているか確認

§2.3

Excel での統計的推測

Excel には統計的推測(信頼区間・仮説検定)のための関数が揃っています。本節では DS 基礎で頻出のものを整理します。

実務での使い方:キャンペーン効果測定

「先月のメールキャンペーンで売上が上がったか?」を判断するとき、キャンペーン前と後の各店舗売上を 2 列に並べて `=T.TEST(B2:B30, C2:C30, 2, 1)` を実行 → 返された p 値が 0.05 未満なら「有意な差あり」と報告書に書けます。Excel だけでこの判定ができるのが、DS 基礎が実務に直結するポイント。

信頼区間

関数 ─ 信頼区間の幅

`CONFIDENCE.NORM(α, σ, n)`: 母分散 σ² 既知の場合の信頼区間の幅(片側)。例: `=CONFIDENCE.NORM(0.05, 10, 100)` で 95% 信頼区間の半幅。

`CONFIDENCE.T(α, s, n)`: 母分散未知(不偏分散 s² を使う)の場合の信頼区間の幅(片側、t 分布版)。

信頼区間は「標本平均 ± 戻り値」で得られる。

1 標本 t 検定

「ある母集団の平均が値 $μ_{0}$ と等しいか」を検定したいとき、Excel には専用関数がないので、以下のいずれかの方法で実行します。

手動計算: 検定統計量 $T = (\overset{ˉ}{X} - μ_{0}) / (\overset{s}{^} / n)$ 、p 値は `=T.DIST.2T(ABS(T), n-1)` で両側
データ分析アドイン: 「t 検定: 一対の標本による平均の検定」(2 標本対応形式)

2 標本 t 検定(2 群の平均比較)

関数 ─ T.TEST

`T.TEST(範囲1, 範囲2, 尾, 種類)`

- 尾: 1=片側、2=両側 - 種類: 1=対応あり、2=等分散の独立 2 標本、3=等分散でない独立 2 標本(Welch 検定)

例: `=T.TEST(A1:A10, B1:B10, 2, 3)` → 等分散仮定なしの両側 t 検定の p 値が返る

カイ二乗検定

関数 ─ CHISQ.TEST

`CHISQ.TEST(観測度数の範囲, 期待度数の範囲)`

適合度検定または独立性検定の p 値を返す。両者は同じ関数で実行可能 ─ 期待度数の出し方が変わるだけ。

分割表の独立性検定: 1. 観測度数表(クロス集計)を作る 2. 行計・列計から期待度数表を計算: $E_{ij} = (行 i 計) \times (列 j 計) / 総計$ 3. `CHISQ.TEST(観測, 期待)` で p 値

p 値の判定基準

p 値 < 0.05: 有意水準 5% で帰無仮説を棄却
p 値 < 0.01: 有意水準 1% で棄却(より強い証拠)
p 値 ≥ 0.05: 棄却しない(=「H₀ が真」とは言えないが、棄却の証拠不十分)

実務での Excel 統計の限界

Excel は基本的な検定までは便利ですが、本格的な統計分析(ロジスティック回帰・時系列分析・ベイズ推論など)では Python(statsmodels, scikit-learn) や R に切り替えるのが標準的です。DS基礎では「Excel で何ができるか」を押さえ、それ以上は他ツールへ、という棲み分けが現実的。

Chapter 3

第 3 章 · データ準備とデータ品質

§3.1

欠損値と外れ値の処理

実データには 欠損(空白)・外れ値(極端な値) が必ず混在します。これらをどう扱うかで分析結果が大きく変わります。

欠損値の扱い

そのまま削除: 欠損行を消す。簡単だが情報を失う(欠損が偏ると バイアス)
平均・中央値で補完: シンプル。Excel: `=IF(A2="", AVERAGE( $A :$ A), A2)`
前後の値で補完(LOCF): 時系列データで使う
回帰で予測補完: 他の変数から値を予測
欠損自体を 1 つの情報として扱う: ダミー変数で『欠損フラグ』を立てる

💡 MCAR / MAR / MNAR

欠損のメカニズムは 3 種類: MCAR(完全にランダム ─ 削除 OK)、MAR(他の変数で説明できる ─ 補完 OK)、MNAR(欠損自体が情報を持つ ─ 慎重に)。年収アンケートで『高所得者ほど未回答』なら MNAR で、削除すると平均が下振れする。

外れ値の検出

3σ ルール: 平均 ± 3 × 標準偏差を超える値。正規分布前提
箱ひげ図ルール: Q1 - 1.5×IQR 未満 / Q3 + 1.5×IQR 超 ─ 視覚的
Z スコア: (値 - 平均) / 標準偏差が ±3 を超える
ドメイン知識: 『年齢 200 歳』『売上マイナス』など物理的に異常な値

外れ値の対処

削除: 入力ミスや計測エラーが明らかなら
修正: 元データを確認して正しい値に
ウィンザー化(Winsorize): 上下 5% を境界値で打ち切り
対数変換: 右に裾が長い分布(年収・株価)を正規型に近づける
残す: 外れ値こそが分析対象(不正検出など)

§3.2

データクリーニングと型変換

手入力データには表記ゆれ・スペース混入・型不一致が頻発。Excel の関数で整える基本パターンを押さえます。

表記ゆれの統一

TRIM: 余分な空白を削除(『東京都』→『東京都』)
UPPER / LOWER / PROPER: 大文字小文字統一
SUBSTITUTE: 特定文字を置換(『株式会社→(株)』)
ASC / JIS: 半角全角の統一
CLEAN: 改行・タブなど印刷不能文字を削除

日付・数値の型変換

DATEVALUE: 文字列『2024/4/1』を日付型に
VALUE: 文字列の数字『100』を数値型に
TEXT: 数値を書式付き文字列に(`TEXT(A1, "yyyy-mm-dd")`)
Power Query: 列の型を一括変換するならこちら

重複の処理

重複の削除: データ → データツール → 重複の削除
条件付き書式 → 一意の値のみ強調: 重複を視覚的に確認
COUNTIF: `=COUNTIF(A:A, A2) > 1` で重複行を検出
UNIQUE 関数(M365): 動的に一意リストを返す

正規化(0〜1 スケーリング)と標準化

機械学習の前処理で必須。

Min-Max 正規化: `(x - MIN) / (MAX - MIN)` → 0〜1 に揃える
Z 標準化: `(x - AVERAGE) / STDEV` → 平均 0、標準偏差 1

🛠 名寄せの実例

顧客マスタで『株式会社マネハブ』『(株)マネハブ』『マネハブ株式会社』が別レコードになっていることが多い。SUBSTITUTE で `(株)`・`株式会社` を空文字に置換 → TRIM でほぼ統一できる。さらに表記ゆれが多い場合は Power Query の クラスタリング機能 が便利。

§3.3

データ品質チェックの観点

良い分析の基盤は データ品質。納品前の検収項目として、最低限以下をチェックする習慣をつけましょう。

5 つの品質次元

完全性(Completeness): 必須項目に欠損はないか
正確性(Accuracy): 値は正しいか(範囲外・型違反)
整合性(Consistency): テーブル間で矛盾はないか(顧客 ID が請求テーブルにない等)
一意性(Uniqueness): 主キーに重複はないか
適時性(Timeliness): データは最新か(古すぎないか)

Excel での簡易チェック方法

ピボットテーブル: カテゴリの内訳と件数を一覧 → 表記ゆれ発見
条件付き書式: 範囲外の値・空白セルをハイライト
COUNTBLANK: 列ごとの空白数
COUNTIFS: 複数条件を満たす件数(例: 売上日 > 受注日など論理矛盾)

🛠 GIGO の原則

Garbage In, Garbage Out ─ 入力データが汚ければ、どんなに精度の高いモデルを作っても結果は信頼できない。実務 DS の時間配分は『データ準備 7 割・モデリング 2 割・可視化 1 割』が標準。データ準備こそ最重要工程です。

Chapter 4

第 4 章 · Excel での仮説検定とカテゴリ分析

§4.1

t 検定 ─ 2 群の平均差を判定する

t 検定 は『2 つの群の平均に差があるか』を判定する代表的な検定。Excel では分析ツールアドインまたは `T.TEST` 関数で 1 ステップ実行できます。

3 種類の t 検定

用語 ─ Excel での t 検定オプション

1 標本 t 検定: 標本平均が想定値と異なるか。例: 製品重量が 100g と異なるか

2 標本 t 検定(等分散): 2 群の母分散が等しいと仮定。Student の古典的 t 検定

2 標本 t 検定(等分散を仮定しない / Welch): 母分散が違うことを許容。実務での標準

対応のある t 検定: 同じ被験者の前後比較。投薬前後・施策前後など。誤差を相殺できるので検出力が高い

Excel 関数 T.TEST

公式 ─ T.TEST 関数

$T.TEST (範囲 1, 範囲 2, 尾の数, 検定の種類)$

- 尾の数: 1 = 片側 / 2 = 両側 - 検定の種類: 1 = 対応あり / 2 = 等分散 / 3 = Welch

返り値は p 値。 $α = 0.05$ より小さければ帰無仮説を棄却(有意差あり)。

分析ツールでの実行

データ → データ分析 から t 検定: 等分散を仮定した 2 標本検定 などを選択
範囲を指定 → α(有意水準)を指定
出力に t 統計量 / 自由度 / 片側 P / 両側 P / 棄却限界値(t 値) が並ぶ
p 値 < α なら『有意差あり』、信頼区間も併記すれば説得力増

例題 4.1 ─ A/B テスト

ボタン色 A・B でクリック数(各 30 セッション)を測定。Welch t 検定の結果 p = 0.018、A の平均 12.3 / B の平均 14.8、差の 95% 信頼区間 [0.5, 4.5]。

読み: 5% 水準で 有意差あり(p < 0.05)。B が優位、平均で +2.5 クリック / セッション。信頼区間が 0 を含まないことも棄却の根拠と一致。

p 値だけでは語れないこと

p < 0.05 でも『差は小さい』可能性: 大標本では小さな差でも有意になる。

p > 0.05 でも『差がない』とは限らない: 標本が小さくて検出力が足りない可能性。

→ 効果量(平均差そのもの・Cohen's d) と 信頼区間 を必ず併記。これが現代統計の常識(米統計学会の声明 ASA 2016)。

§4.2

カイ二乗検定 ─ クロス集計の独立性を判定する

カイ二乗(χ²)検定 は、クロス集計表で 2 つのカテゴリ変数が独立か を判定する検定。性別 × 購入 / 不購入、地域 × 政党支持などで使う。Excel でも `CHISQ.TEST` 関数で簡単に実行できます。

観測度数と期待度数

公式 ─ 期待度数と χ² 統計量

クロス表の各セルについて、行合計 × 列合計 / 全合計で 期待度数 $E_{ij}$ を計算:

$E_{ij} = \frac{( 行 i 合計 ) \times ( 列 j 合計 )}{総計}$

$χ^{2} = \sum_{i, j} \frac{( O _{ij} - E _{ij} ) ^{2}}{E _{ij}}$

自由度 $df = (行数 - 1) (列数 - 1)$ のカイ二乗分布で p 値を判定。

Excel 関数 CHISQ.TEST

公式 ─ CHISQ.TEST 関数

$CHISQ.TEST (観測範囲, 期待範囲)$

だけで p 値 を返してくれる。期待度数を別シートに作っておくのがコツ。`CHISQ.DIST.RT` で右側確率を直接出すこともできる。

適用条件と注意

期待度数 $\geq 5$ が望ましい(満たさないなら隣接カテゴリと統合 or Fisher の正確検定に切替)
観測値が独立(同じ個体を二重カウントしない)
カテゴリ変数同士の関連 を見る(連続変数なら回帰や相関へ)
有意 = 関連がある だけ。強さは別途 Cramér's V や標準化残差で評価

例題 4.2 ─ 2x2 表

150 人の調査で性別×製品 X の購入 / 不購入を集計:

| | 購入 | 不購入 | 計 | |---|---|---|---| | 男性 | 30 | 50 | 80 | | 女性 | 40 | 30 | 70 | | 計 | 70 | 80 | 150 |

期待度数(男・購入)= $80 \times 70/150 = 37.33$ 。χ² ≒ 6.79、df=1、p ≒ 0.009。

読み: p < 0.01 で性別と購入は独立とは言えない(関連あり)。女性の購入率(57%)は男性(38%)より高い。

🛠 残差分析でセルごとの寄与を見る

標準化残差 $r_{ij} = (O_{ij} - E_{ij}) / E_{ij}$ が 絶対値 2 以上 のセルが、関連の主たる『張本人』。Excel で別表に残差を計算すれば、どのセルが期待からずれているか が一目でわかる。実務報告では、χ² 全体の有意性 + 標準化残差マップをセットで提示するのが説得力高い。

§4.3

一元配置分散分析(ANOVA)─ 3 群以上の平均比較

3 群以上の平均を比較するには t 検定の繰り返し ではなく ANOVA(分散分析) を使います。Excel の分析ツール → 一元配置: 1 元配置 で実行可能。

なぜ t 検定の繰り返しが NG か

多重比較の罠

3 群を比べるのに ABC を 2 群ずつ 3 回 t 検定すると、第一種の誤りが増殖 する。各回 α=5% でも、3 回中 1 回でも誤って棄却する確率は $1 - 0.9 5^{3} \approx 14%$ 。全体の有意水準を保ったまま多群を比較 するために ANOVA が必要。さらに事後の Bonferroni / Tukey の HSD で各群ペアを比較するのが標準フロー。

ANOVA の分散分解

公式 ─ 一元配置 ANOVA

$k$ 群、各群サイズ $n_{i}$ 、群平均 $\overset{y}{ˉ}_{i}$ 、総平均 $\overset{y}{ˉ}$ :

$S_{T} = S_{A} + S_{E}$

$S_{A} = \sum_{i} n_{i} (\overset{y}{ˉ}_{i} - \overset{y}{ˉ})^{2}$ (群間平方和)、 $S_{E} = \sum_{i, j} (y_{ij} - \overset{y}{ˉ}_{i})^{2}$ (群内平方和)

$F = \frac{S _{A} / ( k - 1 )}{S _{E} / ( N - k )}$

$F$ が大きいほど『群間の差が群内のばらつきを上回る』 → 棄却。

Excel での操作

データを 群ごとに列を分けて並べる(または 1 列 + ラベル列)
データ → データ分析 → 一元配置: 1 元配置 ANOVA
入力範囲・α を指定 → OK
出力で 観測値・分散の概要 + 分散分析表(F・p 値・F 境界) が並ぶ
p < α なら『少なくとも 1 つの群間に差がある』(どこかは別途 Tukey 等で)

事後検定 ─ どの群に差があるか

Bonferroni 補正: ペアごと t 検定の α を比較数 $m$ で割る( $α / m$ )。最も保守的
Tukey の HSD: 全ペア比較で第一種の誤り率を制御。実務で頻用
Dunnett 検定: 対照群 vs 各群の比較に特化。臨床試験で標準
Excel 標準では Bonferroni を α / 比較数 で手作業実装するのが一般的

ANOVA の前提条件

正規性: 各群の分布が概ね正規(中央極限定理で大標本なら緩い)
等分散性: 群間の分散が等しい(Welch ANOVA で緩和可能)
独立性: 観測値は独立(同じ被験者を複数群に入れない)
正規性が崩れたら → Kruskal-Wallis 検定(ノンパラメトリック)に切替

🛠 二元配置 ANOVA への発展

Excel の分析ツールには 繰り返しのある二元配置 / 繰り返しのない二元配置 もあり、2 因子の効果と 交互作用 を判定できる。マーケで『広告チャネル × 商品ジャンル』の影響を同時に測るのが典型。実務では本書 + 統計検定 2 級教科書 Ch4 で深掘り。

ここまで 4 章で DS 基礎の中核を扱いました。続く 5-10 章では 時系列・多変量・ダッシュボード・AI 連携・ケーススタディ など実務応用を加えて、一段上の Excel データ分析力を養います。

Chapter 5

第 5 章 · 時系列データを Excel で扱う

§5.1

時系列の基本と Excel の関数

時系列データ は時刻順に並んだデータ。Excel では日付列を シリアル値 として扱い、関数群で集計・変換します。

Excel の日付関数

`YEAR(date)` / `MONTH(date)` / `DAY(date)`: 年・月・日を抽出
`WEEKDAY(date)`: 曜日(1=日曜)
`EOMONTH(date, 0)`: 月末日
`EDATE(date, n)`: $n$ ヶ月後の日付
`DATEDIF(start, end, 'd')`: 日数差

前月比・前年同月比

公式 ─ 成長率

前月比: $(今月 / 前月 - 1) \times 100$

前年同月比(YoY): $(今月 / 前年同月 - 1) \times 100$

季節要因を取り除けるのが YoY の利点。Excel では 12 行ずらした計算で算出可能。

ピボットテーブルで時系列集計

ピボットテーブルの 行ラベルに日付を入れ、月別・四半期別 にグループ化(右クリック → グループ化)すると、瞬時に月次・四半期集計表が完成。BI ツールに頼らず Excel だけで時系列分析できる強力機能。

§5.2

移動平均とトレンド線

移動平均 は時系列データのノイズを平滑化する古典的手法。Excel では数式で実装するか、グラフのトレンド線機能で表示できます。

単純移動平均(SMA)

公式 ─ 移動平均

$SMA_{t} = \frac{1}{n} \sum_{i = 0}^{n - 1} Y_{t - i}$

直近 $n$ 期の単純平均。Excel では `=AVERAGE(B2:B6)` を下方向にコピー。 $n$ が大きいほど滑らかだが、変化への反応が遅れる。

指数平滑(EWMA)

公式 ─ 指数加重移動平均

$EWMA_{t} = α Y_{t} + (1 - α) EWMA_{t - 1}$

直近のデータに重みづけ。 $α = 0.2 \sim 0.3$ が標準。反応が速く・SMA より滑らか。Excel の データ分析 → 指数平滑 で実行可能。

グラフのトレンド線

散布図/折れ線グラフを選択 → グラフ要素 → トレンドライン
線形・指数・対数・累乗・多項式・移動平均 から選択
$R^{2}$ 値・式を表示 チェックで回帰式と当てはまり
予測期間を指定すれば将来予測も可能

§5.3

季節調整と FORECAST 関数

季節パターン をもつ時系列(月次小売・電力消費など)を Excel で扱う実務的手法。

季節指数法

用語 ─ 季節指数

1. 12 ヶ月中心化移動平均でトレンドを抽出 2. 観測値 / トレンドで `S × I` 比を計算 3. 各月で平均して 季節指数 $S_{t}$ を確定 4. 季節調整値 = 観測値 / 季節指数

FORECAST 関数群

`FORECAST.LINEAR(x, y_range, x_range)`: 線形回帰の予測
`FORECAST.ETS(target_date, values, dates)`: 指数平滑による予測(季節性自動検出)
`FORECAST.ETS.SEASONALITY`: 季節性の周期推定
`FORECAST.ETS.CONFINT`: 予測信頼区間
Excel 2016+ で利用可能

予測シート機能

Excel の データ → 予測シート で、選択範囲から 予測グラフ + 信頼区間 を自動生成。中身は ETS(Error-Trend-Seasonality)モデル。コードを書かずに予測 ができ、ビジネスの月次予測で実用的です。

Chapter 6

第 6 章 · 多変量データとピボット分析

§6.1

クロス集計とピボットテーブルの応用

ピボットテーブル は Excel の最強機能の 1 つ。1 章で基礎を扱いましたが、ここでは 多次元の分析 に応用します。

計算フィールドと計算アイテム

計算フィールド: ピボット内で新しい列を作る(粗利率 = 利益/売上など)
計算アイテム: カテゴリ間の演算(東日本 = 関東 + 東北)
集計方法の切替: 合計・平均・カウント・最大・最小・標本標準偏差
値フィールドの設定: 比率・累積・前期比など

ピボットグラフ

ピボットテーブルからワンクリックで 対話的グラフ を生成。スライサー(クリック式フィルタ)・タイムライン(日付範囲選択)を組合せると、軽量なダッシュボードが完成します。

§6.2

条件付き書式でパターンを発見

条件付き書式 は Excel の数値を 色で可視化 する機能。多変量データの探索的分析(EDA)で威力を発揮します。

主要な書式種類

カラースケール: 値の大小を色のグラデーションで表現(ヒートマップ風)
データバー: セル内に棒グラフを表示
アイコンセット: 信号・矢印などで状態表示
上位/下位 N: 上位 10% や下位 5 件を強調
重複値: 重複する値を強調(データクリーニング)
数式ベース: `=A1>AVG( $A$ 1: $A$ 100)` のような任意条件

相関行列のヒートマップ

Excel で簡易相関ヒートマップ

データ → データ分析 → 相関 で相関行列が出力。これに カラースケール条件付き書式 を適用すれば、Python/R を使わずとも相関ヒートマップが作れる。多変量データの探索的分析で 最初に見るべき 図の一つ。

§6.3

Power Query と Power Pivot

Power Query / Power Pivot は Excel の隠れた高機能機能。100 万行以上のデータも軽快に扱え、複数テーブルの結合(JOIN)もできる。

Power Query

データの取得と変換 メニューから起動
CSV・Web・データベース・Folder など多様なソース
前処理パイプライン をステップとして記録(再実行可能)
列の分割・結合・型変換・行のフィルタ・ピボット解除
M 言語 で複雑な変換も記述可能

Power Pivot

Power Pivot はデータモデル機能。複数テーブルを リレーションシップ で結びつけ、SQL の JOIN を Excel で実現。DAX(Data Analysis eXpressions) 言語で高度な計算が可能で、100 万行を超えるデータ も扱える。

Excel の限界を超える

Excel の標準機能では 1,048,576 行が上限。Power Pivot のデータモデルなら 数百万〜数億行 を扱え、企業データ分析の現場で実用的。Power BI にデータモデルを移行すれば、本格的な BI ダッシュボードへ進化させられます。

Chapter 7

第 7 章 · ダッシュボードと BI 連携

§7.1

Excel ダッシュボードの設計

ダッシュボード は『重要な指標を 1 画面で俯瞰』するレポート。経営会議・営業会議で頻用。

良いダッシュボードの 5 原則

目的を 1 つに絞る(『経営状況の月次レビュー』など)
KPI は 5-7 個まで ─ 多すぎると焦点がぼける
最重要指標を左上に(視線の流れに沿う)
異常を一目で(条件付き書式で赤を出す)
ドリルダウン可能(スライサー / タイムラインで深掘り)

Excel ダッシュボードの構成要素

KPI カード: 大きい数字 + 前期比 + 目標達成率
時系列グラフ: トレンドの推移
ピボットグラフ: カテゴリ別比較
ヒートマップ: 多変量の状態俯瞰
スライサー: フィルタ用ボタン
タイムライン: 期間選択

§7.2

Power BI への展開

Power BI はマイクロソフトの BI ツール。Excel の自然な発展形で、Power Query / Power Pivot がそのまま動きます。

Power BI の主要機能

データ接続: 100+ のデータソースに対応
リレーションシップ: 複数テーブルのスター・スキーマ
DAX: ピボットを超える集計関数
ビジュアル: 50+ の標準グラフ・3rd party
公開: クラウドで共有(Power BI Service)
Mobile: スマホ用ダッシュボード自動生成

他の主要 BI ツール

Tableau: 老舗・データ可視化に強い
Looker(Google): クラウド統合・LookML
Qlik Sense: データ探索特化
Domo: SaaS 完結
Metabase: オープンソース
Redash: SQL ベース・ダッシュボード

§7.3

ストーリーテリングと意思決定

ダッシュボードは 意思決定の道具。数字を並べるだけでなく、ストーリー を語る設計が重要です。

データストーリーテリングの 3 段階

現状把握(What): 何が起きているか
原因分析(Why): なぜ起きているか
行動提案(So What / Now What): 何をすべきか

色とレイアウト

色は意味を持たせる

赤 = 危険・低下、緑 = 良好・上昇、灰 = 中立 は世界共通の感覚。色覚多様性に配慮(赤緑色弱の方には Viridis などのカラーパレット)。3 色以内 に絞ると視認性が上がる。装飾でなく 意味のある色 を使うのが原則。

Excel と AI の組合せ

Copilot in Excel: Excel のセル内容を ChatGPT 流に解析・要約
Power BI Q&A: 自然言語でクエリを書ける
Microsoft Fabric: Power BI と AI を統合する次世代プラットフォーム
ChatGPT + Excel: 数式やマクロの説明・生成

Chapter 8

第 8 章 · Excel × プログラミングの連携

§8.1

VBA でルーチン作業を自動化

VBA(Visual Basic for Applications) は Excel に標準搭載のマクロ言語。繰り返し作業 を 1 ボタンで自動化できます。

マクロ記録から始める

開発タブ → マクロの記録(初回は『開発タブを表示』を有効化)
通常通り Excel を操作
記録停止 → 自動生成された VBA コードを表示
コードを編集して汎用化(ループ・条件分岐の追加)
ボタンに割り当てて 1 クリック実行

VBA の基本構文

VBA で各シートにヘッダーを追加

' VBA コード(参考表示)
Sub AddHeaderToAllSheets()
    Dim ws As Worksheet
    For Each ws In ThisWorkbook.Sheets
        ws.Range("A1").Value = "集計表 " & ws.Name
        ws.Range("A1").Font.Bold = True
    Next ws
End Sub

ルーチンの 80% を VBA で

毎月の同じ集計、シートを 30 個コピー、データの形式変換 ─ これらを VBA で自動化すると 1 回の作業時間が数時間 → 数秒 に。最初の学習コストはあるが、1 ヶ月で元が取れる 投資です。

§8.2

Excel と Python の連携

Python in Excel(2023+)で、Excel のセル内に直接 Python コードが書けるようになりました。pandas・numpy・scikit-learn が標準で使えます。

Python in Excel の使い方

セルに `=PY(...)` で Python コード開始(または `Ctrl + Shift + Enter`)
Anaconda 環境 を Microsoft クラウドで実行(ローカル不要)
pandas DataFrame が結果として返る
matplotlib プロット を Excel 内に埋め込み
他の Excel セルを `xl("A1:B10")` で参照

openpyxl と xlwings(従来手法)

openpyxl: Python から Excel ファイル(.xlsx)を読み書き
xlwings: Excel と Python の双方向連携(Excel から Python 関数を呼べる)
pandas: `read_excel` / `to_excel` で 1 行で読み書き
Excel = データ入力 UI、Python = 分析エンジン という分業

§8.3

AI と Excel の最前線

2023 年以降、生成 AI と Excel の統合 が急速に進化。実務で何が可能かを整理します。

Microsoft Copilot in Excel

自然言語で式生成: 『このデータを月別に集計して』 → ピボット自動作成
データの説明: シートを選択 → 『要約して』で AI が傾向を解説
条件付き書式の生成: 『売上 100 万円超を緑に』
異常検出: 『この列で異常な値を見つけて』
チャート提案: データに合うグラフを自動推薦

ChatGPT/Claude × Excel ワークフロー

式の生成: 『XLOOKUP を使ってこんな検索式を書いて』
マクロ生成: 『この処理の VBA コードを書いて』
エラー修復: 『この #VALUE! エラーの原因を解説』
データクレンジング: 『この列の表記揺れを統一する手順』
分析提案: 『この売上データから何が見えるか』

AI 時代の DS 基礎

AI で Excel 操作が劇的に楽になる時代に、DS 基礎が問うのは『何を分析するか』『結果をどう解釈するか』 という人間ならではの判断力。ツール操作よりも統計的思考 が一段重要に。

Chapter 9

第 9 章 · 実務ケーススタディ

§9.1

売上分析と異常検知

月次売上データ から、傾向・異常・要因を読み取る実務的な分析プロセス。

売上分析の標準フロー

全体トレンド: 線形回帰で長期トレンド抽出
季節性: 月別・曜日別パターンを見る
前年同月比: 季節要因を除去した実質成長
要因分解: 商品 × 地域 × チャネル別貢献
異常検知: ±3σ から外れる月を特定
インサイト報告: 経営層への 1 ページサマリ

パレート分析

20:80 の法則

売上の 80% は商品の上位 20% から(Pareto 80:20 ルール)。Excel でパレート図(降順棒グラフ + 累積比折れ線)を作り、重点商品 を特定。新商品開発・在庫管理の優先度決めに使う。条件付き書式で上位 20 商品を赤くするだけでも有効。

§9.2

顧客分析と RFM

RFM 分析 はマーケの古典手法。顧客を Recency(最終購入)・Frequency(頻度)・Monetary(金額)で分類します。

RFM スコアリング

各顧客の R / F / M を計算(`MAX(購入日) - 今日`、`COUNT(購入)`、`SUM(金額)`)
各指標を 5 段階に分類(`PERCENTRANK` 関数で 5 分位)
RFM スコア(例: 555 = 最重要顧客、111 = 離脱顧客)を算出
ピボットテーブルで RFM 分類別の顧客数・売上を集計
マーケ施策 を分類別に設計(VIP は厚遇・離脱顧客は呼び戻し)

顧客生涯価値(LTV)

公式 ─ 簡易 LTV

$LTV = \frac{平均購入金額 \times 購入頻度 \times 粗利率}{解約率}$

顧客 1 人あたりの累積価値の概算。LTV > 顧客獲得コスト(CAC) が事業健全性の最低条件。

コホート分析

同月入会の顧客群を時系列追跡 するコホート分析は、Excel のピボットテーブル + 条件付き書式で実装可能。入会後の月別残存率 を行 = 入会月、列 = 経過月で表示すると、施策効果や季節性が一目に。

§9.3

品質管理データの分析

品質管理(QC) データへの統計の応用。Excel で管理図・工程能力指数を計算します(QC 検定教科書とも繋がる内容)。

X̄-R 管理図を Excel で

群サイズ $n = 5$ の測定値を 25 群分準備
各群の 平均 $\overset{ˉ}{X}$ と 範囲 $R$ を計算
$\overset{ˉ}{\overset{ˉ}{X}} = A V E R A GE (\overset{ˉ}{X} 列)$ 、 $\overset{ˉ}{R} = A V E R A GE (R 列)$
UCL / LCL = $\overset{ˉ}{\overset{ˉ}{X}} \pm A_{2} \overset{ˉ}{R}$ ( $A_{2}$ は群サイズの係数表値、 $n = 5$ で $0.577$ )
折れ線グラフで描画 + 管理限界の水平線追加

工程能力指数

公式 ─ Cp と Cpk

$C_{p} = \frac{USL - LSL}{6 σ}, C_{p k} = min (\frac{USL - μ}{3 σ}, \frac{μ - LSL}{3 σ})$

Excel で `=AVERAGE(...)`・`=STDEV.S(...)`・`=MIN(...)` を組合せて計算。 $C_{p k} \geq 1.33$ で十分・ $\geq 1.67$ でシックスシグマ目標。

🛠 QC 検定との接続

DS 基礎 → QC 検定 2 級・3 級 へ進むと、これらの管理図・工程能力をより深く扱えます。本サイトの [QC 検定教科書](/certs/qc-kentei/textbook) で 10 章にわたり詳細解説。

Chapter 10

第 10 章 · DS 基礎総まとめと次のステップ

§10.1

9 章の地図と身に付いた力

DS 基礎教科書 9 章を歩いてきて、Excel データ分析の主要技能 が揃いました。

9 章の地図

Ch1: Excel 基礎 - 関数 + ピボットテーブル
Ch2: 可視化と分析 - グラフ + 回帰機能 + 統計推測
Ch3: データ準備とデータ品質
Ch4: 仮説検定とカテゴリ分析
Ch5: 時系列データを Excel で扱う
Ch6: 多変量データとピボット応用
Ch7: ダッシュボードと BI 連携
Ch8: Excel × プログラミングの連携
Ch9: 実務ケーススタディ

💡 Excel = データサイエンスの『フォーマル言語』

Python・R は強力ですが、経営層・営業・他部署への共有は Excel が共通語。DS 基礎で身に付くのは『結果を Excel で説明できる力』 ─ これは現代でも変わらない実務スキルです。

§10.2

次のステップ ─ 進路選択

DS 基礎の次は、目的に応じた専門化 が良いでしょう。

進路 A: 統計理論を深める

[統計検定 3 級](/textbook/grade-3): 推定・検定の基礎理論
[統計検定 2 級](/textbook/grade-2): 大学レベルの応用統計
準 1 級・1 級: 実務応用・数理統計

進路 B: データサイエンスの全体像

[DS 検定リテラシー](/certs/ds-literacy/textbook): 3 軸スキルと最新 ML
[プログラミング教科書](/programming): Python・R・SQL・PyTorch
Kaggle / SIGNATE: 実データで腕試し

進路 C: AI / DL 系

[G 検定](/certs/g-test/textbook): AI 全般の知識
[E 資格](/certs/e-shikaku/textbook): DL 実装エンジニア向け
[因果推論](/causal-inference): 政策・経営判断

進路 D: 専門領域

[QC 検定](/certs/qc-kentei/textbook): 製造業の品質管理
[統計調査士](/certs/survey/textbook): 公的統計・調査設計
[専門統計調査士](/certs/survey-specialist/textbook): 標本設計の理論

§10.3

学習継続のヒント

DS 基礎合格は『データ分析の入口』。実務で活かしながら学び続ける のが最も効率的です。

実務で使える小さな目標

毎月の業務データ を Excel ピボットで集計してみる
自分の家計簿 を可視化する
SNS で公開されているデータ を 1 つダウンロードして分析
Kaggle Learn の無料コースを 1 つ完走
Power BI か Tableau Public で 1 つダッシュボード作成

学習リソース

統計学会の DS 基礎公式テキスト: 試験対策の本道
公式問題集 + 過去問: 出題パターンに慣れる
[統計用語集](/glossary): 477 語(2026 年現在)
[統計図解集](/figures): 50 種類の SVG 図解
[統計計算ツール](/tools): 17 種のオンライン計算機

💡 統計の力は人生の意思決定にも

DS 基礎で学んだ統計の力は、業務だけでなく 人生の意思決定 にも使えます。健康診断結果の読み方・選挙速報の解釈・ニュースの数字の検証 ─ 統計リテラシーは現代の必修教養。本書がその礎になれば幸いです。

DS 基礎合格、おめでとうございます。データの世界の扉 を一緒に開きました。次の領域でもお会いしましょう。

目次