DS基礎 教科書
統計検定 データサイエンス基礎(DS基礎)は、Excel を使った実データ操作を中心に問う検定です。本教科書は **10 章構成**で、Excel の関数・ピボットテーブル・グラフ・回帰・データ品質・仮説検定(t 検定 / カイ二乗 / 分散分析)・時系列・多変量・ダッシュボードと BI・Excel × プログラミング・実務ケーススタディまで扱います。Excel をある程度触ったことのある方を想定します。
目次
- 第 1 章 · Excel とデータ操作の基礎セル・関数・テーブル機能・ピボットテーブルなど、データ分析の土台となる Excel 操作を整理します。
- 第 2 章 · 可視化と分析Excel のグラフ機能と回帰分析機能を使い、データを「見て」「予測する」段階に進みます。
- 第 3 章 · データ準備とデータ品質実務分析で 7-8 割の時間を占めるデータ整備。欠損値・外れ値・型変換・名寄せ・正規化を Excel ベースで整理。
- 第 4 章 · Excel での仮説検定とカテゴリ分析t 検定・カイ二乗検定・一元配置 ANOVA を Excel の分析ツール / 関数で実行し、結果の読み方と落とし穴を学びます。
- 第 5 章 · 時系列データを Excel で扱う売上・株価・気温など時系列データの Excel での扱い方。移動平均・トレンド・季節調整を 3 節で。
- 第 6 章 · 多変量データとピボット分析複数次元のデータを Excel で要約・分析する実務的手法。クロス集計・条件付き書式・スライサーを 3 節で。
- 第 7 章 · ダッシュボードと BI 連携Excel で意思決定に直結するダッシュボードを作る。Power BI との連携も視野に 3 節で。
- 第 8 章 · Excel × プログラミングの連携Excel と Python / R / VBA を組合せて、より強力な分析を実現する手法を 3 節で。
- 第 9 章 · 実務ケーススタディ売上分析・顧客分析・品質管理 ─ Excel での実例を 3 節で。
- 第 10 章 · DS 基礎総まとめと次のステップDS 基礎 9 章の総括、合格後の学習ロードマップを 3 節で。
第 1 章 · Excel とデータ操作の基礎
Excel の基本操作とテーブル機能
DS基礎の出題は、ほとんどが「Excel でデータを操作して答えを出す」スタイル。本節ではまず、効率的に操作するための基本 ─ セル参照のコツとテーブル機能を整理します。
絶対参照と相対参照
Excel でセルを参照する 3 つの形式:
- A1(相対参照): コピーすると参照先が動く - 1(絶対参照): コピーしても固定 - 1(複合参照): 行だけ・列だけ固定
F4 キーを押すと参照形式が切り替わる。
「ある列の値を、固定の値で割って割合を計算する」のような操作では絶対参照が必須。手で式を入力していると間違えやすいので、$ マークを押すクセをつけましょう。
テーブル機能
データ範囲を選んで「Ctrl + T」(または「挿入」→「テーブル」)で、データ範囲を テーブル化 できます。テーブル化のメリットは大きいです。
- データを追加すると数式が自動で拡張: 新しい行を足しても、SUM や AVERAGE が自動で範囲を広げる
- 列名で参照可能: A1:A100 ではなく `テーブル1[売上]` のような構造化参照が使える
- フィルタとソートが組み込み: 1 クリックで絞り込み
- 行の縞模様が自動: 視認性が上がる
頻出関数の一覧
集計系 - `SUM(範囲)` 合計 - `AVERAGE(範囲)` 平均 - `COUNT(範囲)` 数値の個数 - `COUNTA(範囲)` 空でない個数 - `MAX / MIN(範囲)` 最大・最小
条件付き集計 - `SUMIF(条件範囲, 条件, 合計範囲)` 条件付き合計 - `COUNTIF(範囲, 条件)` 条件付きカウント - `AVERAGEIF(条件範囲, 条件, 平均範囲)` 条件付き平均
統計 - `STDEV.S(範囲)` 標本標準偏差(不偏) - `STDEV.P(範囲)` 母集団標準偏差 - `VAR.S / VAR.P` 不偏分散・標本分散 - `MEDIAN(範囲)` 中央値 - `QUARTILE.INC(範囲, 番号)` 四分位数 - `CORREL(X, Y)` 相関係数
検索・参照 - `VLOOKUP / XLOOKUP` 表からの検索 - `IF / IFS` 条件分岐
DS基礎の出題ではこれらの関数の 使い分け が問われます。「不偏分散と標本分散」「STDEV.S と STDEV.P」のような違いを意識して使えるよう、繰り返し触っておきましょう。
実務でいちばん使われる関数の一つが VLOOKUP / XLOOKUP(SQL の JOIN に相当)。例: 「顧客 ID から顧客名を引いてくる」「商品コードから単価マスタを引いてくる」など。`=VLOOKUP(A2, 顧客マスタ!A:C, 3, FALSE)` で、A2 の値を顧客マスタの 1 列目で検索 → 3 列目の値を返す、という使い方が定型。新しい Excel(2021/365)では、左にも検索できる XLOOKUP が VLOOKUP の上位互換として推奨されています。
関数を使った集計
本節では、データセットに対して 集計操作 を関数で行う方法を扱います。手で書ける式は手で、難しいものはピボットテーブル(次節)へ。
条件付き集計 ─ 「〇〇な行だけの合計を出したい」
条件にマッチする行だけを対象に、合計・カウント・平均を計算する。
例: 売上テーブルで「東京の売上の合計」を求めたいとき
`=SUMIF(B:B, "東京", C:C)`
(B 列の支店名、C 列の売上)
売上テーブル(支店、売上額)で、「東京」支店の売上の合計と平均、件数を計算したい。それぞれ使う関数は?
解 : - 合計: `=SUMIF(支店列, "東京", 売上列)` - 平均: `=AVERAGEIF(支店列, "東京", 売上列)` - 件数: `=COUNTIF(支店列, "東京")`
複数条件 ─ SUMIFS / COUNTIFS / AVERAGEIFS
条件が複数になったら、語尾に S を付けた `SUMIFS` 等を使います。引数の順序が SUMIF とは逆なので注意。
`=SUMIFS(合計範囲, 条件範囲1, 条件1, 条件範囲2, 条件2, ...)`
例: 「東京 × 4 月」の売上合計
`=SUMIFS(C:C, B:B, "東京", A:A, "4月")`
比率や割合の計算
「東京支店の売上が全体に占める割合」を計算したいとき:
Excel 式では `=SUMIF(B:B,"東京",C:C) / SUM(C:C)`。表示形式を「パーセンテージ」にすれば自動で % 表示になります。
ばらつきの集計
STDEV.S と STDEV.P の使い分け は DS基礎で頻出。
- STDEV.S(範囲): 標本標準偏差(不偏)。分母 。「データが母集団からの標本」のとき。
- STDEV.P(範囲): 母集団標準偏差。分母 。「データそのものが母集団全体」のとき。
実務では「データは母集団からの標本」と考える場面が多いので、原則 STDEV.S を使います。「.P」を選ぶと結果が少しだけ小さくなります(分母が大きいぶん)。
ピボットテーブルでクロス集計
「商品別 × 月別の売上」「都道府県別 × 性別の人数」 ─ 2 つ以上の軸でデータを集計するクロス集計は、DS基礎の主役機能のひとつです。Excel ではピボットテーブルで一発。
1 行 1 レコードのフラットなデータは、概念的には『多次元のデータキューブ』を平らに展開したもの。ピボットテーブルは、そのキューブをどの軸で切るかを GUI で指定し、別の薄切り(集計)を作る道具です。BI ツール(Tableau・Looker)も内部的には同じ操作を高速にやっているだけで、根っこは Excel と同じ。
毎月の売上データを取り込んだら、まず 行=支店 / 列=商品カテゴリ / 値=売上合計 のピボットを作るのが定石。次に値を『合計』から『前月比』『前年比』に切り替え、列に時系列を加えて推移を見る ─ この 2 ステップだけで、社内会議で共有できる売上分析レポートの 7 割は完成します。
ピボットテーブルの基本手順
- データを準備: 1 行 1 レコード形式の表。列名(ヘッダ)が必須。
- 範囲を選択: データのどこかをクリック → 「挿入」→「ピボットテーブル」
- 配置場所を選択: 新しいシート(推奨)または既存のシート
- フィールドを配置: 「行」「列」「値」のボックスに列名をドラッグ
- 集計方法を選択: 値ボックスのドロップダウンで合計・平均・カウントなどを切替
「行・列・値・フィルタ」の配置
行: 月 列: 支店 値: 売上(合計)
これで「行 = 月、列 = 支店、セルにその月・その支店の売上合計」 ─ という典型的なクロス集計表ができる。
値フィールドの集計方法
値ボックスに置いたフィールドをクリックすると、集計方法を切り替えられます。
- 合計: SUMIFS と同等
- 個数: COUNT。「何件あるか」
- 平均 / 最大 / 最小 / 標準偏差 など
- 合計に対する割合: クロス集計表を「割合」表示に。「行の合計に対する割合」「列の合計に対する割合」「総計に対する割合」が選べる
「割合 % 表示」の使い分け
DS基礎では、ピボットテーブルの値表示を「○○の割合」にする操作がよく問われます。
- 行集計に対する割合: 各行の中での横方向の構成比。例: 「ある月の中で、各支店の売上が何 % か」
- 列集計に対する割合: 各列の中での縦方向の構成比。例: 「ある支店の中で、各月の売上が何 % か」
- 総計に対する割合: 全体に対する各セルの割合
フィルタとスライサー
フィルタ ボックスにフィールドを置くと、その列の特定の値だけに絞った表が作れます。スライサー(挿入 → スライサー)を使うと、ボタンクリックで絞り込みができ、よりインタラクティブな分析が可能になります。
ピボットテーブルは触れば触るほど分かる機能。サンプルデータをダウンロードして、実際に手で動かしてみるのがいちばんの学習法です。
第 2 章 · 可視化と分析
グラフの作り方と選び方
DS基礎では「目的に合ったグラフを選べるか」がよく問われます。本節では、Excel で作れる主要グラフと、それぞれの 使い分けの原則 を整理します。
Excel でのグラフ作成手順
- データ範囲を選択(ヘッダ行を含めると凡例が自動生成される)
- 「挿入」タブ → グラフの種類を選択(おすすめグラフから選んでも OK)
- グラフの要素を整える: タイトル・軸ラベル・凡例・データラベル
- 書式を整える: 色・線の太さ・フォント
目的別グラフ選びの早見表
| 見たい情報 | おすすめグラフ | |---|---| | カテゴリの大きさを比較 | 棒グラフ | | 時間に沿った変化 | 折れ線グラフ | | 全体に占める割合 | 円グラフ(項目少なめ)/ 帯グラフ | | 1 変数の分布形 | ヒストグラム | | 2 変数の関係 | 散布図 | | 群間のばらつき比較 | 箱ひげ図 | | 2 次元のクロス集計 | ヒートマップ |
ヒストグラムの作り方(2016 以降)
ヒストグラムは Excel 2016 以降、ネイティブ機能として用意されています(それ以前は階級分けを手で計算する必要があった)。
- データ列を選択
- 「挿入」→「グラフ」→「ヒストグラム」
- 横軸の階級幅(ビン幅)を必要に応じて調整(軸の書式設定)
散布図に近似曲線を入れる
DS基礎で頻出: 散布図に 近似曲線(線形近似) を入れて回帰直線を視覚的に確認する方法。
- 散布図を作成
- データ点を右クリック → 近似曲線の追加
- 「線形近似」を選択、「グラフに数式を表示」「 値をグラフに表示」をチェック
これで「」と がグラフに表示されます。回帰係数と決定係数を一目で確認できる便利機能。
やってはいけないグラフ
- 3D 効果: 立体グラフは見た目より値が読み取りにくい。原則使わない
- 0 から始まらない縦軸: 棒グラフでは特に。差を誇張するトリック
- 項目数の多い円グラフ: 5 項目を超えると比較困難。棒グラフに切り替え
- 色だけに頼る凡例: モノクロ印刷や色覚多様性を配慮し、形やパターンも併用
良いグラフの共通点は『何を伝えたいか』が一目でわかること。1 枚のグラフに『売上の月別推移 + 商品別構成 + 目標達成率』を全部詰め込むと、結局何も伝わりません。実務でも『1 グラフ 1 メッセージ』を守ると、レポートの説得力が一気に上がります。タイトルを『○○が△△だった』のような 結論の文 にすると、見る人が一瞬で要点を掴めます。
回帰分析機能を使う
Excel には 「データ分析」アドイン があり、単回帰・重回帰を GUI で実行 できます。本節では、その有効化から結果の読み方までをまとめます。
「データ分析」アドインの有効化
- 「ファイル」→「オプション」→「アドイン」
- 下部「設定」→「分析ツール」にチェック → OK
- 「データ」タブの右端に「データ分析」が表示される
単回帰の実行手順
- 「データ」→「データ分析」→「回帰分析」を選択
- 「入力 Y 範囲」: 目的変数の列(ラベル含む)
- 「入力 X 範囲」: 説明変数の列(ラベル含む)
- 「ラベル」にチェック(ヘッダ行を含めた場合)
- 「一覧の出力先」を指定して OK
出力結果の読み方
回帰分析の出力は 3 つのブロック に分かれます。
重相関 R: 相関係数の絶対値 重決定 R²: 決定係数 ─ モデルの説明力(0〜1) 補正 R²: 自由度調整済み決定係数 標準誤差: 残差のばらつき 観測数: サンプルサイズ
有意 F: F 検定の p 値。これが 未満なら「モデル全体は統計的に有意」と判定。
各係数について: 係数値・標準誤差・t 値・p 値・信頼区間 が出力される。
- p 値 < 0.05: その説明変数は有意 - 係数値: が 1 単位増えたときの の変化量
1. 有意 F を見る(全体として意味のあるモデルか) → 2. 補正 R² を見る(どれだけ説明できているか) → 3. 各係数の p 値を見る(どの変数が効いているか)。この順で見れば、初学者でも回帰結果を素早く解釈できます。注意: が高くても有意 F や個別 p 値が高ければ『偶然のフィット』の可能性。 だけで判断しないのが鉄則です。
重回帰の場合
重回帰も手順は同じ。違いは「入力 X 範囲」を 複数列 にする(隣接した列であること)。各説明変数ごとに「係数・p 値」が出力されるので、どの変数が有意かを確認できます。
実務での注意点
- 説明変数の単位: スケールが大きく違うと係数の解釈がしにくい。標準化してから回帰を考える
- 多重共線性: 説明変数同士の相関が高いと、係数が不安定になる。VIF を別途計算するか、相関係数を確認
- 残差の確認: グラフで残差プロット([データ分析]オプション)を出力 → ランダムに散らばっているか確認
Excel での統計的推測
Excel には統計的推測(信頼区間・仮説検定)のための関数が揃っています。本節では DS 基礎で頻出のものを整理します。
「先月のメールキャンペーンで売上が上がったか?」を判断するとき、キャンペーン前と後の各店舗売上を 2 列に並べて `=T.TEST(B2:B30, C2:C30, 2, 1)` を実行 → 返された p 値が 0.05 未満なら「有意な差あり」と報告書に書けます。Excel だけでこの判定ができるのが、DS 基礎が実務に直結するポイント。
信頼区間
`CONFIDENCE.NORM(α, σ, n)`: 母分散 σ² 既知の場合の信頼区間の幅(片側)。例: `=CONFIDENCE.NORM(0.05, 10, 100)` で 95% 信頼区間の半幅。
`CONFIDENCE.T(α, s, n)`: 母分散未知(不偏分散 s² を使う)の場合の信頼区間の幅(片側、t 分布版)。
信頼区間は「標本平均 ± 戻り値」で得られる。
1 標本 t 検定
「ある母集団の平均が値 と等しいか」を検定したいとき、Excel には専用関数が ない ので、以下のいずれかの方法で実行します。
- 手動計算: 検定統計量 、p 値は `=T.DIST.2T(ABS(T), n-1)` で両側
- データ分析アドイン: 「t 検定: 一対の標本による平均の検定」(2 標本対応形式)
2 標本 t 検定(2 群の平均比較)
`T.TEST(範囲1, 範囲2, 尾, 種類)`
- 尾: 1=片側、2=両側 - 種類: 1=対応あり、2=等分散の独立 2 標本、3=等分散でない独立 2 標本(Welch 検定)
例: `=T.TEST(A1:A10, B1:B10, 2, 3)` → 等分散仮定なしの両側 t 検定の p 値が返る
カイ二乗検定
`CHISQ.TEST(観測度数の範囲, 期待度数の範囲)`
適合度検定または独立性検定の p 値を返す。両者は同じ関数で実行可能 ─ 期待度数の出し方が変わるだけ。
分割表の独立性検定: 1. 観測度数表(クロス集計)を作る 2. 行計・列計から期待度数表を計算: 3. `CHISQ.TEST(観測, 期待)` で p 値
p 値の判定基準
- p 値 < 0.05: 有意水準 5% で帰無仮説を棄却
- p 値 < 0.01: 有意水準 1% で棄却(より強い証拠)
- p 値 ≥ 0.05: 棄却しない(=「H₀ が真」とは言えないが、棄却の証拠不十分)
実務での Excel 統計の限界
Excel は基本的な検定までは便利ですが、本格的な統計分析(ロジスティック回帰・時系列分析・ベイズ推論など)では Python(statsmodels, scikit-learn) や R に切り替えるのが標準的です。DS基礎では「Excel で何ができるか」を押さえ、それ以上は他ツールへ、という棲み分けが現実的。
第 3 章 · データ準備とデータ品質
欠損値と外れ値の処理
実データには 欠損(空白)・外れ値(極端な値) が必ず混在します。これらをどう扱うかで分析結果が大きく変わります。
欠損値の扱い
- そのまま削除: 欠損行を消す。簡単だが情報を失う(欠損が偏ると バイアス)
- 平均・中央値で補完: シンプル。Excel: `=IF(A2="", AVERAGE(A), A2)`
- 前後の値で補完(LOCF): 時系列データで使う
- 回帰で予測補完: 他の変数から値を予測
- 欠損自体を 1 つの情報として扱う: ダミー変数で『欠損フラグ』を立てる
欠損のメカニズムは 3 種類: MCAR(完全にランダム ─ 削除 OK)、MAR(他の変数で説明できる ─ 補完 OK)、MNAR(欠損自体が情報を持つ ─ 慎重に)。年収アンケートで『高所得者ほど未回答』なら MNAR で、削除すると平均が下振れする。
外れ値の検出
- 3σ ルール: 平均 ± 3 × 標準偏差 を超える値。正規分布前提
- 箱ひげ図ルール: Q1 - 1.5×IQR 未満 / Q3 + 1.5×IQR 超 ─ 視覚的
- Z スコア: (値 - 平均) / 標準偏差 が ±3 を超える
- ドメイン知識: 『年齢 200 歳』『売上マイナス』など物理的に異常な値
外れ値の対処
- 削除: 入力ミスや計測エラーが明らかなら
- 修正: 元データを確認して正しい値に
- ウィンザー化(Winsorize): 上下 5% を境界値で打ち切り
- 対数変換: 右に裾が長い分布(年収・株価)を正規型に近づける
- 残す: 外れ値こそが分析対象(不正検出など)
データクリーニングと型変換
手入力データには表記ゆれ・スペース混入・型不一致が頻発。Excel の関数で整える基本パターンを押さえます。
表記ゆれの統一
- TRIM: 余分な空白を削除(『東京都 』→『東京都』)
- UPPER / LOWER / PROPER: 大文字小文字統一
- SUBSTITUTE: 特定文字を置換(『株式会社→(株)』)
- ASC / JIS: 半角全角の統一
- CLEAN: 改行・タブなど印刷不能文字を削除
日付・数値の型変換
- DATEVALUE: 文字列『2024/4/1』を日付型に
- VALUE: 文字列の数字『100』を数値型に
- TEXT: 数値を書式付き文字列に(`TEXT(A1, "yyyy-mm-dd")`)
- Power Query: 列の型を一括変換するならこちら
重複の処理
- 重複の削除: データ → データツール → 重複の削除
- 条件付き書式 → 一意の値のみ強調: 重複を視覚的に確認
- COUNTIF: `=COUNTIF(A:A, A2) > 1` で重複行を検出
- UNIQUE 関数(M365): 動的に一意リストを返す
正規化(0〜1 スケーリング)と標準化
機械学習の前処理で必須。
- Min-Max 正規化: `(x - MIN) / (MAX - MIN)` → 0〜1 に揃える
- Z 標準化: `(x - AVERAGE) / STDEV` → 平均 0、標準偏差 1
顧客マスタで『株式会社マネハブ』『(株)マネハブ』『マネハブ株式会社』が別レコードになっていることが多い。SUBSTITUTE で `(株)`・`株式会社` を空文字に置換 → TRIM でほぼ統一できる。さらに表記ゆれが多い場合は Power Query の クラスタリング機能 が便利。
データ品質チェックの観点
良い分析の基盤は データ品質。納品前の検収項目として、最低限以下をチェックする習慣をつけましょう。
5 つの品質次元
- 完全性(Completeness): 必須項目に欠損はないか
- 正確性(Accuracy): 値は正しいか(範囲外・型違反)
- 整合性(Consistency): テーブル間で矛盾はないか(顧客 ID が請求テーブルにない等)
- 一意性(Uniqueness): 主キーに重複はないか
- 適時性(Timeliness): データは最新か(古すぎないか)
Excel での簡易チェック方法
- ピボットテーブル: カテゴリの内訳と件数を一覧 → 表記ゆれ発見
- 条件付き書式: 範囲外の値・空白セルをハイライト
- COUNTBLANK: 列ごとの空白数
- COUNTIFS: 複数条件を満たす件数(例: 売上日 > 受注日 など論理矛盾)
Garbage In, Garbage Out ─ 入力データが汚ければ、どんなに精度の高いモデルを作っても結果は信頼できない。実務 DS の時間配分は『データ準備 7 割・モデリング 2 割・可視化 1 割』が標準。データ準備こそ最重要工程です。
第 4 章 · Excel での仮説検定とカテゴリ分析
t 検定 ─ 2 群の平均差を判定する
t 検定 は『2 つの群の平均に差があるか』を判定する代表的な検定。Excel では分析ツールアドインまたは `T.TEST` 関数で 1 ステップ実行できます。
3 種類の t 検定
1 標本 t 検定: 標本平均が想定値と異なるか。例: 製品重量が 100g と異なるか
2 標本 t 検定(等分散): 2 群の母分散が等しいと仮定。Student の古典的 t 検定
2 標本 t 検定(等分散を仮定しない / Welch): 母分散が違うことを許容。実務での標準
対応のある t 検定: 同じ被験者の前後比較。投薬前後・施策前後など。誤差を相殺できるので検出力が高い
Excel 関数 T.TEST
- 尾の数: 1 = 片側 / 2 = 両側 - 検定の種類: 1 = 対応あり / 2 = 等分散 / 3 = Welch
返り値は p 値。 より小さければ帰無仮説を棄却(有意差あり)。
分析ツールでの実行
- データ → データ分析 から t 検定: 等分散を仮定した 2 標本検定 などを選択
- 範囲を指定 → α(有意水準)を指定
- 出力に t 統計量 / 自由度 / 片側 P / 両側 P / 棄却限界値(t 値) が並ぶ
- p 値 < α なら『有意差あり』、信頼区間も併記すれば説得力増
ボタン色 A・B でクリック数(各 30 セッション)を測定。Welch t 検定の結果 p = 0.018、A の平均 12.3 / B の平均 14.8、差の 95% 信頼区間 [0.5, 4.5]。
読み: 5% 水準で 有意差あり(p < 0.05)。B が優位、平均で +2.5 クリック / セッション。信頼区間が 0 を含まないことも棄却の根拠と一致。
p < 0.05 でも『差は小さい』可能性: 大標本では小さな差でも有意になる。
p > 0.05 でも『差がない』とは限らない: 標本が小さくて検出力が足りない可能性。
→ 効果量(平均差そのもの・Cohen's d) と 信頼区間 を必ず併記。これが現代統計の常識(米統計学会の声明 ASA 2016)。
カイ二乗検定 ─ クロス集計の独立性を判定する
カイ二乗(χ²)検定 は、クロス集計表で 2 つのカテゴリ変数が独立か を判定する検定。性別 × 購入 / 不購入、地域 × 政党支持などで使う。Excel でも `CHISQ.TEST` 関数で簡単に実行できます。
観測度数と期待度数
クロス表の各セルについて、行合計 × 列合計 / 全合計 で 期待度数 を計算:
自由度 のカイ二乗分布で p 値を判定。
Excel 関数 CHISQ.TEST
だけで p 値 を返してくれる。期待度数を別シートに作っておくのがコツ。`CHISQ.DIST.RT` で右側確率を直接出すこともできる。
適用条件と注意
- 期待度数 が望ましい(満たさないなら隣接カテゴリと統合 or Fisher の正確検定に切替)
- 観測値が独立(同じ個体を二重カウントしない)
- カテゴリ変数同士の関連 を見る(連続変数なら回帰や相関へ)
- 有意 = 関連がある だけ。強さ は別途 Cramér's V や標準化残差で評価
150 人の調査で性別×製品 X の購入 / 不購入を集計:
| | 購入 | 不購入 | 計 | |---|---|---|---| | 男性 | 30 | 50 | 80 | | 女性 | 40 | 30 | 70 | | 計 | 70 | 80 | 150 |
期待度数(男・購入)= 。χ² ≒ 6.79、df=1、p ≒ 0.009。
読み: p < 0.01 で性別と購入は独立とは言えない(関連あり)。女性の購入率(57%)は男性(38%)より高い。
標準化残差 が 絶対値 2 以上 のセルが、関連の主たる『張本人』。Excel で別表に残差を計算すれば、どのセルが期待からずれているか が一目でわかる。実務報告では、χ² 全体の有意性 + 標準化残差マップ をセットで提示するのが説得力高い。
一元配置分散分析(ANOVA)─ 3 群以上の平均比較
3 群以上の平均を比較するには t 検定の繰り返し ではなく ANOVA(分散分析) を使います。Excel の分析ツール → 一元配置: 1 元配置 で実行可能。
なぜ t 検定の繰り返しが NG か
3 群を比べるのに ABC を 2 群ずつ 3 回 t 検定すると、第一種の誤りが増殖 する。各回 α=5% でも、3 回中 1 回でも誤って棄却する確率は 。全体の有意水準を保ったまま多群を比較 するために ANOVA が必要。さらに事後の Bonferroni / Tukey の HSD で各群ペアを比較するのが標準フロー。
ANOVA の分散分解
群、各群サイズ 、群平均 、総平均 :
(群間平方和)、 (群内平方和)
が大きいほど『群間の差が群内のばらつきを上回る』 → 棄却。
Excel での操作
- データを 群ごとに列を分けて並べる(または 1 列 + ラベル列)
- データ → データ分析 → 一元配置: 1 元配置 ANOVA
- 入力範囲・α を指定 → OK
- 出力で 観測値・分散の概要 + 分散分析表(F・p 値・F 境界) が並ぶ
- p < α なら『少なくとも 1 つの群間に差がある』(どこかは別途 Tukey 等で)
事後検定 ─ どの群に差があるか
- Bonferroni 補正: ペアごと t 検定の α を比較数 で割る()。最も保守的
- Tukey の HSD: 全ペア比較で第一種の誤り率を制御。実務で頻用
- Dunnett 検定: 対照群 vs 各群の比較に特化。臨床試験で標準
- Excel 標準では Bonferroni を α / 比較数 で手作業実装するのが一般的
ANOVA の前提条件
- 正規性: 各群の分布が概ね正規(中央極限定理で大標本なら緩い)
- 等分散性: 群間の分散が等しい(Welch ANOVA で緩和可能)
- 独立性: 観測値は独立(同じ被験者を複数群に入れない)
- 正規性が崩れたら → Kruskal-Wallis 検定(ノンパラメトリック)に切替
Excel の分析ツールには 繰り返しのある二元配置 / 繰り返しのない二元配置 もあり、2 因子の効果と 交互作用 を判定できる。マーケで『広告チャネル × 商品ジャンル』の影響を同時に測るのが典型。実務では本書 + 統計検定 2 級教科書 Ch4 で深掘り。
ここまで 4 章で DS 基礎の中核を扱いました。続く 5-10 章では 時系列・多変量・ダッシュボード・AI 連携・ケーススタディ など実務応用を加えて、一段上の Excel データ分析力を養います。
第 5 章 · 時系列データを Excel で扱う
時系列の基本と Excel の関数
時系列データ は時刻順に並んだデータ。Excel では日付列を シリアル値 として扱い、関数群で集計・変換します。
Excel の日付関数
- `YEAR(date)` / `MONTH(date)` / `DAY(date)`: 年・月・日を抽出
- `WEEKDAY(date)`: 曜日(1=日曜)
- `EOMONTH(date, 0)`: 月末日
- `EDATE(date, n)`: ヶ月後の日付
- `DATEDIF(start, end, 'd')`: 日数差
前月比・前年同月比
前月比:
前年同月比(YoY):
季節要因を取り除けるのが YoY の利点。Excel では 12 行ずらした計算で算出可能。
ピボットテーブルの 行ラベルに日付を入れ、月別・四半期別 にグループ化(右クリック → グループ化)すると、瞬時に月次・四半期集計表が完成。BI ツールに頼らず Excel だけで時系列分析できる強力機能。
移動平均とトレンド線
移動平均 は時系列データのノイズを平滑化する古典的手法。Excel では数式で実装するか、グラフのトレンド線機能で表示できます。
単純移動平均(SMA)
直近 期の単純平均。Excel では `=AVERAGE(B2:B6)` を下方向にコピー。 が大きいほど滑らかだが、変化への反応が遅れる。
指数平滑(EWMA)
直近のデータに重みづけ。 が標準。反応が速く・SMA より滑らか。Excel の データ分析 → 指数平滑 で実行可能。
グラフのトレンド線
- 散布図/折れ線グラフを選択 → グラフ要素 → トレンドライン
- 線形・指数・対数・累乗・多項式・移動平均 から選択
- 値・式を表示 チェックで回帰式と当てはまり
- 予測期間を指定すれば将来予測も可能
季節調整と FORECAST 関数
季節パターン をもつ時系列(月次小売・電力消費など)を Excel で扱う実務的手法。
季節指数法
1. 12 ヶ月中心化移動平均でトレンドを抽出 2. 観測値 / トレンドで `S × I` 比を計算 3. 各月で平均して 季節指数 を確定 4. 季節調整値 = 観測値 / 季節指数
FORECAST 関数群
- `FORECAST.LINEAR(x, y_range, x_range)`: 線形回帰の予測
- `FORECAST.ETS(target_date, values, dates)`: 指数平滑による予測(季節性自動検出)
- `FORECAST.ETS.SEASONALITY`: 季節性の周期推定
- `FORECAST.ETS.CONFINT`: 予測信頼区間
- Excel 2016+ で利用可能
Excel の データ → 予測シート で、選択範囲から 予測グラフ + 信頼区間 を自動生成。中身は ETS(Error-Trend-Seasonality)モデル。コードを書かずに予測 ができ、ビジネスの月次予測で実用的です。
第 6 章 · 多変量データとピボット分析
クロス集計とピボットテーブルの応用
ピボットテーブル は Excel の最強機能の 1 つ。1 章で基礎を扱いましたが、ここでは 多次元の分析 に応用します。
計算フィールドと計算アイテム
- 計算フィールド: ピボット内で新しい列を作る(粗利率 = 利益/売上 など)
- 計算アイテム: カテゴリ間の演算(東日本 = 関東 + 東北)
- 集計方法の切替: 合計・平均・カウント・最大・最小・標本標準偏差
- 値フィールドの設定: 比率・累積・前期比など
ピボットグラフ
ピボットテーブルからワンクリックで 対話的グラフ を生成。スライサー(クリック式フィルタ)・タイムライン(日付範囲選択)を組合せると、軽量なダッシュボードが完成します。
条件付き書式でパターンを発見
条件付き書式 は Excel の数値を 色で可視化 する機能。多変量データの探索的分析(EDA)で威力を発揮します。
主要な書式種類
- カラースケール: 値の大小を色のグラデーションで表現(ヒートマップ風)
- データバー: セル内に棒グラフを表示
- アイコンセット: 信号・矢印などで状態表示
- 上位/下位 N: 上位 10% や下位 5 件を強調
- 重複値: 重複する値を強調(データクリーニング)
- 数式ベース: `=A1>AVG(1:100)` のような任意条件
相関行列のヒートマップ
データ → データ分析 → 相関 で相関行列が出力。これに カラースケール条件付き書式 を適用すれば、Python/R を使わずとも相関ヒートマップが作れる。多変量データの探索的分析で 最初に見るべき 図の一つ。
Power Query と Power Pivot
Power Query / Power Pivot は Excel の隠れた高機能機能。100 万行以上のデータも軽快に扱え、複数テーブルの結合(JOIN)もできる。
Power Query
- データの取得と変換 メニューから起動
- CSV・Web・データベース・Folder など多様なソース
- 前処理パイプライン をステップとして記録(再実行可能)
- 列の分割・結合・型変換・行のフィルタ・ピボット解除
- M 言語 で複雑な変換も記述可能
Power Pivot
Power Pivot はデータモデル機能。複数テーブルを リレーションシップ で結びつけ、SQL の JOIN を Excel で実現。DAX(Data Analysis eXpressions) 言語で高度な計算が可能で、100 万行を超えるデータ も扱える。
Excel の標準機能では 1,048,576 行が上限。Power Pivot のデータモデルなら 数百万〜数億行 を扱え、企業データ分析の現場で実用的。Power BI にデータモデルを移行すれば、本格的な BI ダッシュボードへ進化させられます。
第 7 章 · ダッシュボードと BI 連携
Excel ダッシュボードの設計
ダッシュボード は『重要な指標を 1 画面で俯瞰』するレポート。経営会議・営業会議で頻用。
良いダッシュボードの 5 原則
- 目的を 1 つに絞る(『経営状況の月次レビュー』など)
- KPI は 5-7 個まで ─ 多すぎると焦点がぼける
- 最重要指標を左上に(視線の流れに沿う)
- 異常を一目で(条件付き書式で赤を出す)
- ドリルダウン可能(スライサー / タイムラインで深掘り)
Excel ダッシュボードの構成要素
- KPI カード: 大きい数字 + 前期比 + 目標達成率
- 時系列グラフ: トレンドの推移
- ピボットグラフ: カテゴリ別比較
- ヒートマップ: 多変量の状態俯瞰
- スライサー: フィルタ用ボタン
- タイムライン: 期間選択
Power BI への展開
Power BI はマイクロソフトの BI ツール。Excel の自然な発展形で、Power Query / Power Pivot がそのまま動きます。
Power BI の主要機能
- データ接続: 100+ のデータソースに対応
- リレーションシップ: 複数テーブルのスター・スキーマ
- DAX: ピボットを超える集計関数
- ビジュアル: 50+ の標準グラフ・3rd party
- 公開: クラウドで共有(Power BI Service)
- Mobile: スマホ用ダッシュボード自動生成
他の主要 BI ツール
- Tableau: 老舗・データ可視化に強い
- Looker(Google): クラウド統合・LookML
- Qlik Sense: データ探索特化
- Domo: SaaS 完結
- Metabase: オープンソース
- Redash: SQL ベース・ダッシュボード
ストーリーテリングと意思決定
ダッシュボードは 意思決定の道具。数字を並べるだけでなく、ストーリー を語る設計が重要です。
データストーリーテリングの 3 段階
- 現状把握(What): 何が起きているか
- 原因分析(Why): なぜ起きているか
- 行動提案(So What / Now What): 何をすべきか
色とレイアウト
赤 = 危険・低下、緑 = 良好・上昇、灰 = 中立 は世界共通の感覚。色覚多様性に配慮(赤緑色弱の方には Viridis などのカラーパレット)。3 色以内 に絞ると視認性が上がる。装飾でなく 意味のある色 を使うのが原則。
Excel と AI の組合せ
- Copilot in Excel: Excel のセル内容を ChatGPT 流に解析・要約
- Power BI Q&A: 自然言語でクエリを書ける
- Microsoft Fabric: Power BI と AI を統合する次世代プラットフォーム
- ChatGPT + Excel: 数式やマクロの説明・生成
第 8 章 · Excel × プログラミングの連携
VBA でルーチン作業を自動化
VBA(Visual Basic for Applications) は Excel に標準搭載のマクロ言語。繰り返し作業 を 1 ボタンで自動化できます。
マクロ記録から始める
- 開発タブ → マクロの記録(初回は『開発タブを表示』を有効化)
- 通常通り Excel を操作
- 記録停止 → 自動生成された VBA コードを表示
- コードを編集して汎用化(ループ・条件分岐の追加)
- ボタンに割り当てて 1 クリック実行
VBA の基本構文
' VBA コード(参考表示)
Sub AddHeaderToAllSheets()
Dim ws As Worksheet
For Each ws In ThisWorkbook.Sheets
ws.Range("A1").Value = "集計表 " & ws.Name
ws.Range("A1").Font.Bold = True
Next ws
End Sub毎月の同じ集計、シートを 30 個コピー、データの形式変換 ─ これらを VBA で自動化すると 1 回の作業時間が数時間 → 数秒 に。最初の学習コストはあるが、1 ヶ月で元が取れる 投資です。
Excel と Python の連携
Python in Excel(2023+)で、Excel のセル内に直接 Python コードが書けるようになりました。pandas・numpy・scikit-learn が標準で使えます。
Python in Excel の使い方
- セルに `=PY(...)` で Python コード開始(または `Ctrl + Shift + Enter`)
- Anaconda 環境 を Microsoft クラウドで実行(ローカル不要)
- pandas DataFrame が結果として返る
- matplotlib プロット を Excel 内に埋め込み
- 他の Excel セルを `xl("A1:B10")` で参照
openpyxl と xlwings(従来手法)
- openpyxl: Python から Excel ファイル(.xlsx)を読み書き
- xlwings: Excel と Python の双方向連携(Excel から Python 関数を呼べる)
- pandas: `read_excel` / `to_excel` で 1 行で読み書き
- Excel = データ入力 UI、Python = 分析エンジン という分業
AI と Excel の最前線
2023 年以降、生成 AI と Excel の統合 が急速に進化。実務で何が可能かを整理します。
Microsoft Copilot in Excel
- 自然言語で式生成: 『このデータを月別に集計して』 → ピボット自動作成
- データの説明: シートを選択 → 『要約して』で AI が傾向を解説
- 条件付き書式の生成: 『売上 100 万円超を緑に』
- 異常検出: 『この列で異常な値を見つけて』
- チャート提案: データに合うグラフを自動推薦
ChatGPT/Claude × Excel ワークフロー
- 式の生成: 『XLOOKUP を使ってこんな検索式を書いて』
- マクロ生成: 『この処理の VBA コードを書いて』
- エラー修復: 『この #VALUE! エラーの原因を解説』
- データクレンジング: 『この列の表記揺れを統一する手順』
- 分析提案: 『この売上データから何が見えるか』
AI で Excel 操作が劇的に楽になる時代に、DS 基礎が問うのは『何を分析するか』『結果をどう解釈するか』 という人間ならではの判断力。ツール操作よりも統計的思考 が一段重要に。
第 9 章 · 実務ケーススタディ
売上分析と異常検知
月次売上データ から、傾向・異常・要因を読み取る実務的な分析プロセス。
売上分析の標準フロー
- 全体トレンド: 線形回帰で長期トレンド抽出
- 季節性: 月別・曜日別パターンを見る
- 前年同月比: 季節要因を除去した実質成長
- 要因分解: 商品 × 地域 × チャネル別貢献
- 異常検知: ±3σ から外れる月を特定
- インサイト報告: 経営層への 1 ページサマリ
パレート分析
売上の 80% は商品の上位 20% から(Pareto 80:20 ルール)。Excel でパレート図(降順棒グラフ + 累積比折れ線)を作り、重点商品 を特定。新商品開発・在庫管理の優先度決めに使う。条件付き書式で上位 20 商品を赤くするだけでも有効。
顧客分析と RFM
RFM 分析 はマーケの古典手法。顧客を Recency(最終購入)・Frequency(頻度)・Monetary(金額)で分類します。
RFM スコアリング
- 各顧客の R / F / M を計算(`MAX(購入日) - 今日`、`COUNT(購入)`、`SUM(金額)`)
- 各指標を 5 段階に分類(`PERCENTRANK` 関数で 5 分位)
- RFM スコア(例: 555 = 最重要顧客、111 = 離脱顧客)を算出
- ピボットテーブルで RFM 分類別の顧客数・売上を集計
- マーケ施策 を分類別に設計(VIP は厚遇・離脱顧客は呼び戻し)
顧客生涯価値(LTV)
顧客 1 人あたりの累積価値の概算。LTV > 顧客獲得コスト(CAC) が事業健全性の最低条件。
同月入会の顧客群を時系列追跡 するコホート分析は、Excel のピボットテーブル + 条件付き書式で実装可能。入会後の月別残存率 を行 = 入会月、列 = 経過月で表示すると、施策効果や季節性が一目に。
品質管理データの分析
品質管理(QC) データへの統計の応用。Excel で管理図・工程能力指数を計算します(QC 検定教科書とも繋がる内容)。
X̄-R 管理図を Excel で
- 群サイズ の測定値を 25 群分準備
- 各群の 平均 と 範囲 を計算
- 、
- UCL / LCL = ( は群サイズの係数表値、 で )
- 折れ線グラフで描画 + 管理限界の水平線追加
工程能力指数
Excel で `=AVERAGE(...)`・`=STDEV.S(...)`・`=MIN(...)` を組合せて計算。 で十分・ でシックスシグマ目標。
DS 基礎 → QC 検定 2 級・3 級 へ進むと、これらの管理図・工程能力をより深く扱えます。本サイトの [QC 検定教科書](/certs/qc-kentei/textbook) で 10 章にわたり詳細解説。
第 10 章 · DS 基礎総まとめと次のステップ
9 章の地図と身に付いた力
DS 基礎教科書 9 章を歩いてきて、Excel データ分析の主要技能 が揃いました。
9 章の地図
- Ch1: Excel 基礎 - 関数 + ピボットテーブル
- Ch2: 可視化と分析 - グラフ + 回帰機能 + 統計推測
- Ch3: データ準備とデータ品質
- Ch4: 仮説検定とカテゴリ分析
- Ch5: 時系列データを Excel で扱う
- Ch6: 多変量データとピボット応用
- Ch7: ダッシュボードと BI 連携
- Ch8: Excel × プログラミングの連携
- Ch9: 実務ケーススタディ
Python・R は強力ですが、経営層・営業・他部署への共有は Excel が共通語。DS 基礎で身に付くのは『結果を Excel で説明できる力』 ─ これは現代でも変わらない実務スキルです。
次のステップ ─ 進路選択
DS 基礎の次は、目的に応じた専門化 が良いでしょう。
進路 A: 統計理論を深める
- [統計検定 3 級](/textbook/grade-3): 推定・検定の基礎理論
- [統計検定 2 級](/textbook/grade-2): 大学レベルの応用統計
- 準 1 級・1 級: 実務応用・数理統計
進路 B: データサイエンスの全体像
- [DS 検定リテラシー](/certs/ds-literacy/textbook): 3 軸スキルと最新 ML
- [プログラミング教科書](/programming): Python・R・SQL・PyTorch
- Kaggle / SIGNATE: 実データで腕試し
進路 C: AI / DL 系
- [G 検定](/certs/g-test/textbook): AI 全般の知識
- [E 資格](/certs/e-shikaku/textbook): DL 実装エンジニア向け
- [因果推論](/causal-inference): 政策・経営判断
進路 D: 専門領域
- [QC 検定](/certs/qc-kentei/textbook): 製造業の品質管理
- [統計調査士](/certs/survey/textbook): 公的統計・調査設計
- [専門統計調査士](/certs/survey-specialist/textbook): 標本設計の理論
学習継続のヒント
DS 基礎合格は『データ分析の入口』。実務で活かしながら学び続ける のが最も効率的です。
実務で使える小さな目標
- 毎月の業務データ を Excel ピボットで集計してみる
- 自分の家計簿 を可視化する
- SNS で公開されているデータ を 1 つダウンロードして分析
- Kaggle Learn の無料コースを 1 つ完走
- Power BI か Tableau Public で 1 つダッシュボード作成
学習リソース
- 統計学会の DS 基礎公式テキスト: 試験対策の本道
- 公式問題集 + 過去問: 出題パターンに慣れる
- [統計用語集](/glossary): 477 語(2026 年現在)
- [統計図解集](/figures): 50 種類の SVG 図解
- [統計計算ツール](/tools): 17 種のオンライン計算機
DS 基礎で学んだ統計の力は、業務だけでなく 人生の意思決定 にも使えます。健康診断結果の読み方・選挙速報の解釈・ニュースの数字の検証 ─ 統計リテラシーは現代の必修教養。本書がその礎になれば幸いです。
DS 基礎合格、おめでとうございます。データの世界の扉 を一緒に開きました。次の領域でもお会いしましょう。