統計調査士 教科書
統計調査士は、社会調査の設計・実施と公的統計の知識を問う検定です。「データをどう取るか」「公的統計をどう読むか」 ─ 通常の統計検定が扱う「分析の中身」よりも、その **前段階・周辺領域** を扱います。本教科書では、統計法の基礎・主要な公的統計・標本抽出の方法・調査票設計など、合格に向けて押さえるべきポイントを整理します。
目次
- 第 1 章 · 統計法と公的統計日本の統計制度の基本 ─ 統計法・基幹統計・主な公的統計 ─ を整理します。
- 第 2 章 · 標本調査の設計母集団から標本をどう選ぶか。無作為抽出・層化抽出・系統抽出など、主要な抽出法を整理します。
- 第 3 章 · 調査の実施と分析調査の実際の実施面、回答率の確保、データ点検、基礎的な集計と分析。
第 1 章 · 統計法と公的統計
統計法と統計の役割
統計調査士の試験で必ず問われるのが、日本の統計制度の根幹である 統計法 に関する知識です。本節では、統計法の基本構造と、公的統計が果たす役割を整理します。
統計法とは
公的統計の作成・提供・利用について定めた日本の法律。2007 年に全面改正され、2009 年 4 月施行。「統計の体系的・効率的整備」「統計データの利用促進」などを目的とする。
統計法の改正により、それまで「行政の道具」だった統計が「社会の情報基盤」として位置付け直されました。具体的には、
- 基幹統計 の指定(国の重要統計の明確化)
- 統計委員会 の設置(統計行政の中立性確保)
- 統計データの二次利用 の促進(研究者・民間への開放)
- 秘密の保護 の強化(回答者個人の特定を厳格に防ぐ)
基幹統計と一般統計
統計法第 2 条に基づき、政策決定の基礎として特に重要な統計として総務大臣が指定したもの。報告義務・実施義務などが法律で定められている。約 50 の統計が基幹統計に指定されている。
代表的な基幹統計として、国勢統計(国勢調査)・労働力統計(労働力調査)・家計統計(家計調査)・経済構造統計(経済センサス)など。試験では「○○調査は基幹統計か?」という形で問われることがあります。
公的統計の分類
- 作成主体による分類: 国(府省庁)・地方公共団体・独立行政法人など
- 作成方法による分類: 調査統計(直接調査して作る)/ 業務統計(業務記録から派生)/ 加工統計(他の統計を組み合わせる)
- 周期による分類: 月次・四半期・年次・大規模調査(5 年や 10 年に 1 回)
統計の役割
公的統計が果たす役割は大きく 3 つに整理できます。
- 政策の根拠: 行政が政策を立てるとき、統計データに基づいて意思決定する
- 社会の現状把握: 人口・経済・労働・物価など、社会の姿を客観的に示す
- 研究・民間の活用: 学術研究・企業のマーケティング・地域分析の基礎データ
「統計は社会のインフラ」 ─ この視点を持って、各統計の意義を理解していくことが、統計調査士の核心です。
主な公的統計の概要
本節では、統計調査士で頻出する主要な公的統計を、調査周期・主な内容・公表する省庁とともに整理します。「○○調査の主な内容は?」「○○統計を扱う省庁は?」が定型的に問われます。
国勢調査・労働力調査・家計調査・消費者物価指数 ─ それぞれが社会の異なる側面を測る『検査項目』です。1 つだけ見ても全体像はわからないし、毎回違う方法で測ると経年比較ができない ─ だからこそ、決まった周期・決まった方法で測り続けることが命です。統計法が「実施機関の独立性・継続性・透明性」を厳しく求めるのは、この『検査の信頼性』を守るため。
国勢調査
作成統計: 国勢統計(基幹統計) 周期: 5 年に 1 回(西暦の末尾が 0・5 の年) 実施主体: 総務省統計局 対象: 日本国内に居住するすべての人と世帯 主な内容: 人口・世帯数・年齢・性別・職業・配偶関係・住居など
日本でもっとも基本的な統計。人口統計の出発点で、選挙区割り・地方交付税配分・社会保障の根拠に使われます。直近では 2020 年(令和 2 年)実施、次回は 2025 年。
労働力調査
作成統計: 労働力統計(基幹統計) 周期: 月次 実施主体: 総務省統計局 対象: 全国約 4 万世帯(無作為標本) 主な内容: 就業状態・完全失業率・労働時間など
「完全失業率」のニュースの源となる統計。月次で公表されるため、景気判断の重要指標として注目されます。
家計調査
作成統計: 家計統計(基幹統計) 周期: 月次 実施主体: 総務省統計局 対象: 全国約 9000 世帯 主な内容: 家計の収入・支出・貯蓄・負債
「家計の平均消費支出」の元となる統計。物価・消費動向の分析や、消費者物価指数のウエート付けに使われます。
経済センサス
作成統計: 経済構造統計(基幹統計) 周期: 5 年に 1 回(基礎調査 = 偶数年、活動調査 = 奇数年) 実施主体: 総務省・経済産業省 対象: 日本全国のすべての事業所・企業 主な内容: 事業所数・従業者数・売上高・産業構造
消費者物価指数(CPI)
作成主体: 総務省統計局 周期: 月次 主な内容: モノやサービスの価格を全国 167 市町村で月次調査し、基準年(現在は 2020 年)を 100 とした指数として公表
「物価上昇率」の根拠となる代表的指標。「総合」「生鮮食品を除く総合(コア)」「生鮮食品およびエネルギーを除く総合(コアコア)」の 3 種類が公表され、物価動向の分析で使い分けられます。
総合 CPI には生鮮食品(天候で大きく変動)やエネルギー(原油価格に左右される)が含まれるため、月ごとに数字が大きくブレます。日銀や経済の専門家が『物価の基調』を判断するときは、このノイズを除いた コア CPI(生鮮食品除く)や コアコア(さらにエネルギー除く)を見るのが定石。「天気・原油という外部要因に振り回されない、本当の物価トレンド」を見ているわけです。
GDP(国内総生産)関連統計
国民経済計算(SNA)は、内閣府が作成する基幹統計。GDP・GNI・経済成長率の元データ。複数の他統計を組み合わせる 加工統計 の代表例です。
覚えるコツ
- 周期と頻度 : 月次か年次か、5 年に 1 回か
- 実施主体 : 総務省統計局が多いが、内閣府(GDP)・厚労省(賃金)など分野で違う
- 標本 vs 全数 : 国勢調査は全数、労働力調査・家計調査は標本
- 「○○ 統計」と「○○ 調査」: 統計が「結果」、調査が「集める方法」。基幹統計に指定されるのは「統計」のほう
次節以降では、こうした統計を実際に 取る方法(標本抽出・調査設計)に踏み込んでいきます。
第 2 章 · 標本調査の設計
標本抽出の基本
「全員に聞くか、一部だけに聞くか」 ─ 統計調査の最初の選択。それぞれに長所・短所があります。本節では、全数調査と標本調査 の違い、そして 代表的な標本抽出法 4 つ を整理します。
全数調査 vs 標本調査
全数調査(census): 母集団のすべてを調べる調査。例: 国勢調査(5 年に 1 度、すべての世帯)。
標本調査(sample survey): 母集団の一部だけを抽出して調べる調査。例: 労働力調査(全国 4 万世帯)、世論調査(1000 人程度)。
- 全数調査の長所: 偏りがない・すべての小集団を把握できる
- 全数調査の短所: コスト膨大・回答負担・実施期間が長い
- 標本調査の長所: コスト・期間が小さい・速報性が高い・誤差を許容して柔軟
- 標本調査の短所: 標本誤差 が必ず発生・代表性の確保が課題
「適切に選んだ少数」のほうが「むやみに集めた大量」より精度が高くなる ─ これが統計学の興味深いところ。世論調査が 1000 人程度で全国民の傾向を推測できるのは、無作為抽出と統計理論があるからです。
「全員から平等に抽出すれば公平」は理屈としては正しいのですが、実際には『全国民のリストを集めて乱数で 1000 人選び、その全員に直接アクセスする』のはコストが法外です。そこで、層に分けて代表性を保ったり、地理的に集めたり、段階的に絞り込んだりして『精度とコストのバランスを最適化』するのが標本抽出設計の本質。各方法の長所・短所はこの『どこを優先するか』の違いです。
1. 単純無作為抽出
母集団のすべての要素が 同じ確率 で選ばれるように標本を取る方法。乱数表やコンピュータの乱数で抽出。
- 長所: もっとも理論的にきれい・偏りがない
- 短所: 母集団全体のリストが必要・地理的に散らばると調査コストが膨大
2. 層化抽出
母集団を性別・年齢・地域などの 属性で層に分け、各層から無作為に抽出する方法。各層内では単純無作為抽出を行う。
- 長所: 各層の代表性が保証される・推定精度が向上(層内分散が小さいとき特に)
- 短所: 層分け基準の設計が必要・層のサイズ情報が事前に必要
3. 系統抽出
母集団のリストを並べ、ランダムなスタート位置から 番目ごと に抽出する方法。例: 人から 人を取るなら、最初の 1〜10 番目から無作為に 1 人選び、その後 10 人おきに抽出。
- 長所: 実装が簡単・リストだけあれば実行可能
- 短所: 母集団に 周期性 があると偏る(例: 7 日周期のデータを 7 日おきに取ると曜日が固定)
4. 多段抽出
母集団を 階層構造 で捉え、上位の単位を選んでから下位の単位を選ぶ ─ という段階的な抽出。例: 全国 → 都道府県を選択 → 市町村を選択 → 世帯を選択 → 個人を選択。
- 長所: 移動コスト・調査員配置の効率化・全国調査で実用的
- 短所: 設計が複雑・分散が単純無作為抽出より大きくなりやすい
標本サイズの決め方
標本誤差は に比例します。「精度を 2 倍にしたい(誤差半分)」には標本サイズを 4 倍 にする必要がある、という の関係が成立。実務では「誤差 ±3% 以内」「信頼度 95%」のような目標から逆算して標本サイズを決めます。
代表的な世論調査 で誤差 ±3% 程度が出るのも、この から来ています。
調査票の設計
「質問文の作り方ひとつで結果が変わる」 ─ 調査の世界では常識です。本節では、信頼できる調査票を作るための原則を整理します。
質問文設計の 5 原則
避けるべき: 誘導的な表現
× 「多くの人が賛成しているこの政策について、あなたはどう思いますか?」 ○ 「この政策について、あなたはどう思いますか?」
誘導表現(リーディング・クエスチョン)は回答に偏りを生む典型的な失敗。
避けるべき: ダブルバーレル質問
× 「サービスの 品質と価格 に満足していますか?」 ○ 「サービスの品質に満足していますか?」「サービスの価格に満足していますか?」
2 つ以上の論点を 1 問で聞くと、回答者がどちらに答えているか不明になる。
避けるべき: 不明確な言葉
× 「ときどき 運動しますか?」(『ときどき』が人によって違う) ○ 「1 週間に何回 運動しますか?(回数を記入)」
数値で答えられる形に変えると比較しやすい。
選択肢が網羅的(MECE): すべての回答者がいずれかに該当できる(「その他」を入れて担保)
選択肢が排他的: 回答者が複数の選択肢に同時にあてはまらない
× 「30〜40 歳 / 40〜50 歳」(40 歳がどちらに?) ○ 「30〜39 歳 / 40〜49 歳」
質問数は最小限: 必要な情報だけ。長すぎる調査票は回答率を下げる。
敏感な質問は最後に: 年収・宗教・政治信条などのセンシティブな質問は後半へ(離脱を防ぐ)。
専門用語に注釈: 統計用語・業界用語が必要なら、簡潔な説明を併記。
回答形式の選び方
- 選択式(SA: Single Answer): 1 つだけ選ぶ。集計が容易。
- 選択式(MA: Multiple Answer): 複数選択可。「あてはまるすべて」
- 自由記述: テキストで回答。深い洞察が得られるが集計が難しい
- 評価尺度(リッカート尺度): 「5: とても満足 〜 1: とても不満」など 5 段階や 7 段階
- 数値記入: 年齢・回数など、定量データを直接得たいとき
回答誤差の種類
標本誤差: 標本調査で必ず発生する、ランダムな揺れ。標本サイズを増やすと縮む。
非標本誤差: 標本調査・全数調査どちらでも起こる誤差。 - 無回答誤差: 回答してくれない人がいることによる偏り - 回答誤差: 嘘の回答・記憶違い・社会的望ましさによる回答の歪み - 入力誤差: データ入力時のミス
非標本誤差は標本サイズを増やしても減りません。質問設計・調査員教育・データ点検によってのみ抑えられる ─ ここが標本誤差との大きな違いです。
標本誤差は『運の問題』 ─ たまたま選ばれた標本がどれだけ偏っているか。これは数学的に扱える(平均ゼロ、標準誤差が計算できる)。一方、非標本誤差は『仕組みの問題』 ─ 質問の言い回し・回収率・入力ミスによる 系統的なバイアス。これは数学では消せません。だから、いくら大きな標本(N=10万)を集めても『質問が悪い調査』は信用できない ─ サンプルサイズだけでは品質を保証できないのです。
ネット調査(Lancers アンケート、Macromill など)はコストが安く即時に大量回収できますが、『回答者がアクティブな Web ユーザーに偏る』という構造的バイアスを抱えています。高齢者・IT 弱者の声は届きにくく、政治意識・購買行動の調査では電話 / 対面調査と結果が乖離することがある。実務では『どの調査方法を選んだか』を必ず明記し、結論の対象を限定する(『ネット調査の対象集団では…』のように)のが誠実です。
事前テスト(プリテスト)の重要性
本調査の前に 少数の対象者(10〜30 人程度) に試行回答してもらう「プリテスト」が必須。「質問の意味が伝わるか」「想定どおりの回答が得られるか」「所要時間は適切か」を事前に確認することで、本調査の失敗を大幅に減らせます。
第 3 章 · 調査の実施と分析
調査の実施と回答誤差
調査票の設計が終わっても、実際の調査実施でつまずくことが多いのが社会調査の難しさ。本節では、調査方法の選び方・回答率を上げる工夫・データの点検 までを整理します。
調査方法の比較
| 方法 | 長所 | 短所 | |---|---|---| | 訪問面接 | 高い回答率・複雑な質問 OK | 高コスト・調査員バイアス | | 郵送調査 | 中程度のコスト・全国対応可 | 低い回収率(20-30% が一般的) | | 電話調査 | 速報性・中程度コスト | 在宅者バイアス・若年層届きにくい | | Web 調査 | 低コスト・速報性・大規模 | デジタル弱者がカバーされない | | オンラインパネル | 即日結果・属性絞り込み | パネル登録者バイアス |
「適した方法は調査目的による」 が大原則。年齢を問わない代表性が必要なら訪問・郵送、若年層中心なら Web、速報性重視なら電話、というように使い分けます。
回答率を上げる工夫
- 調査の意義を明示: 何のための調査か、結果がどう使われるかを冒頭で説明
- 回答負担を最小化: 質問数を絞る・短時間で答えられる設計
- 個人情報保護を保証: 「回答は統計的にしか使わない」「個人を特定しない」を明記
- 督促状を送る: 郵送調査では未回答者に 1〜2 回の督促が効果的
- インセンティブ: 図書カードや QUO カードなどの謝礼(ただし回答の質に影響することも)
標本誤差と非標本誤差(復習)
標本誤差(sampling error): 標本調査特有の、ランダムな揺れ。 を増やせば縮む。
非標本誤差(non-sampling error): 全数・標本どちらでも起こる、設計や実施に由来する誤差。 を増やしても減らない。
- 無回答誤差: 回答してくれない層の特性が回答者と異なるとき(例: 多忙な層が抜ける)
- 回答誤差: 嘘の回答(社会的に望ましい方向への歪み)、記憶誤り、思い込み
- 入力誤差: 紙からデータベースへの入力ミス、マークシートの読み取り誤差
- カバレッジ誤差: そもそも母集団のリストから漏れている人(電話帳調査で携帯のみの人が抜ける、など)
データクリーニングと点検
回答データを集めた後、そのまま分析するのは危険。必ず以下のチェックを行います。
- 論理チェック: 「年齢 200 歳」「性別が男性なのに妊娠経験あり」のような矛盾の検出
- 範囲チェック: 数値が想定範囲を超えていないか
- 欠損値の処理: 無回答が多い変数は分析から除外、もしくは補完(平均代入・多重代入)
- 外れ値の検出: 異常に大きい/小さい値は記入ミスかも
- 重複回答の削除: 同一回答者が複数回答していないか
結果の公表と倫理
公的統計では、個人を特定できる形での公表は厳禁。少数派(例: ある町の特定職業の女性 1 人だけ)が特定されないよう、セルの度数が小さいクロス集計は秘匿(セルを「-」表示)します。これを 統計的開示制御(SDC) といいます。
また、調査回答者には「結果がどこで公表されるか」を事前に明示するのが倫理的義務。これらを守ることで、回答者の信頼を維持し、次回以降の調査も成立する ─ という長期的な視点が、調査の世界では特に重要です。