目次

  1. サンプリングとは
    1. 標本調査と全数調査との違い
    2. サンプリングの目的
    3. サンプリングの重要性
  2. サンプリングの種類
    1. 無作為抽出法(確率標本抽出法)
    2. 有意抽出法
  3. 【実例】サンプリングのやり方
    1. ステップ1.母集団を把握する
    2. ステップ2.サンプルサイズを決める
    3. ステップ3.Excelを用いてサンプリングを行う
  4. 適切なサンプリングで調査を

 サンプリングとは統計調査の用語で、調べたい対象である母集団から、実際に調査を行う標本(サンプル)を抽出することをいいます。

 例えば、住民に意識調査をしたいと思ったとき、全員にアンケートをとると相当な手間がかかります。または、ある地域の健康状態を調べようとしたときに、全員を調査するのは実質的に不可能でしょう。

 そこで、母集団(調査の対象となる集団全体)を代表するような小規模のサンプルを抽出して、その人たちに調査を行うことで、母集団について推察をする方法がとられています。このように、対象となる集団の一部を調査することで全体を推定する調査方法を、標本調査といいます。サンプリングは、この標本調査で行われる工程のひとつです。

 サンプリングには、ほかにもさまざまな意味があり、例えばセールスプロモーションなどで試供品を配ることもサンプリングと呼ばれますが、本記事では統計調査におけるサンプリングについて解説します。

 全数調査とは、調べたい対象すべてを調査することです。例えば、従業員満足度調査などは全従業員が対象になることが多く、これは全数調査にあたります。そのほかにも、以下のような例があります。

  • 国勢調査
  • 空港の手荷物検査
  • 学校のクラスアンケート

 全数調査は、正確な調査をすることができるメリットがありますが、大規模な場合は相当な時間や手間がかかる点がデメリットです。

 サンプリングをする目的は、全数調査にかかる時間や手間、費用の削減です。世論調査や意識調査などの多くは、全数調査ではなく一部のサンプリングされた人を対象に調査をしています。ほかにも、以下のような場合に使用されています。

顧客満足度調査 購入者の一部にアンケートを取り、購入者全体の満足度を推定する
視聴率調査 全世帯を調査するのは不可能のため、一定数のサンプルを調査することで割り出す
品質検査 製造した商品の一部をピックアップして調査し、全体に問題が発生していないことを確認する

 適切にサンプリングを行って標本調査をすることで、全数調査をする場合に比べて、時間、手間、費用を削減できます。それによって、調査結果を早く活用したり、より高い頻度で調査を実施したりできるようになります。また、全数調査の実施が実質不可能な場合でも、サンプリングでの調査結果から全体を推定することが可能です。

 このように、標本調査は一部の結果から母集団の傾向を推定するため、サンプリングは偏りをできる限り抑え、母集団を代表するように行うことがとても重要です。

 たまに、公開されているアンケート調査で「全国の男女1,000人に聞きました!」という内容で、性年代が均等に100人ずつ割り振られているようなものがあります。ですが、実際の日本国民の性年代は均等ではなく高齢の人のほうが多いため、このような割り振りをしてしまうと、国民の縮図ではないアンケート結果となってしまいます。

 なるべく母集団と比べて偏りが生じないようにサンプリングをすることは、正しくデータを活用するために、非常に重要な工程というわけです。

 サンプリングの方法は、いくつかあります。ここでは、それぞれの方法とメリット・デメリットを紹介していきます。

 無作為抽出法は、母集団を構成している全てから、無作為に一定の確率でサンプルを抽出する方法です。簡単にいってしまえばくじ引きのようなもので、ランダムサンプリングとも呼ばれます。

①単純無作為抽出法

 単純無作為抽出法とは、どのサンプルも抽出される割合が等しい抽出方法です。全数を対象にくじ引きをして、必要な数のサンプルを全くのランダムに選びます。

 最も基本的な方法になるため、エクセルなどで抽出が容易に行える点がメリットです。一方で、デメリットには、母集団が大きい調査の場合、完全に無作為に調査対象を取り出すことが難しい点が挙げられます。

②系統抽出法

 母集団のデータ群をリスト化して通し番号をつけ、最初のサンプルをランダムに選び、それ以降のデータは一定の間隔で抽出する方法です。例えば、最初のサンプルがランダムに3番目が選ばれたとして、2番目以降のサンプルはそこから5人おきに等間隔に選ばれる、というようなやり方です。

系統抽出法
系統抽出法(筆者作成)

 はじめのサンプルが決まれば、その他のデータも自動的に確定するので、手間がかからないことがメリットに挙げられます。一方、そもそもの並び方に偏りがあったり、何らかの周期があったりする場合、標本に偏りが生じる可能性がある点がデメリットです。

 例えば、男女が交互に並んでいるような列の場合、偶数で等間隔にサンプルを抽出すると全員同じ性になってしまう、といったケースが起こります。

③層別抽出法

 母集団をいくつかの層に分割して、各層の中から必要な数の標本を抽出する方法です。年代ごとに調査対象人数を決めて行われているアンケート調査などは、この方法をとっています。

 例えば、A地域で意識調査を行う場合のサンプリングでは、A地域に住んでいる人の年代構成比にあうように、それぞれの年代のサンプル数を抽出することで、母集団である住人全員の意識をより忠実に推定できるようになります。

層別抽出法
層別抽出法(住民基本台帳による東京都の世帯と人口(町丁別・年齢別)|東京都の統計をもとに筆者作成)

 メリットは、標本の偏りを抑え、母集団の属性に近づけることができるため、推定の精度が上がる点です。性年代のような基礎的な属性情報は、国勢調査のデータなどが公開されていますので参考にできます。

 一方で、そもそもの母集団の層別構成比を明らかにする必要があり、情報がないものに関しては適用できない点がデメリットです。

④二相抽出法

 層別抽出法をしたいが、そもそも母集団の構成情報がわからないデータ群に対して行う方法です。まず母集団から無作為に抽出を行って構成情報を調べ、その情報を元に層別抽出を行います。

 例えば、大規模なイベントの参加者へのアンケートを実施する際、はじめに男女比を知るために一定の人数を抽出して比率を調べ、そのあと実際のアンケートでは、先に調べた男女比に合わせて計画した人数を対象に行います。

二相抽出法
二相抽出法(筆者作成)

 メリットは、母集団の情報がなくても層別抽出が行える点です。性年代のような基礎的な情報以外にも、例えばある商品の購入者で「初めて買った人」と「リピーター」の割合や、「自分用に購入した人」と「贈答用に購入した」人の割合などをはじめに調べることができます。

 デメリットには、二段階の抽出をすることで時間と手間がかかる、また最終的に抽出されるデータが少なくなる可能性がある点が挙げられます。

⑤クラスター抽出法(集落抽出法)

 母集団を、小さなまとまりである小集団(クラスター)にわけ、そこから抽出したいくつかのクラスターにおいて全数調査を行う方法です。

 例えば、小学生の運動能力を調べる際に、小学生一人ひとりをサンプルとして全国から無作為抽出するのは大きな手間がかかります。そこで、学校を一つのクラスター単位とし、全国の学校からランダムに何校かを選んで、その学校に通う生徒に全数調査を行う、といったやり方です。

クラスター抽出法
クラスター抽出法(筆者作成)

 メリットは、母集団が大きい場合には抽出の手間が大きく削減されることや、実際の調査も効率的に行えるようになることが多い点です。一方、標本に偏りが生じてしまう懸念があるところがデメリットに挙げられます。

 先ほどの例でいうと、クラブ活動にとても力を入れている学校が抽出された場合、本来の全国平均よりも運動能力が高い子どもが多い結果になる可能性もある、ということです。

 有意抽出法は、一定の確率ではなく「典型的」「代表的」と考えられる調査対象を主観的に選んで抽出する方法です。調査企画者・研究者がさまざまな情報をもとに、母集団を反映していると思われる標本を選びます。

 企画者の知識と経験に基づいて、まったくの主観で選ばれる場合もありますが、あらかじめ名簿とそれに基づく何らかのデータがある場合は、抽出される標本のデータの平均が母集団の平均と同じようになるよう抽出する方法もあります。

 そもそも調査には、無作為抽出が実質困難な場合があります。例えば、何らかの被害者に関する情報を得ようとした場合には、ランダムで抽出する方法はそぐわないでしょう。この場合、該当している人達を知っている可能性のある団体に連絡をして、対象者を選んでもらう、という方法を取る場合がほとんどです。

 このような、知り合いの人を紹介してもらう方法は、有意抽出法のなかでも「機縁法(スノーボールサンプリング)」と呼ばれ、定性調査などでは多く用いられています。

 メリットは、無作為抽出が困難な場合でも、標本を見つけられる点です。探索的な調査やプレ調査で、まずは数人からざっくりとした話を聞いて今後の切り口をつかみたい、といった場合には簡単に実施できるでしょう。また、収集する標本数が少ない場合には、無作為だとかえって誤差が生じやすくなるというリスクを防ぐことができます。

 一方、選ばれた標本が母集団を代表しているのか、統計的に評価ができないことがデメリットです。場合によっては、大きな偏りが生じていることもあります。

 例えば、テレビの街頭インタビューなどで紹介される「街の声」は、テレビ局のスタッフが限定された場所で答えてくれそうな人を有意抽出して意見を聞いているため、全国の意見を代表しているとはいい難いでしょう。

 サンプリングにはさまざまな方法がありますが、ここでは単純無作為抽出をエクセルを使って簡単に行う方法を紹介します。

調査したい母集団をリスト化
調査したい母集団をリスト化(筆者作成)

 まず調査対象にしたい母集団をリスト化し、エクセルに上から縦に並べます。そこに1から番号を振り、全体の数を把握します。

 統計的に必要なサンプルサイズは、公式から割り出すことができます。一方で、公式にあてはめる情報が不足している場合や、調査予算や調査実現性の兼ね合いから、実際には必ずしも統計的に正しいとされるサンプルサイズで調査するケースばかりではありません。

 少し難しくなりますが、統計的なサンプルサイズの求め方を考え方から説明していきます。サンプルサイズを決めるには、「信頼係数」と「標準誤差」を決める必要があります。

 信頼係数とは、真の値が含まれる割合のことで、簡単にいうと100回同じ調査をした際に95回は真の値だろう、とした場合は95%が信頼係数となります。調査では、95%や99%が用いられることが大半です。

 標準誤差はサンプルの平均値の標準偏差を意味します。母集団の標準偏差をσとすると、サンプルの標準誤差はσ/√nとなります。このnはサンプルサイズです。

 95%の信頼係数の場合、標準誤差に対して1.96倍することで誤差範囲となります(99%の場合は2.58倍)。よって、誤差範囲=1.96 × σ/√n のような式で表されます。

 調査において、許容できる実際の誤差範囲については、調査企画者が決めます。例えば、3%を誤差として許容するとした場合、0.03を誤差範囲にして式に代入してサンプルサイズnを逆算していくことで求めることができます。

 しかし、前述のとおり、実際には母集団の標準偏差などは不明であるケースも多いものです。そういった場合は、過去に行われた信頼できる調査をいくつか参考にしてサンプルサイズを決めます。

 研究調査なら類似論文などを複数調べる、アンケート調査であれば信頼できる団体や調査会社が行っている自主調査を参考にする、という方法もよいでしょう。

 無作為抽出のサンプリングは、Excel(エクセル)の機能で行えます。関数を使った式を挿入するやり方もありますが、ここではより簡単に行える方法を解説していきます。

手順1.エクセルの「分析ツール」アドインを追加する

 [ファイル]タブ→[オプション](下の方にあります)を選ぶと次のような画面がでてきます。

[ファイル]タブ→[オプション]を選択後の画面
[ファイル]タブ→[オプション]を選択後の画面(筆者作成)

 画面の左側の下から2番目にある[アドイン]をクリックすると、下記のような画面がでます。

[アドイン]を選択後の画面
[アドイン]を選択後の画面(筆者作成)

 下の方にある[設定]から[分析ツール]にチェックを入れてOKを押します。これで分析ツールが追加されました。

[設定]から[分析ツール]をチェック
[設定]から[分析ツール]をチェック(筆者作成)

手順2.ステップ1.でナンバリングしたエクセルシートをだす

 ここでは、仮に全国の都道府県から5県をランダムに選ぶ、という想定で説明をしていきます。リストは次のような形で、全ての都道府県を入れてください。

47の都道府県を入力
47の都道府県を入力(筆者作成)

 続いて、[データ]のタブから[データ分析]を選びます。さきほどアドインで追加した機能です。すると、下のような画面が出てきますので、[サンプリング]を選びます。

[データ]→[データ分析]を選択後の画面。[サンプリング]を選択
[データ]→[データ分析]を選択後の画面。[サンプリング]を選択(筆者作成)

 サンプリングの条件を入力する画面が現れます。ここでは、「入力範囲(I)」「データの個数」「出力先」の3箇所に入力をする必要があります。

 まずは、入力範囲(I)です。ここは先ほど作った母集団のリストの番号を振った部分を選択します。入力規則は、「$列番号$最初の行番号 : $列番号$最後の行番号」ですが、矢印のようなボタンをクリックすれば画面上でマウスを使って選択できますので簡単です。

「入力範囲(I)」を入力。矢印ボタンをクリックすればマウスで選択可能
「入力範囲(I)」を入力。矢印ボタンをクリックすればマウスで選択可能(筆者作成)

 続いて[データの個数]です。サンプルサイズを入れます。ここでは5を数字で入れていきます。

 最後に、出力先を選べば終わりです。デフォルトでは新規ワークシートとなっていますが、同じシートに出したい場合は、表示させたいセルを選びます。

 すると下記のように、五つの番号がランダムに選ばれます。それぞれの番号の横に書かれている都道府県が、選ばれた五つとなります。

五つの番号がランダムに選ばれる
五つの番号がランダムに選ばれる(筆者作成)

 この方法を使えば、調査だけでなく、ランダムに当選者を選ぶこともできます。ぜひ試してみてください。

 サンプリングは、統計調査において非常に重要です。全てのデータを集めることが難しい場合でも、適切にサンプリングされた標本調査を行うことで、母集団の傾向を推定できます。

 しかし、正しくサンプリングできていないと偏ったデータとなってしまい、母集団の傾向を正しく反映した結果を得ることができません。このような調査によって得られた結果を元に意思決定を行えば、ミスリードすることにつながりかねません。

 大規模な調査を行う際には、サンプリングは手間や時間がかかるほか、適切な方法を選ぶ知識も必要になります。この記事を参考に、適切なサンプリング方法を理解して役立てていただければ幸いです。