サーベイ研究のサンプリング方法のまとめ
はじめに
Probability SamplingとNon-probability
Samplingの違いを理解するのが目標。
個人的にはRandom
SamplingとNon-random
(Biased)Samplingと言ってくれた方がわかりやすいと思った。
基本用語
- Margin of error:標準偏差(SD)に似てる。サーベイで取ったデータは対象となる全人口(Population)ではないので、誤差が生じる。±Margin of errorと表示する。
- Population:研究対象となる単位(Unit/Element)を総合したもの。研究対象全体のこと。例えば、ある学校の生徒全体を対象にする場合は、その学校の全生徒。
- Unit of analysis:サーベイデータを取ろうとしている要素(Element)例えば研究対象がある学校の生徒なら、「生徒」がUnitになる。
- Population parameters:Populationの変数(Variables)のデータ・情報。例えば、全生徒の人種やフルタイム・パートタイム・休学中の情報などを全て集めたら、Population(全生徒)の内訳がわかる(Parameters)。
注意点
ここで大切なのは、Populationをきっちり定義すること
ある大学キャンパスの生徒をサーベイする場合、「生徒」をちゃんと定義しているか?
フルタイムの学生、パートタイムの学生、休学している学生を含むのかどうか、把握し定義しないと、サーベイ結果をその大学の生徒に適応(Generalize)することはできない。
注意点:
通常、全てのサーベイ研究対象者の情報を集めることは不可能。なので、統計計算で、サーベイでとったサンプルのデータからPopulation
parametersを推定する(Sample
statistics)。
Sampling error:もちろん、統計計算で推定したPopulation
parametersと実際の値は誤差があり、その誤差をSampling
errorと呼ぶ。
プロバビリティ・サンプリング
サンプリングは、調査対象を特定してサーベイ・研究への参加をお願いするプロセス
特別な理由がないかぎりは、プロバビリティサンプリングがベスト。
出来る限りPopulation(研究対象全部)に近い特徴をもったサンプル(実際にサーベイをお願いし、答えてもらう人達)を選ばないと、サーベイ結果を研究対象全体を反映するものと主張することはできない。
例えば、大学のすべての生徒を対象にした研究で、その大学の医学部生が全体の5%、工学部が全体の15%だとしたら、実際のサーベイ結果も、医学部生の回答が全体の5%、工学部生が全体の15%近くであるべき。
それを可能にするには「ランダム」にサンプリングする必要がある。
「ランダム」はテキトー、という意味ではなく、「ランダム化比較試験RCT」が、研究に参加する人を2グループに「ランダム」に振り分けて、サンプルの背景因子が両群で同じようにするように
サーベイでも、Populationの背景因子(Variable
Parameter)とサーベイするサンプルのVariablesが同じようになるように意図的ではなくランダムに選ぶ必要がある。
プロバビリティサンプリングの種類
- Simple(単純)ランダム・サンプリング
- Stratified(階層化)ランダム・サンプリング
- Systematic(システマティック)ランダム・サンプリング
- Cluster or Multistage(クラスター・多段階)ランダム・サンプリング
シンプル:研究対象となるUnit(例えば生徒)の全てのリストが手に入る場合。例えば学生IDからランダムに必要なサンプル数だけ対象者を抽出するなど。
階層化:サンプルのVariableをPopulationに揃えたい場合。例えば、医学部と工学部、その他を5%、15%、80%になるように100人をサーベイしたい場合、医学部生5人、工学部生15人、その他の学部から80人サーベイする。この時、それぞれの学部の誰にサーベイするかは、シンプルランダムサンプリング同様のランダムな抽出を行う。
もしくは、サーベイを取った後に、Populationの割合に応じて、「Weightingテクニック」で調整することも可能。
システマティック:Populationの数が大きい場合、毎n人目の人をサーベイする。Populationga5万人として、100人サーベイしたい場合、50000/100でリストから500人ごとにサーベイをとる。
多段階:大きな「Cluster」から初めて、徐々に小さな「Cluster」を選んでいく方法。例えば、選挙で候補者の投票前の支持率が知りたい場合、まずは「県」をランダムに10県抽出、次にその10県の市・郡からまたランダムに10か所をランダムに抽出、さらにそこから、番地をサンプリングに必要な数ランダムに抽出、といった具合。
ようするにキーワードはランダムにサンプリングをしたかどうかと思った。ランダムであれば、全ての研究対象が等しくサーベイを受けるチャンスがある。
ノン・プロバビリティ・サンプリング
ランダムにサンプリングしていない時点で、サーベイの結果は、サーベイに答えた人にしか適応できない(Generalizabilityが限定される)。研究対象全てが等しくサーベイを受けるチャンスがない=バイアスのかかった、偏ったデータをとっていることになる。
ノン・プロバビリティ・サンプリングには以下の方法がある
- Convenience sampling(Accidental)
- Purposive sampling(Judgmental)
- Quota sampling
- Snowball sampling
コンビニエンス(都合):研究対象のうち連絡できる人だけにお願いするとか。お店から出てくる人にお願いするとか、ボランティアで「Opt
in」した人だけにお願いするなど。
Purposive(あえて):研究対象の中でも、ある特定のグループの人たちから情報を得た方がよいとわかっている場合、はっきりとした理由がある場合、そのグループの人たちにサーベイをお願いするよねという話。質的研究ではよくみられるが、この本は「量的」サーベイを扱っているので注意。
Quota(割り当て式):階層化と似たようなアプローチ。ただランダムにサンプリングはしない場合はQuotaとなる。例えば、医学部生5人を医学部で出待ちしてサーベイをお願いし、工学部15人は工学部前で出待ちしてサーベイをお願いする場合。「出待ち」はAccidentalサンプリングにすぎない。
雪だるま式:研究対象をどう見つけるか難しい場合。例えば、「医学教育の専門家」をサーベイするためにPopulationを定義したとしても、システマティックに対象を見つける方法がなければ、まずは知っている専門家にサーベイをしてもらいつつほかにも専門家を紹介してもらうとよい。問題点は、知り合いの知り合いをサーベイしていくのでどうしても似たり寄ったりのグループをサーベイすることになる。質的研究ではよくやることだが、量的サーベイではここは大きな欠点になってくる。
しかし、このサーベイコース、ぺースが早すぎる。先週は締め切りが1週間に3つ。今週は4つ!
コメント
コメントを投稿