ここでは、統計の基礎的手法である、サンプル数の取り方と統計データの階級の取り方を紹介します。
ある集団の傾向を掴む場合、その集団の数があまりに膨大な場合、すべてを調査することは効率的ではありません。そこで、サンプルをいくつか抽出して、全体の傾向を考えることがあります。
ところが、10万人の集団のサンプルが10人では、サンプルとして数が少なすぎるというのが直感的にわかるかと思います。そこで、サンプルを何人とればいいのかは、次の式から考えます。
n = N / [ (ε/μ(α))2 × {(N−1)/ρ(1−ρ)} + 1 ]
n : 必要サンプル数
μ(α) : 信頼度100−αのときの正規分布の値、信頼度が高いほど高くなる。
通常は信頼度95%の1.96か、信頼度99%の2.58を使います。
N : 調査したい母集団の大きさ
ε : 精度
ρ : 母比率(これは経験的に求めるか、最もnが大きくなる0.5を用います)
この式は、必要とする信頼度と精度によって、サンプル数が異なることを示します。精度0%を目指すならサンプル数は母集団と同じNになりますし、調査の信頼度を上げてもサンプル数は大きくなることがわかります。
例えば、10万人の町で、ある調査を実施する場合のサンプル数n を考えます。このとき、信頼度を95%とすると、μ(α)=1.96 となります。また、精度を上下3%くらいとし、ρ=0.5とします。
そうすると必要サンプル数は、次のようになります。
n = 100000 / [(0.03/1.96)2 × {(99999)/0.25)} + 1 ]
= 1056人
この式では、1056人のサンプル数であれば、上下3%の誤差範囲(この場合ρ=50%の前後)を、95%の確からしさで求めることができます。
ちなみに、同じ条件で母集団の数を変えた場合、サンプル数は次のようになります。
| 母集団 |
100人 |
1000人 |
1万人 |
10万人 |
100万人 |
1000万人 |
| サンプル数 |
92人 |
516人 |
964人 |
1056人 |
1065人 |
1067人 |
あるデータを、範囲ごとに区切って傾向を見たい場合に度数分布表を用います。そのときに、データの範囲と階級を考える必要があります。
例えば、次のようなデータがあるとします。
| 7 |
8 |
10 |
10 |
11 |
12 |
12 |
13 |
15 |
15 |
15 |
15 |
16 |
16 |
16 |
17 |
17 |
18 |
| 18 |
18 |
18 |
19 |
19 |
20 |
20 |
21 |
22 |
23 |
23 |
24 |
26 |
26 |
27 |
28 |
29 |
29 |
| 29 |
29 |
30 |
30 |
31 |
31 |
31 |
32 |
33 |
35 |
35 |
35 |
35 |
39 |
|
|
|
|
このデータを適切な範囲と階級にわけたいとします。直感的に5刻みでわけると次のようになります。
| 範囲 |
度数 |
| 5〜10 |
4 |
| 11〜15 |
8 |
| 16〜20 |
13 |
| 21〜25 |
5 |
| 26〜30 |
10 |
| 31〜35 |
9 |
| 36〜40 |
1 |
ここで、粗くしすぎると全体感がぼやけてしまい、細かすぎると度数分布にする意味がないので、適切な範囲と階級で分ける必要があります。その適切な範囲と階級を求める公式としてスタージェスの公式があります。スタージェスの公式では、次のように範囲Cと階級Kを求めます。
C = (サンプル最大値−サンプル最小値)/(1+log2(サンプル数))
K = 1 + log2(サンプル数)
スタージェスの公式を上の例にあてはめると、C=4.82、K=6.64になり、直感で分けた範囲5と階級7で問題ないことが確認できます。
|
ロジカルシンキング基本思考
論理展開パターン 演繹法
論理展開パターン 帰納法
MECE
ピラミッドストラクチャー
ピラミッドストラクチャー作成1
ピラミッドストラクチャー作成2
フレームワーク思考
仮説思考
問題解決プロセス
相関係数・回帰分析
ファクター分析
コーザリティ分析
マトリックス分析
パレート分析
感度分析
統計の基礎的手法
現象をモデルで考える
ROAツリー
売上高の分解
フレームワーク応用例
ロジカルシンキング例題1
仕事力アップに活用する
交渉の基本概念
|