タスクと元データ
OSS社から依頼の調査のひとつに、サービスの認知に関する調査'task C'があります(標本サイズ\(n\): 300)。「オフィス向けに据え置き菓子を提供するサービスの業態」が存在することがどの程度認知されているかの調査です。
OSS社はおよそ3年前、同様の調査をより大規模におこなっており、そのときの認知率(標本比率)は22.0%でした。この値を「母比率はこの値と等しい」という帰無仮説の基準値(\(p_0\))とします。
下が今回の調査で集まったデータです。「区分」系列はカテゴリデータで、1が「認知している」状態、0が「認知していない」状態をあらわしています。これらについて両側、有意水準5%で統計的検定をおこないます。
z検定
仮説を設定する
帰無仮説として「母比率は比較値と一致している」を、対立仮説としては「母比率は比較値と一致していない」を立てます(両側検定)。帰無仮説が棄却されれば、3年前と現在の認知率の差は有意なものと考えることができます。
$p_{\mathrm{C}}$ $p_0$ (差がない)
$p_{\mathrm{C}}$ $p_0$ (差がある)
検定統計量を求める
比率(YesかNoのような2択の割合)に関する検定は、原則的には二項分布の守備範囲です。しかしtask CのようにNが大きい場合(目安として\(np_0\)(\(= 300 \times 0.22 = 66\))と\(n(1-p_0)\)(\(= 300 \times 0.78 = 234\))がともに5以上)、標本比率\(x/n\)は正規分布で近似できます。\(p\)を帰無仮説が正しいと仮定したときの母比率\(p_0\)、\(x/n\)を\(\hat{p}\)と定義すると、平均\(p_0\)、分散\(p_0(1-p_0)/n\)の正規分布にしたがいます。これを\(z\)分布が使えるよう標準化した図の式を検定統計量とします(以下、検定統計量は一律\(T\)であらわします)。なお分母は帰無仮説の値\(p_0\)から計算できるため、母平均の検定とは異なり\(t\)分布を使う必要はありません。
\(T\)を求めるため、「(標本の)サイズ\(n\)」と「比較値\(p_0\)」(ここでは過去調査の認知率)をシートに用意します。
"認知している"状態の「標本比率\(\hat{p}\)」を求めます。カテゴリ'1'の個数をカウントし、\(n\)で割って計算します。
- CELL E5=COUNTIF(B2:B301,1)/E2
\(T\)を計算します。分子と分母に分けて計算しています。
- CELL E8=E5-E3
- CELL E9=SQRT(E3*(1-E3)/E2)
- CELL E10=E8/E9
有意水準を入力する
「有意水準\(\alpha\)」を設定します。今回は5%の指示ですので、0.05とタイプします。
方法を選ぶ
ここから先の手続きとして、次の2つの方法があります。
- 方法1 \(T\) と 棄却限界値 を比較する → すぐ下の手続きから
- 方法2 \(P\) 値 と 有意水準 を比較する → P値からのアプローチ へ
棄却限界値からのアプローチ
【方法1】棄却限界値を求めます(右側)。片側検定の場合の値も計算していますが、task Cは両側検定なのであくまで参考です。
- "両側"の計算式
- CELL E15=NORM.S.INV(1-E12/2)
- "片側"の計算式
- CELL E16=NORM.S.INV(1-E12)
標準正規分布の z(パーセント点)の求め方
棄却限界値は1.96とわかりました。\(T\)の値(6.69)は棄却域(淡い空色の線)にかかります。
P値からのアプローチ
【方法2】\(P\) 値(有意確率)を求めます。両側検定の\(P\) 値は片側検定の\(P\) 値を2倍して求めます。片側の\(P\) 値をまず計算し、その値を両側で参照する構造をとっています。
- "片側"の計算式
- CELL E16=1-NORM.S.DIST(ABS(E10), TRUE)
- "両側"の計算式
- CELL E15=E16*2
標準正規分布の確率の求め方
\(P\) 値は「両側」で0.00000000002となりました(値が小さすぎるため通常は指数表記 [2.23268E-11 など] で表示されます)。
意味のある差なのか?
以上のとおり、方法1では \(T\) > 棄却限界値、方法2では \(P\) 値 < 有意水準\(\alpha\) となりました。標本比率\(\hat{p}\)と比較値\(p_0\)との差(16%)について、「帰無仮説の下ではめったに起きないことが起きた」——そもそもの仮説が間違っていたと考えます。よって帰無仮説を棄却し、対立仮説を採択——確率的に意味のある差であったと判断します(帰無仮説と矛盾するデータが得られたことを意味し、対立仮説が証明されたわけではありません)。