ひとりマーケティングのためのデータ分析

TOOLS / STATISTICAL TEST

標本の「割合」から全体の傾向を推測する、
Excelで判定する母比率の検定(z検定)。

標本比率と比較値の差が偶然の範囲か、本当の変化か——z検定で確率に問う。

2026/4/28

晴花

HARUKA

3年前の数字と今の数字。その差が偶然の範囲なのか、それとも本当に変化したのか——確率で問う。

母比率の検定とは

比較的大きな1標本を対象とした検定です。ある比較値とある標本比率との「差」が、統計的に意味のあるものなのかどうかを確認します。

H₀ / H₁
「母比率は比較値と一致している」という帰無仮説を立て、棄却できるかどうかを検証する
z検定
標本サイズが十分大きい場合、二項分布を正規分布で近似して z 検定を適用できる

具体的には次の手順で進めます。

  1. 帰無仮説と対立仮説を立てる
  2. 標本から検定統計量を求める
  3. 帰無仮説の下での結果の起きやすさ(確率)を求める
  4. 仮説を判定する

両側検定・棄却限界値・P値などのワードについては母平均の検定を参照してください。

01

タスクと元データ

OSS社から依頼の調査のひとつに、サービスの認知に関する調査'task C'があります(標本サイズ\(n\): 300)。「オフィス向けに据え置き菓子を提供するサービスの業態」が存在することがどの程度認知されているかの調査です。

taskC)ある地域の一定の条件に合うすべての会社と団体→300社を抽出し「オフィス向けに据え置き菓子を提供するサービスの業態」の認知率を調査

OSS社はおよそ3年前、同様の調査をより大規模におこなっており、そのときの認知率(標本比率)は22.0%でした。この値を「母比率はこの値と等しい」という帰無仮説の基準値(\(p_0\))とします。

taskC)過去の他社調査:認知率22.0%

下が今回の調査で集まったデータです。「区分」系列はカテゴリデータで、1が「認知している」状態、0が「認知していない」状態をあらわしています。これらについて両側、有意水準5%で統計的検定をおこないます。

元データ・母比率の検定
02

z検定

仮説を設定する

帰無仮説として「母比率は比較値と一致している」を、対立仮説としては「母比率は比較値と一致していない」を立てます(両側検定)。帰無仮説が棄却されれば、3年前と現在の認知率の差は有意なものと考えることができます。

■ 帰無仮説 $\mathrm{H}_0 : p_{\mathrm{C}} = p_0$
・・・母比率は比較値と一致している
$p_{\mathrm{C}}$ $p_0$ (差がない)
□ 対立仮説 $\mathrm{H}_1 : p_{\mathrm{C}} \neq p_0$
・・・母比率は比較値と一致していない
$p_{\mathrm{C}}$ $p_0$ (差がある)

検定統計量を求める

比率(YesかNoのような2択の割合)に関する検定は、原則的には二項分布の守備範囲です。しかしtask CのようにNが大きい場合(目安として\(np_0\)(\(= 300 \times 0.22 = 66\))と\(n(1-p_0)\)(\(= 300 \times 0.78 = 234\))がともに5以上)、標本比率\(x/n\)は正規分布で近似できます。\(p\)を帰無仮説が正しいと仮定したときの母比率\(p_0\)、\(x/n\)を\(\hat{p}\)と定義すると、平均\(p_0\)、分散\(p_0(1-p_0)/n\)の正規分布にしたがいます。これを\(z\)分布が使えるよう標準化した図の式を検定統計量とします(以下、検定統計量は一律\(T\)であらわします)。なお分母は帰無仮説の値\(p_0\)から計算できるため、母平均の検定とは異なり\(t\)分布を使う必要はありません。

$$ \Large T = \frac{ \displaystyle \hat{p} - p_0 }{ \displaystyle \sqrt{ \frac{p_0(1 - p_0)}{n} } } $$

\(T\)を求めるため、「(標本の)サイズ\(n\)」と「比較値\(p_0\)」(ここでは過去調査の認知率)をシートに用意します。

[セルE2]300 [セルE3]0.22

"認知している"状態の「標本比率\(\hat{p}\)」を求めます。カテゴリ'1'の個数をカウントし、\(n\)で割って計算します。

  • CELL E5=COUNTIF(B2:B301,1)/E2
[セルE5]=COUNTIF(B2:B301,1)/E2

\(T\)を計算します。分子と分母に分けて計算しています。

  • CELL E8=E5-E3
  • CELL E9=SQRT(E3*(1-E3)/E2)
  • CELL E10=E8/E9
[セルE8]=e5-e3 [セルE9]=sqrt(e3*(1-e3)/e2) [セルE10]=e8/e9

有意水準を入力する

「有意水準\(\alpha\)」を設定します。今回は5%の指示ですので、0.05とタイプします。

[セルE12]0.05
03

方法を選ぶ

ここから先の手続きとして、次の2つの方法があります。

  • 方法1 \(T\) と 棄却限界値 を比較する → すぐ下の手続きから
  • 方法2 \(P\) 値 と 有意水準 を比較する → P値からのアプローチ

棄却限界値からのアプローチ

【方法1】棄却限界値を求めます(右側)。片側検定の場合の値も計算していますが、task Cは両側検定なのであくまで参考です。

  • "両側"の計算式
  • CELL E15=NORM.S.INV(1-E12/2)
  • "片側"の計算式
  • CELL E16=NORM.S.INV(1-E12)
標準正規分布の z(パーセント点)の求め方
[セルE15]=norm.s.inv(1-e12/2) [セルE16]=norm.s.inv(1-e12)

棄却限界値は1.96とわかりました。\(T\)の値(6.69)は棄却域(淡い空色の線)にかかります。

両側検定の棄却限界値とT

P値からのアプローチ

【方法2】\(P\) 値(有意確率)を求めます。両側検定の\(P\) 値は片側検定の\(P\) 値を2倍して求めます。片側の\(P\) 値をまず計算し、その値を両側で参照する構造をとっています。

  • "片側"の計算式
  • CELL E16=1-NORM.S.DIST(ABS(E10), TRUE)
  • "両側"の計算式
  • CELL E15=E16*2
標準正規分布の確率の求め方
[セルE15]=e16*2 [セルE16]=1-norm.s.dist(abs(e10),true)

\(P\) 値は「両側」で0.00000000002となりました(値が小さすぎるため通常は指数表記 [2.23268E-11 など] で表示されます)。

P値 両側:0.00000000002 片側:0.00000000001
04

意味のある差なのか?

以上のとおり、方法1では \(T\) > 棄却限界値、方法2では \(P\) 値 < 有意水準\(\alpha\) となりました。標本比率\(\hat{p}\)と比較値\(p_0\)との差(16%)について、「帰無仮説の下ではめったに起きないことが起きた」——そもそもの仮説が間違っていたと考えます。よって帰無仮説を棄却し、対立仮説を採択——確率的に意味のある差であったと判断します(帰無仮説と矛盾するデータが得られたことを意味し、対立仮説が証明されたわけではありません)。

P<有意水準α→帰無仮説H0を棄却できる:「確率的に意味のある差であった」→対立仮説H1の採択

晴花