ひとりマーケティングのためのデータ分析

手順解説 | Excel(エクセル)でおこなうビジネスデータの分析

比率の差に意味はある?
How-to

母比率の検定

ここでは比較的おおきな 1 標本を対象とした検定を扱います。この検定では,ある比較値とある標本の比率との “差” が,統計的に意味のあるものなのかどうかを確認します。

具体的に,これは

  1. 帰無仮説と対立仮説を立てる
  2. 標本から検定統計量を求める
  3. 帰無仮説の下での結果の起きやすさ[確率]を求める
  4. 仮説を判定する

といった手順でおこないます。

以下,エクセルによる母比率の検定の手続きです(z 検定)。ここでは一連の手続きを,本頁更新時点で最新の「Office365版」 Excel (ver.1810)で追っています。この手続きは,「永続ライセンス版」にいうところの Excel 2019, Excel 2016, Excel 2013 あるいは Excel 2010 でも変わりません。

タスクと元データ

翔太

1

OSS 社から依頼の調査のひとつに,サービスの認知に関する調査'task C'があります(標本のサイズn:300)。

具体的には,OSS 社がターゲットと定義するクラスタ(企業および団体)を対象にした,「オフィス向けに据え置き菓子を提供するサービスの業態」が存在することがどの程度認知されているかの調査です。

taskC)ある地域の一定の条件に合うすべての会社と団体→300社を抽出し「オフィス向けに据え置き菓子を提供するサービスの業態」の認知率を調査

翔太

2

先輩の話によると,OSS 社はおよそ3年前,同様の調査を他社に依頼し,より大規模におこなっているようです。そのときの認知率[標本比率]は22.0%であったとのことでした。ここではこの値を 比較値(p0)として考えます。

taskC)過去の他社調査:認知率22.0%

翔太

3

下が今回の調査で集まったデータです。なお「区分」系列はカテゴリデータで,1 が「認知している」状態を,0 が「認知していない」状態をあらわしています。

僕は,これらについて統計的検定をおこなうよう先輩から指示を受けました両側有意水準 5%。ワードについては 別頁)。以下,このtaskに関して検定をおこないます。


元データ・母比率の検定

task C

z検定

仮説を設定する

翔太

4

先んじて立てておいた仮説は次のとおりです。ここでは帰無仮説として「母比率は比較値と一致している」ことを立て,対立仮説としては「母比率は比較値と一致していない」ことを立てました(両側検定)。

帰無仮説H0:pc=p0 対立仮説H1:pc≠p0

翔太

5

帰無仮説は「このデータは 認知率をp0 とする母集団から抽出されたものである」ことを,対立仮説は「認知率をp0 とする母集団から抽出されたものでない」ことを示しています。つまり帰無仮説が棄却されれば,3 年前と現在の認知率の差は有意なものと考えることができます。

検定統計量を求める

翔太

6

ここから検定統計量を計算していきます。

比率YesNo(=Yesでない)のような2つの項目から一者が選択された割合に関する検定は,原則的には文字通り二項分布の守備範囲ではあります。二項分布は 試行回数n,成功確率p を母数とする離散分布です。ここで二項分布の確率変数つまり成功回数をxとすると,x の平均は np,分散は np(1-p) によって求められます。

二項分布はうれしい?ことに,ここでのtaskのようにnがある程度大きな場合は,x を正規分布で代替して考えることができるようになります(近似する)。

これは標本比率つまりx/nについても同様で,先の式よりこのときの正規分布の母数は,平均 np/n=p,分散 (np(1-p))/n^2=p(1-p)/n となることが予見できます。したがってpを帰無仮説が正しいと仮定したときの母比率p0とし,またx/n(pハット)と定義するとき,平均 p0,分散 p0(1-p0)/n の正規分布にあって,観測されたがどれだけ突飛かを計ればよいことが分かります。

ただしこれは 母平均の検定 のときと同じように,考え方としては z(標準正規)分布が使えるよう標準化したほうがスッキリ/スマートなことから,下式のとおり標準化して,これを検定統計量として用いていきます(以下,検定統計量については一律' T 'であらわします)。

\[T=\frac{\displaystyle \hat{p}-p_{\rm 0}}{\displaystyle \sqrt{\frac{p_{\rm 0}(1-p_{\rm 0})}{n}}}\]

翔太

7

T を求めるため,必要なデータをシートに用意していきます。

まずは「(標本の)サイズn」と「比較値p0」(ここでは過去調査の認知率)です。

[セルE2]300 [セルE3]0.22

翔太

8

“認知している” 状態に関して,「標本比率」を求めます。

このケースではカテゴリ'1'の個数をカウントし,n で割って計算したいと思います。

scrollable

[セルE5]=COUNTIF(B2:B301,1)/E2

翔太

9

T を計算します。ここでは分子と分母に分けて計算しています。

[セルE8]=e5-e3 [セルE9]=sqrt(e3*(1-e3)/e2) [セルE10]=e8/e9

有意水準を入力する

翔太

10

あらかじめ決めておいたor指定された「有意水準α」を設定します。今回,先輩から有意水準は5%にする旨指示されていますので,ここは0.05とタイプしました。

[セルE12]0.05

PLEASE CHOOSE

  • 【方法1】T 棄却限界値 を比較する すぐ下の手続きから
  • 【方法2】P値 有意水準 を比較する Step 13

棄却限界値によるアプローチ

翔太

11

【方法1】棄却限界値を求めます(ここでは右側のそれを求めています)。片側検定の場合の値も計算していますが,task C は両側検定なのであくまで参考として掲示します。


<両側の計算式>

=NORM.S.INV( 1-E12/2 )

<片側の計算式>

=NORM.S.INV( 1-E12 )

標準正規分布の z(パーセント点)と確率の求め方

姉妹サイト「BDAstyle」にて別途解説しています。詳細が必要な場合 標準正規分布の確率とパーセント点の計算 with Excel 頁を参照してください。

[セルE15]=norm.s.inv(1-e12/2) [セルE16]=norm.s.inv(1-e12)

翔太

12

棄却限界値は1.96とわかりました。

ということは,下の図のようにTの値(6.69)は棄却域(淡い空色の線)にかかります。

両側検定の棄却限界値とT

P値によるアプローチ

翔太

13

【方法2】P値(有意確率)を求めます。

ここでは両側検定のP値は片側検定のP値を2倍して求めたいと思います。具体的には,下図のようにいったん「片側」のP値を求めて,その値を「両側」で参照する構造をとっています。もちろんセルE15のみで片側の2倍を計算してもOKです。


<片側の計算式>

=1-NORM.S.DIST( ABS(E10), TRUE )

scrollable

[セルE15]=e16*2 [セルE16]=1-norm.s.dist(abs(e10),true)

翔太

14

P値 は「両側」で0.00000000002となりました(なお値が小さすぎるので通常は指数表記[2.23268E-11 など]で表示されるかと思います)。

p値:0.00000000002

意味のある差なのか?

翔太

15

以上のとおり,方法1では

  • T>棄却限界値

となり,方法2では

  • P値<有意水準α

となりました。

いずれにしろ標本比率 と比較値p0 との差 (16%)については,「帰無仮説の下ではめったに起きないことが起きた」つまり,そもそもの仮説が間違っていたとみなせます。

よって帰無仮説を棄却し,対立仮説を採択“確率的に意味のある差であった” と判断します。

FINISHED

P<有意水準α→帰無仮説H0を棄却できる:「確率的に意味のある差であった」→対立仮説H1の採択

  • 本頁で使用したデータはすべて架空のものです。また特定の会社等に実在する人物名,および同場所で実際に観測されたデータ群などを根拠にしたものでもありません。
.

LastUpdate

2018.12.6

.
このページの先頭へ