ひとりマーケティングのためのデータ分析

手順解説 | Excel(エクセル)でおこなうビジネスデータの分析

平均の差に意味はある?
How-to

母平均の検定

ここでは 1 標本を対象とした検定を扱います。この検定では,ある比較値とある標本の平均との “差” が,統計的に意味のあるものなのかどうかを確認します。

具体的に,これは

  1. 帰無仮説と対立仮説を立てる
  2. 標本から検定統計量を求める
  3. 帰無仮説の下での結果の起きやすさ[確率]を求める
  4. 仮説を判定する

といった手順でおこないます。

以下,エクセルによる母平均の検定の手続きです(z 検定と t 検定)。ここでは一連の手続きを,本頁更新時点で最新の「Office365版」 Excel (ver.1810)で追っています。この手続きは,「永続ライセンス版」にいうところの Excel 2019, Excel 2016, Excel 2013 あるいは Excel 2010 でも変わりません。

タスクと元データ

翔太

1

母平均の検定について2つのタスクがあります。母集団については,ともに正規性を仮定しています。

'task A' は,リサーチサービス社の近域に本店所在地を置く会社の社長の平均年齢に関する調査,'task B' は,同じく近域で営業するラーメン店のランチセットの平均価格の調査です。

task A は100社を,task B は10店を,両者とも僕が無作為に抽出して調べました(標本のサイズ: 順に 100, 10)。

taskA)ある地域に本店所在地を置くすべての会社→100社を抽出しその社長の年齢を計算 taskB)ある地域で営業するランチセットのあるすべてのラーメン店→10店を抽出しその店舗の定番ランチの値段を記録

翔太

2

先輩の話によると,両タスクとも全数(とみなしていいような)調査の結果がすでに存在するようです。具体的にはtask Aの平均が58.2歳,task B の平均が750.0だと伝えられています。これらを比較値(μ0)とします。

ただし,どちらのtaskも母標準偏差(σ)は教えてもらえませんでした。したがって,ここでは母標準偏差を未知として話をすすめます

taskA)全数調査データ:平均年齢58.2歳 taskB)全数調査データ:平均価格750円

翔太

3

下が両タスクについて僕が集めたデータです。今回はこれらについて統計的検定をおこなうよう先輩から指示を受けています両側有意水準 5%。ワードについては後述)。以下,両タスクに関する検定のプロセスです。


元データ・母平均の検定(1標本検定)

z or t?

翔太

4

あ。その前に

下の図は,標準正規分布の曲線(赤線)と,両タスクにおいて収集した標本のサイズn にもとづく自由度n-1 で描いたt分布の曲線(青線)です。どっちのタスクも母標準偏差σ が未知ですので基本的にはt検定で問題ないと思いますが,下の図のtask Aのように自由度がある程度おおきな場合には両曲線が近似することから(自由度99の図ではz曲線とt曲線が重なっていてz曲線がわずかにしか見えません),ここではあえて標準正規分布をベースとした z 検定を選択してみたいと思います。

またtask Bについては両曲線の近似を主張するのもさすがにちょっと無理筋な気もするので,セオリーどおりt分布をベースとした t 検定をおこなうことにします。

標準正規分布曲線・t分布曲線と検定法の選択

task A

z検定

帰無仮説と対立仮説

翔太

5

では,ここからtask Aの検定の手順です。

一連の流れの上では,何よりも先んじて立てられるのが帰無仮説対立仮説です。ふつう,帰無仮説には「母集団の分布が異なることを訴えたい」とする検定の目的に鑑みて,残って欲しくない説の方を据えます。

ここでは帰無仮説として「母平均は比較値と一致している」ことを立て,対立仮説としては「母平均は比較値と一致していない」ことを立てました(両側検定)。

帰無仮説H0:μA=μ0 対立仮説H1:μA≠μ0

翔太

6

言い換えれば,帰無仮説は「僕のデータは平均をμ0 とする母集団から抽出されたものである」ことを,対立仮説は「平均をμ0 とする母集団から抽出されたものでない」ことを示しています。

翔太

7

あ!

ということは今回のケースの場合,少なくとも帰無仮説が棄却されてしまうようでは,「どこを偏ってデータをひっぱってきたんだ!」なんて,先輩に糺されてしまいかねません,ね。標本の抽出でつまづいたとなると,ウチのリサーチャーのはしくれとしてはマズいです。はたして僕の集めたデータがどうなっているのかが,とても心配になってきました。


その意味で今回は「棄却されたくない帰無仮説」という希なケースかもしれません。

μ0の分布の母集団を代表する標本をつくることができたか

検定統計量

翔太

8

ここから検定統計量を計算します。検定統計量は,後述の棄却限界値と突き合せたりP値を求めたりといった検定においての重要なポイントで不可欠な,いうなれば要となる値です。

さて,この標本が本当に平均μ0,標準偏差σ の母集団から抽出されたものだったとしたら(つまり,“帰無仮説は正しい” と仮定するならば),標本平均 は,中心極限定理より平均μ0,標準偏差σ/√n(「標準誤差」)の正規分布にしたがうことが予期できます。

転じれば,標本平均 を標準化したものつまり下式はz分布(標準正規分布)にしたがうことが明らかなので,この式を検定統計量として利用します。

あ,ええと以下,検定統計量については記号' T 'であらわすことにしたいと思います。

\[T=\frac{ \displaystyle \bar{x}-\mu_{0}}{\displaystyle \frac{\sigma}{\sqrt{n}}}\]

翔太

9

T を求めるため,必要なデータをシートに用意していきます。

まずは「(標本の)サイズn」,および「比較値μ0」(ここでは全数調査の結果)です。

[セルE2]100 [セルE3]58.2

翔太

10

「標本平均」および (母標準偏差σ がわからないので代わりに)「標本標準偏差s」を求めます※。前者はAverage関数 を,後者はStdev.p関数を利用します。


ただし,n の大きさの判断によっては不偏標準偏差(ここでは,分母が n-1 の標準偏差を指す)の方を選択すべきだろうな……と思うところではあります。n が大きくなれば 標本・不偏それぞれの標準偏差に大きな差が生じないのでここでは標本――を使っていますが,セオリー的には例外なくStdev.s関数を充てておいた方がいろんな意味で混乱を生まないかもしれません。

[セルE5]=Average(b2:b101) [セルE6]=Stdev.p(b2:b101)

翔太

11

「検定統計量T」を計算します。ここでは分子と分母に分けて計算しています。

くり返しですが,母標準偏差σ は未知ですので標本標準偏差s を用います。

[セルE9]=e5-e3 [セルE10]=e6/sqrt(e2) [セルE11]=e9/e10

有意水準

翔太

12

あらかじめ決めておいたor指定された「有意水準α」をタイプしておきます。これは帰無仮説を正しいとする状況下で,「めったに起きないことが起きた」と判断する“よりどころ”として使います。

今回,先輩から有意水準は5%にする旨指示されていますので,ここは0.05と入力しました。

[セルE13]0.05

両側検定

翔太

13

ええと有意水準を「『めったに起きないことが起きた』と判断する “よりどころ”」とひと口で片づけてしまいましたが実のところ,これには2つの考え方がありまして

翔太

14

ひとつは,標準正規分布の両裾あわせた任意の値(一般的には 5%or1%)を判断のよりどころとするもので,この場合の検定は両側検定と呼ばれます。task A でおこなう有意水準5%の両側検定の場合,有意水準は下の図の濃いグレーの部分の面積の和で示されます。また横軸の上・空色の太線部分は棄却域と呼ばれます。

両側検定は,ここでの対立仮説のように「差がある」ことに関心を寄せる場合などに用います。

両側検定の有意水準と棄却域

棄却限界値と棄却域

翔太

15

この横軸上の棄却域とその他の部分(無彩色の部分。「受容域」とも)との境界上に置かれた,2 つのオレンジ色のマーカー(確率変数z)の指す値を棄却限界値と呼びます。先に求めたTが,棄却限界値を上下(図的には,「左右」とする表現のほうがハマるかもしれません)どちらかに超えてくるようであれば棄却域に入ることがわかります(帰無仮説の棄却)。

ただし 標準正規分布は左右に対称ですから,T の絶対値(|T|)をとって右側だけで判断されることも少なくありません。

両側検定の棄却限界値

片側検定

翔太

16

参考までに,いまひとつの判断として片側検定があります。同じ有意水準5%片側検定の場合,有意水準(=濃いグレーの部分の面積)と棄却域(=空色の太線),そして棄却限界値(=オレンジ色のマーカー)は下の図のように示されます。

片側検定は,高い低いなど「方向性」に関心を寄せる場合などで用いられます。したがって対立仮説は両側検定の場合と異なり,「μA>μ0」あるいは「μA<μ0」が立てられます。片側検定の場合,帰無仮説が棄却されると結果の方向性を当然のごとく決めつけてしまうことになるので,最初から母集団の間での大小関係が明白だと確信できるような場合などをのぞいては,利用の際に慎重な判断が必要かもしれません。

片側検定の棄却域と棄却限界値(左片側検定の場合)

P値

翔太

17

それからとりわけ重要なワードとして,P値有意確率)というものがあります。

P値 とは,頁頭で据えた帰無仮説が正しいとしたときに,同じく先に求めたTの絶対値(|T|)より大きな(極端な)値が求められる確率を指して言います。言い換えれば,この標本が比較値μ0 と同じ分布の母集団から抽出されたものならば,標本平均 とμ0 との差(1.18歳 over)は,同じ調査を繰り返したとして,いったいどの程度の頻度で発生するものなのかを示します。


両側検定・片側検定それぞれのP値を正規分布曲線に重ねると,これは下のように示すことができます。淡いグレーで彩色した部分がそれであって,正規分布曲線の下,|T| の外側の領域の面積がP値となります。

両側検定のP値

片側検定のP値

めったに起きないことが起きたのか?

翔太

18

検定においては,ここまでに登場した

  • T
  • 棄却限界値
  • P値
  • 有意水準

の各値を選択的に使って,「めったに起きないことが起きた」かどうかの判断をおこないます。とりわけ

翔太

19

後ろの2者,すなわちP値有意水準の大小関係に注目すると,

  • 「この差を超える標本平均となる確率は,帰無仮説の下では 5%(調査20回中1回)に満たない」→「レア!」→「そもそもこの帰無仮説が正しいならこんな結果が出るのはおかしくない?」→「帰無仮説は誤りだ」(帰無仮説の棄却

と判断するか,

  • 「この差を超える標本平均となる確率は,帰無仮説の下で 5%(調査20回中1回)を超える」→「レアでもない」→「帰無仮説が誤りだと結論付けるには無理がある」(帰無仮説は棄却できない

と判断することになります。


以上のように,標本平均 より極端な値の出る確率が,有意水準α を超えるか超えないか を知ることが検定においてはカギとなります。この点を果たせられればよいわけですから,P値 と有意水準αのペア(以下,「方法2」)以外にも,T棄却限界値の比較においても検定は可能です(以下,「方法1」)。

何と何を照らし合わせる?[方法1]検定統計量Tと棄却限界値 [方法2]P値と有意水準

棄却限界値 or P値の計算

翔太

20

いずれの方法をとるにしろ,上の図の赤文字部分の値については,ここに至るまでいまだ求められてはいません。

方法1では棄却限界値が,方法2ではP値がそれですが,それぞれの値は,具体的には順に 有意水準α,T の各値をもとに計算していくこととなります。

棄却限界値←有意水準の値から求める P値←検定統計量Tの値から求める

棄却限界値 によるアプローチ

翔太

21

では,以上をふまえて,残る計算をしたいと思いますがええと…

まずは方法1をとった場合を示したいと思います。

選択したアプローチ:方法1

翔太

22

方法1の場合,求めるべくは棄却限界値です(ここでは右側のそれを求めています)。片側検定の場合の値も計算していますが,task A は両側検定なのであくまで参考として掲示します。


<両側の計算式>

=NORM.S.INV( 1-E13/2 )

<片側の計算式>

=NORM.S.INV( 1-E13 )

標準正規分布の z(パーセント点)と確率の求め方

姉妹サイト「BDAstyle」にて別途解説しています。詳細が必要な場合 標準正規分布の確率とパーセント点の計算 with Excel 頁を参照してください。

[セル16]=Norm.s.inv(1-e13/2) [セルE17]=Norm.s.inv(1-e13)

翔太

23

棄却限界値は1.96となりました。ということで,下の図でみるとTの値(-1.46)は棄却域(空色の太線)にかからなかったようです。

両側検定の棄却限界値とT

翔太

24

これによって「帰無仮説が誤りだと結論付けるには無理がある」こと,つまり帰無仮説が棄却できないことを示すに十分な理由ができました。したがって,この場合はさらにP値を計算しなければならない理由もありません。

ただエクセルに限らず,PC 環境ではP値を簡単に求めることができるゆえんか,個人的には1の方法がとられることを目にすることは多くないように思います。


ところでこの結果,僕的にはひとまず歓迎できるものになりました。当初の懸念が現実のものとならなくてよかったです。

|T|が1.46より極端な値に振れる確率は(具体的に何%かは言及しないけれど)5%より大きいことは確か

P値 によるアプローチ

翔太

25

他方,方法2をとった場合を示したいと思います。

選択したアプローチ:方法2

翔太

26

その前に先に触れた両側検定・片側検定それぞれのP値の図を再掲しておきたいと思います。下の図でP値は,淡いグレーの領域の面積によって表現されています。

(再掲)両側検定のP値

(再掲)片側検定のP値

翔太

27

すなわち両側検定の場合のP値は,片側検定のそれの2つ分であることがわかります。ここでもそうした考え方にしたがって,前者のP値は後者のそれを2倍して求めたいと思います。

具体的には,下図のようにいったん「片側」のP値を求めて,その値を「両側」で参照するといった構造をとっていきます。もちろんセルE20のみで片側の2倍を計算してもOKです。


片側の計算式>

=1-NORM.S.DIST( ABS(E11), TRUE )

scrollable

[セルE20]=E21*2 [セルE21]=1-Norm.s.dist(abs(e11),true)

翔太

28

P値 は「両側」で0.14となりました。ここでP値有意水準αとを図示すると,下図中段のようになります(淡いグレーの部分[重複部分あり]の面積:P値, 濃いグレーの部分の面積:有意水準α。なお下図下段「片側」の図は参考です)。

両側検定のP値と有意水準

片側検定のP値と有意水準(左片側検定の場合)

翔太

29

ということで,task A の検定では P値(14%)が 有意水準α(5%)より大きくなりました。

P値>有意水準

結局,意味のある差であったのか?

翔太

30

以上のとおり,方法1では

  • |T|<棄却限界値

となり,方法2では

  • P値>有意水準α

となりました。

いずれにしろこれでは帰無仮説は棄却できないので,「確率的に意味のある差ではない」と判断するしかありません(だからと言って帰無仮説そのままに「一致する」とは考えません。あくまで対立仮説を採択するには“証拠不足”であったことのみ示せます)。

また,帰無仮説が棄却された場合には対立仮説を採択します。

FINISHED

[方法1]|T|<棄却限界値, [方法2]P値>有意水準α →帰無仮説H0を棄却できない:「確率的に意味のある差ではない」

task B

t検定

翔太

1

ここからはtask Bの検定をおこないます。基本的にはz検定と背景は同じですので重なる説明は端折ります。


こちらも当然,まずやるべきことは帰無仮説と対立仮説を立てることです。

ということで帰無仮説としては「母平均は比較値と一致している」ことを,対立仮説としては「母平均は比較値と一致していない」ことを立てました。

帰無仮説H0:μB=μ0 対立仮説H1:μB≠μ0

翔太

2

母集団の正規性が仮定され,母標準偏差が未知であり,かつ標本のサイズn が小さなtask Bのようなケースでは,下の標本平均 に関する標準化変量が自由度 n-1 のt分布にしたがうことを利用して,これを検定統計量とします(以下,「T」)。

\[T=\frac{ \displaystyle \bar{x}-\mu_{0}}{\displaystyle \frac{s}{\sqrt{n-1}}}\]

翔太

3

T を求めるため,必要なデータをシートに用意していきます。

まずは「(標本の)サイズn」と「比較値μ0」です。

[セルE2]10 [セルE3]750

翔太

4

「標本平均 」と「標本標準偏差s」を求めます。前者はAverage関数を,後者はStdev.p関数を用います。

[セルE5]=Average(b2:b11) [セルE6]=Stdev.p(b2:b11)

翔太

5

T を計算します。ここでは分子分母に分けて計算しています。

翔太

6

有意水準α を設定します。

こちらも5%でおこなうよう指示されたケースですので,0.05 とタイプしておきます。

[セルE13]0.05

翔太

7

棄却限界値を求めます(これを「方法 1」と呼び,右側の棄却限界値を求めることにします)。片側検定の場合の値も計算していますが,task B は両側検定なのであくまで参考として掲示します。


<両側の計算式>

=T.INV.2T( E13, E2-1 )

<片側の計算式>

=T.INV( 1-E13, E2-1 )

t 分布 の t(パーセント点)と確率の求め方

姉妹サイト「BDAstyle」にて別途解説しています。詳細が必要な場合 t分布の確率とパーセント点の計算 with Excel 頁を参照してください。

[セルE16]=T.inv.2t(e13,e2-1) [セルE17]=T.inv(1-e13,e2-1)

翔太

8

棄却限界値は2.26と返ってきました。

ということは,下の図のようにTの値(-2.67)は棄却域(横軸・空色の太い線の部分)にかかるので,帰無仮説が棄却できます

両側検定の棄却限界値とT

翔太

9

さて,こちらでもtask Aと同様,棄却限界値に代わりP値で手続きを進める場合(これを「方法 2」と呼ぶことにします)についても示しておこうと思います。

P値 の計算式は以下のとおりです(T.DIST 系の関数は両側片側で固有の関数が用意されているので,ここでも別個に計算します。もっともz検定でおこなったように,両側については片側2倍でもOKです)。


<両側の計算式>

=T.DIST.2T( ABS(E11), E2-1 )

<片側の計算式>

=T.DIST.RT( ABS(E11), E2-1 )

scrollable

[セルE20]=T.dist.2t(abs(e11),e2-1) [セルE21]=T.dist.rt(abs(e11),e2-1)

翔太

10

両側 の場合,P値 は0.026となるようです(片側は参考です)。

翔太

11

ということで,P値(2.6%)は 有意水準(5%)より小さくなりました。すなわち標本平均 と比較値μ0 との差 (100.0円)については,「帰無仮説の下ではめったに起きないことが起きた」つまり,そもそもの仮説が間違っていたとみなします。

よって帰無仮説を棄却し,対立仮説を採択します。


にしても,こっちの結果は僕的にはマズイですけど。

FINISHED

[方法1]|T|>棄却限界値, [方法2]P値<有意水準α →帰無仮説H0を棄却できる:「確率的に意味のある差であった」

  • 本頁で使用したデータはすべて架空のものです。また特定の会社等に実在する人物名,および同場所で実際に観測されたデータ群などを根拠にしたものでもありません。
.

LastUpdate

2018.12.4

.
このページの先頭へ