ひとりマーケティングのためのデータ分析

手順解説 | Excel(エクセル)でおこなうビジネスデータの分析

分散の差に意味はある?
How-to

母分散の検定

ここでは 1 標本を対象とした検定を扱います。この検定では、ある標本の不偏分散と ある比較値との “差” が、統計的に意味のあるものなのかどうかを確認します。

具体的に、これは

  1. 帰無仮説と対立仮説を立てる
  2. 標本から検定統計量を求める
  3. 帰無仮説の下での結果の起きやすさ[確率]を求める
  4. 仮説を判定する

といった手順でおこないます。

以下、エクセルによる母分散の検定の手続きです(カイ 2 乗検定)。ここでは一連の手続きを Excel 2013 で追っています。これは Excel 2010, Excel 2016 でも変わりません。また Excel 2007 については使用する関数が異なる箇所があります。この場合には、当該箇所に併記しています。

タスクと元データ

綾子

1

ダブルタワーに入居する高級中華料理店「○○苑」の代表的なコース料理 “A” は、固有のアルゴリズムが組み込まれた “システム” によって料理を提供するタイミングを決定しています。

コース料理において各品を提供する好適なタイミング(独自のアルゴリズムにより計算)

綾子

2

この “システム” の導入の際、設備・動線・人員等設計の面からもあわせて最適化が施されました。しかし、店のアナウンスによると実際の運用にあたってはどうしても “システム” がはじき出した好適なタイミングからは 60 秒程度のずれが出てしまうようです(ただし母平均は未知と仮定)。

綾子

3

実際にデータをとってこのずれを確認したものが次の表です(無作為による抽出と仮定)。


※ データはサイドバーのボタンからご利用いただけます。

元データ・母分散の検定

綾子

4

上表から平均を求めてみると、およそ 62 秒となり店のアナウンスとは有意な差はありません。が、いかんせん、それでも他方でバラツキがあまりに大きかったりしたら、好適なタイミングを実現することを目的とする “システム” を走らせることの意義を失してしまいます。

したがってこの店では、これは 分散 900 秒2(標準偏差 30 秒)においてコントロールしているということです。

標準偏差30sでコントロール

綾子

5

ということで、今度は不偏分散をもとめてみると およそ 700 秒2(標準偏差にしておよそ 26 秒) となり、漠然とした感覚ではアナウンスに言うコントロールのもとにきちんとあるような気もします。

そこでここでは、母分散が 900 秒2 でないか(アナウンスと異なるか)検定をおこなって確認してみます

以下、このタスクに関する検定のプロセスです(両側, 有意水準 5%。ワードについては 別頁)。

[母数の検定]

χ2検定

仮説を設定する

綾子

6

では、ここから検定のプロセスです。

最初に立てておいた仮説は次のとおりです。ここでは帰無仮説として「母分散は比較値と一致している」ことを立て、対立仮説としては「母分散は比較値と一致していない」ことを立てました(両側検定)。

帰無仮説H0:σ^2=σ0^2(母分散は比較値と等しい) 対立仮説H1:σ^2≠σ0^2(母分散は比較値と異なる)

綾子

7

この帰無仮説は「このデータは 分散=900 秒2 とする母集団から抽出されたものである」ことを、対立仮説は「それとは異なる母集団から抽出されたものである」ことを言っています。つまり帰無仮説が棄却されれば、店側のアナウンスの裏付けがいくらかは弱くなることはあっても強くなることはありません。

綾子

8

また参考として、片側検定の場合は次のような仮説が考えられます。

下図の仮説 Ex.1)は「母分散が900 秒2より大きい」ことを、Ex.2)は同じく「900 秒2より小さい」ことを主張する場合の設定です。

仮説Ex.1)帰無仮説H0:σ^2=σ0^2(母分散は比較値と等しい) 対立仮説H1:σ^2>σ0^2(母分散は比較値より大きい), 仮説Ex.2)帰無仮説H0:σ^2=σ0^2(母分散は比較値と等しい) 対立仮説H1:σ^2<σ0^2(母分散は比較値より小さい)

綾子

9

では、ここより必要な入力をおこなっていきます。

まずは「比較値」(σ02:ここではアナウンスされた値→900 秒2)です。

[セルE2]900

綾子

10

つづいてサンプルサイズと自由度を入力ないし計算します。

  • [セルE4]=COUNT(B2:B32)
  • [セルE5]=E4-1

[セルE4]=COUNT(B2:B32) [セルE5]=E4-1

綾子

11

ちなみに、この自由度 30 の χ2 分布は下の図のような形状となります。

説明のみ

カイ2乗分布図(自由度30)

検定統計量を求める

綾子

12

Step 5 で触れた不偏分散を厳密にあらためて計算しなおします。

  • [ver.2010 or later]=VAR.S(B2:B32)
  • [ver.2007]=VAR(B2:B32)

[ver.2010以降]=VAR.S(B2:B32) [ver.2007]=VAR(B2:B32)

綾子

13

検定統計量(帰無仮説が正しいとしたときの χ2 値)を計算します。式は次のとおりです(以下、検定統計量についてこのページでは一律 ' T ' であらわします)。

  • n-1 … 自由度
  • s2 … 不偏分散
  • σ02 … 比較値

※ ここでの作例のようにダイレクトに偏差平方和(DEVSQ)を計算可能なシート構成を用意する場合、分子はそちらに代えても可。

検定統計量T=((n-1)*s^2)/σ0^2

綾子

14

なおここでは、T の計算にあたり上の式の分子と分母にわけて計算するものとします。

  • [分子]=E5*E7
  • [分母]=E2
  • [T]=E10/E11

[セルE10]=E5*E7, [セルE11]=E2, [セルE12]=E10/E11

綾子

15

T は 23.25 となりました。

これを先ほどの χ2 分布(df=30)のグラフにプロットすると、次のようになります。横軸青色の点が T です。

説明のみ

T=23.25

説明のみ

カイ2乗分布図上にTをプロット

有意水準を入力する

綾子

16

有意水準(α)を入力します。Step 5 の設定のとおり、ここでは 0.05(5%) とします。


―――以降の手続きは分岐します。次のいずれかの判定法を選択して進めます。

[セルE14]0.05

PLEASE CHOOSE

  • T 棄却限界値 の比較による方法 すぐ下の手続きから
  • P値 有意水準 の比較による方法 Step 24

棄却限界値によるアプローチ

綾子

17

ここでは棄却限界値をもとめます。


<上側の計算式>

ver.2010 or later=CHISQ.INV.RT(E14/2, E5)
ver.2007=CHIINV(E14/2, E5)

<下側の計算式>

ver.2010 or later=CHISQ.INV.RT(1-E14/2, E5)
ver.2007=CHIINV(1-E14/2, E5)

χ2分布の χ2値(パーセント点)と確率の求め方

姉妹サイト「BDAstyle」にて別途解説しています。詳細が必要な場合 χ2 分布の確率とパーセント点の計算 with Excel 頁を参照してください。

[上側(両側検定)]=CHISQ.INV.RT(E14/2, E5), [下側(両側検定)]=CHISQ.INV.RT(1-E14/2, E5)

綾子

18

上側の棄却限界値は 46.98、下側のそれは 16.79 という値が返ってきました。

説明のみ

[上側棄却限界値]46.98, [下側棄却限界値]16.79

綾子

19

またまた参考に片側検定の場合の棄却限界値も求めてみます。

上側の棄却限界値(仮説 Ex.1 の場合に利用)と下側のそれ(仮説 Ex.2 の場合に利用)は、それぞれ次式で求めます。


<上側の計算式[片側検定]>

ver.2010 or later=CHISQ.INV.RT(E14, E5)
ver.2007=CHIINV(E14, E5)

<下側の計算式[片側検定]>

ver.2010 or later=CHISQ.INV.RT(1-E14, E5)
ver.2007=CHIINV(1-E14, E5)
説明のみ

[上側(片側検定)]=CHISQ.INV.RT(E14, E5), [下側(片側検定)]=CHISQ.INV.RT(1-E14, E5)

説明のみ

[上側棄却限界値]43.77, [下側棄却限界値]18.49

綾子

20

ここで Step 18 の数字(両側検定の場合の棄却限界値)をグラフに図示してみると横軸上の緑色の点になります(下図)。

説明のみ

綾子

21

Step 19 の数字(片側検定の場合の棄却限界値)も同じくグラフに図示すると次のようにあらわすことができます(下図)。

説明のみ

綾子

22

…ということで、T(青色の点) は棄却域(下の図でいう横軸上の紫色の領域)にはかからないことがわかります。


※ 参考として、片側検定の場合の両者の位置関係を示すと下の 2 番目の図のようになります。

説明のみ

検定統計量Tと棄却域(両側検定)→Tは棄却域にかからず

説明のみ

検定統計量Tと棄却域(片側検定)→Tは棄却域にかからず

意味のある差なのか?

綾子

23

したがって両側検定の場合、不偏分散(s2)と比較値(σ02:900)との差については、「帰無仮説の下ではめったに起きないことが起きた」結果のものと言うことができません。

よって帰無仮説は棄却せず、「確率的に意味のある差ではなかった」と判断します(検定了)。

FINISHED

T<上側棄却限界値 および T>下側棄却限界値→帰無仮説H0を棄却できない:「確率的に意味のある差ではなかった」

P値によるアプローチ

綾子

24

ここでは P値 をもとめます。

χ2 検定では左右に非対称な分布をあつかうことから、両側検定の場合は T により近い上下いずれかの棄却限界値の側で確率を計算し、これを 2 倍して P値 を求めます。

具体的な方法のひとつとして、まず、次式で T から上下両方向に対しての確率を求めます。


<上側確率>

ver.2010 or later=CHISQ.DIST.RT(E12, E5)
ver.2007=CHIDIST(E12, E5)

<下側確率>

ver.2007 or later=1-E23

χ2分布の χ2値(パーセント点)と確率の求め方

姉妹サイト「BDAstyle」にて別途解説しています。詳細が必要な場合 χ2 分布の確率とパーセント点の計算 with Excel 頁を参照してください。

[上側]=CHISQ.DIST.RT(E12, E5), [下側]=1-E23

綾子

25

片側検定の場合、直前の step のそれぞれの値が P値 となります(仮説 Ex.1 では「上側」を、Ex.2 では「下側」を利用)。

これらの値は、下図の淡いピンク色の領域で示されます(赤いハッチングの領域[有意水準]と重なる部分あり)。

説明のみ

片側検定のときのP値と有意水準αの面積

綾子

26

また両側検定の場合は下のように図示できます。

説明のみ

両側検定のときのP値(上下方向の別)と有意水準αの面積

綾子

27

両側検定にあっては、これら「上側」または「下側」いずれかの値の小さな方を 2 倍して P値 をもとめます。


<両側確率>

ver.2007 or later=MIN(E23:E24)*2

[両側]=MIN(E23:E24)*2

説明のみ

「小さい方の淡いピンクの部分の面積を2倍」

綾子

28

P値 は 0.39 という値がみちびかれました。

説明のみ

[P値]0.39

意味のある差なのか?

綾子

29

結果、P値(39%)は有意水準(5%)より大きいことがわかりました。したがって両側検定の場合、不偏分散(s2)と比較値(σ02)との差については、「帰無仮説の下ではめったに起きないことが起きた」結果のものと言うことができません。

よって帰無仮説は棄却せず、「確率的に意味のある差ではなかった」と判断します(検定了)。

FINISHED

P>有意水準α→帰無仮説H0を棄却できない:「確率的に意味のある差ではなかった」

  • 本頁で使用したデータはすべて架空のものです。また特定の会社等に実在する人物名、および同場所で実際に観測されたデータ群などを根拠にしたものでもありません。
.

LastUpdate

2016.7.12

.
このページの先頭へ