ひとりマーケティングのためのデータ分析

手順解説 | Excel(エクセル)でおこなうビジネスデータの分析

相関分析
How-to

散布図と相関係数

相関分析のツールとして散布図を作成し、相関係数(ピアソンの積率相関係数)を導きます。変数間の関係をヴィジュアルに表現するものが散布図で、定量的に表現するものが相関係数です。

相関係数(r)は -1 から 1 の範囲の値をとります。このとき、-1≦r<0 の範囲を負の相関、r=0 のものを無相関、0<r≦1 の範囲を正の相関と呼びます。

相関は、r が負であれば -1、正であれば 1 に近づくほど強く、反対に 0 に近づくほど弱いと判断します。こうした相関の強弱については、相関分析に触れた書籍などの記述において、細かな階層的判断基準が提示されているのを見かけることもあると思います。それは目安としてユーザーの判断をたすけてくれますが、相関係数が順序尺度である以上、たとえば所属部門での指針 あるいは過去との比較を繰り返すなどした自らの経験にも照らしつつ、慎重に判断を補っていくこともまた一方で大切なことかと思います。

以下、エクセルによる散布図の作り方と相関係数の計算方法です。ここでは一連の手続きを Excel 2010 で追っています。これは Excel 2007 でも変わりません。また Excel 2013, Excel 2016 についても基本同じ流れとなりますが、一部ボタン等の名称が異なる箇所があります(この場合、当該箇所に明記しています)。

元データ

綾子

1

元のデータの一部です。特定の業種に属する顧客ごとに、購買指数(ここでは、売上金額と販売回数の各実績値をもとに算出した値を意味します)と直近の評点(ここでは、企業活動に係る総合スコアのようなものと考えてください)を抽出したものの一部です。このデータから、相関分析に必要な散布図を作成し、相関係数を求めます。

※すべてのデータは左サイドバーのボタンからご利用いただけます。

相関分析・元データ

まず「散布図」を眺めてみる

綾子

2

第一のステップとして、散布図を作成してデータの概要をつかみます。

では、「購買指数」列と「直近の評点」列のデータを見出しを除きすべて選択します。

綾子

3

リボンの挿入タブグラフグールプにある散布図ボタンをクリックします。

2013

2016

挿入タブグラフグールプにある散布図(X, Y)またはバブルチャートの挿入ボタン

つづいて プルダウンメニューの散布図(マーカーのみ)ボタンをクリックします。

2013

2016

散布図ボタン

綾子

4

いちおうの散布図が出来ました。このとき、グラフの横軸が シートの B 列の値(第1変数 : 「購買指数」列のデータ)、縦軸が シートの C 列の値(第2変数 : 「直近の評点」列のデータ)となります。


2 つの変数… どっちが横でどっちが縦?

第 1・第 2 変数をそれぞれ横縦どちらの軸に置くべきかについては、ここでのような「相関分析」の範囲においては、自由(任意)に決めれば OK です。エクセルの仕様としては、シートの上で より左側にある変数(ここでは「購買指数」)が横軸に振られます。

ただ、ここでは扱いませんが 2 つの変数の関係にはっきりとした方向性をおく「回帰分析」につなげることが視野にある場合には、説明変数とする方を横、被説明変数とする方を縦に据え、関係を明確にしておくべきかと思います。

説明のみ

散布図(外れ値含む)

綾子

5

グラフの書式を任意に整えます。

ここでは、次のような点への対応を施しました。

  • プロットエリアを正方にしたうえで枠線を描画
  • 目盛間隔の修正と目盛線の削除
  • データ数が多く、マーカーが重なって潰れることで視認性が落ちる マーカーの塗り色と線色を異にして判別を容易に

綾子

6

この散布図を一瞥した感覚では、ふたつの変数の間にある直線的な関係がうかがえます。なんとなく…ですけど。

説明のみ

散布図上で視覚により相関を判断する

綾子

7

この直線的な関係について、右上がりのものを「正の相関」、右下がりのものを「負の相関」といい、逆に直線的関係がまったく見られないものを「無相関」といいます。

右上がりの直線的な関係は、すなわち “第 1 変数が増加すれば第 2 変数も増加する” という関係を、右下がりの直線的な関係は “第 1 変数が増加すれば第 2 変数は減少する” という 2 つの変数の関係を示しています。

説明のみ

正の相関・負の相関・無相関

Extension

元データの性格(2変数が明瞭に正規分布にしたがうような)によっては、上記の散布図の他、基準化データによる散布図 を利用しても便利かもしれません。このエクステンションでは、データを基準化して散布図を作成するための手続きに触れながら、後述の Pearson 関数によって求められる相関係数の中身(式の内容)について見ていきたいと思います。

綾子

8

散布図を作成すると、“2 変数の関係が直線的なものかどうか” と、そうであるなら “正の相関がありそうなのか・負の相関がありそうなのか” についてを知ることができます。ただ、後の工程で求める相関係数を散布図から「だいたいこのくらいかな…」と推し量るのには少し注意が必要かな…とも考えます。


確かに……特定のある 2 つの変数について、定期的に相関を観測しているようなときには「いつもと同じ変数だし、前提も変わらず ましてやさしたる状況の変化も感じなかったし…前回の相関係数が 0.4 だったからこの分布だと……今回は少し上の 0.5 くらいかな」と散布図だけでおおよその判断をつけられる場合もあるかもしれません。

ですが現実の話としては、分析下の環境や対象がそうした単純かつ固定的な状況にあることは どちらかと言えばまれでしょうし、また人によっては目盛りの取り方に “クセ” のようなものが強く出たりもします。そうした点を顧みると、相関係数と散布図の形状は、ここで「一意に結びつく」と明言してしまうのもある意味では危険かも……なんてワタシ的には思うところもありますです。

たとえば、上で作成した散布図の目盛のとりかたを一方の軸だけ変えてしまえば、散布図は下の図のように姿を変えます。目盛のとりかたを変えたという事実を伏せてしまえば、(下の図の)下の 2 つの散布図は、上の散布図とくらべて、一見(見た目の印象で)、実際のものよりも高い相関が推察されてしまったり…なんてこともありえます。

説明のみ

綾子

9

見方をかえれば、スケールを統一してしまえば 分布の形状と相関係数とのつながりもより密なものになろうかと思います。

とりわけ、単位の大きく異なるデータを扱うときや、予測しがたいムラの大きなデータを扱うとき(いずれも目盛のとりかたを統一・維持していくことが難しいケースです)、あるいは 2 群ないし 2 時点での分布の状況を比較したいときなどには、2 変数のスケールを調整したうえで散布図を利用した方がはかどる点も多いのかもしれません。


こちらは、そのような場合での対処のひとつ データを基準化標準化)してから散布図を作成する方法 です。基準化データによる散布図は、通常の散布図とくらべて読み手に与える情報量も増えるので、活用の手立てを広げられるという利点もあります(後述)。

綾子

10

ではでは… 任意の場所に見出し「平均」「標準偏差」および「zs(変数1)」「zs(変数2)」を用意します。

※ ここで zs (z socre)は 基準値[標準得点]のことを指しています。D 列の zs は購買指数の、E 列の zs は直近の評点の基準値です。

綾子

11

1 番目(購買指数)と 2 番目(直近の評点)の変数に関する平均と標準偏差を求めます。

具体的に、ここでは 1 番目の変数に 順に

  • =AVERAGE(B2:B117)
  • =STDEV.P(B2:B117) (※ver.2007 の場合は Stdevp 関数を使用)

と入力し、それらを 2 番目の変数列にコピーします。

綾子

12

Standardize関数を使って両変数の基準値を求めます(基準化, 標準化)。

具体的には、絶対参照の部分に注意して、

  • [セルD2]=STANDARDIZE(B2,$B$119,$B$120)
  • [セルE2]=STANDARDIZE(C2,$C$119,$C$120)

と入力し、ともに最下行までコピーします。


Standardize関数の「関数ウイザード」を使った入力方法は 偏差値表の作成 のページを参考にしてください。

scrollable

綾子

13

あ。そう言えば…
参考までに、あとから出てくる相関係数の中身(計算のしくみ)について ここですこし触れさせてくださいNe。


上の過程(基準化)をおえると 「購買指数」および「直近の評点」の両列は、平均が 0 標準偏差が 1 のパラメータをもつ変数となります。

ここで 平均が 0 という点に注目すると、2 つの変数についての基準値は それぞれの顧客 ID が 各内容(「購買指数」と「直近の評点」)について “平均から+方向あるいは-方向にどれだけ(標準偏差何個分)離れているか” を示していることがわかります。


綾子

14

さらにこれらの基準値についてですね…えーと、下の図のように 両列の値を乗じてやると 偏差積 と呼ばれる値が求まります(ピンクの囲み部分)。

それでですね…これをすべての顧客について計算(データのサイズ n 個分)していくと…

説明のみ

綾子

15

こんなカンジになりました。

…ってことで、今度は このピンクの囲み部分をすべて足し合わせたもの(偏差積和)を データのサイズ n で割ってみちゃったりしたいと思うのです。言い換えれば、これは 偏差積の平均を求めることですから…

説明のみ

綾子

16

…下の図のようにAverage関数を使えば簡単ですか。


えーと…これによって出力される値は 共分散 と呼ばれます(下の図ではセルF119。ただし n でなく n-1 で除したほうが適切なケースもあるかと思います。この場合には上のAverage関数は利用できません)。


なお エクセルにはこの共分散を直接計算するための関数があります。この場合 基準化してある・ない 関係なしにCoVar(ver.2007。n で除す場合。後方バージョンに互換性あり),CoVariance.p(ver.2010以降。n で除す場合),CoVariance.s(ver.2010以降。n-1 で除す場合)の各関数が利用できます。いずれも引数には 2 つの変数を指定します。

説明のみ

綾子

17

次式のように、この共分散は相関係数(ピアソンの積率相関係数)を求めるにあたっての かなーり重要な要素となっています。

具体的には 相関係数は、この共分散を 両列の標準偏差の積 で割って求められます。ただ ここでのように 2 つの変数を基準化した場合は、分母は 1 となりますから 相関係数は共分散の値と等しいものになりますNe。

この点をかんがみれば、ここでいう相関係数は “基準化された共分散” としての見方もアリでしょうか。

説明のみ

相関係数=共分散/(変量1の標準偏差)×(変量2の標準偏差)

綾子

18

前後してごめんなさいですけど、ここからふたたび 基準化データによる散布図のお話に戻ります…ね。

綾子

19

では、「zs(変数1)」列と「zs(変数2)」列のデータを見出しを除きすべて選択します。

綾子

20

リボンの挿入タブグラフグールプにある散布図ボタンをクリックします。

2013

2016

挿入タブグラフグールプにある散布図(X, Y)またはバブルチャートの挿入ボタン

つづいて プルダウンメニューの散布図(マーカーのみ)ボタンをクリックします。

2013

2016

散布図ボタン

綾子

21

リボンのレイアウトタブラベルグールプにある凡例ボタンをクリックします。

さらに プルダウンメニューからなしを選択して凡例を除去します。

2013

2016

凡例は最初から存在しない…んですがグラフタイトルが挿入されちゃいます…。必要によって、グラフタイトルを直接選択しDeleteキーで消去します。

綾子

22

そのままグールプにある目盛線ボタンをクリックします。

そして主横軸目盛線なしとたどり、目盛線を消去します。

2013

2016

初期設定では格子状の目盛線が入っています。必要がなければ縦横各個選択してDeleteキーで消去します。

綾子

23

グラフの横軸・縦軸とも最大値・最小値を揃えます。ここでのケースでは、横軸最大値が他と異なっていますので合わせていきます。

グラフの横軸を選択し、現在の選択範囲グールプにある選択対象の書式設定ボタンをクリックします。

2013

2016

選択対象の書式設定ボタンは書式タブの中にあります。

スケールを固定して異なる条件・時点で観察する

±3標準偏差にほとんどのデータ(99.7%)が入ります。したがって(外れ値の有無に関する関心は必要ですが)おおむね定型的に min:-3, max:+3 とする設定でカバーできると思います。

綾子

24

軸の書式設定ダイアログが表示されます。

下の図のように最小値最大値にはこの時点のグラフの目盛の上限・下限等に鑑みて適切な値を(このケースでは順に -3, 3 とします)、目盛間隔には1を入力します(なお、このケースにおいて グラフ上では適切な数値となっているはずの最小値と目盛間隔をここであえて指定するのは、意図しない図のくずれに対する予防策的な意味あいからです)。

さらに目盛の種類交差に変更し、閉じるボタンをクリックします。

もう一方の軸も同様に調整してください。

綾子

25

リボンの書式タブ現在の選択範囲グールプからグラフ エリアを選択しておきます。

その後、サイズグールプの図形の高さ図形の幅を任意の等しい値にするなどして、グラフができるだけ等比となるよう調整します(たとえば 高さ10cm・幅10cm のように指定)。

綾子

26

下のような散布図が出来上がります。軸方向の中心に位置するタテ軸ヨコ軸のラインは、それぞれの変数(「購買指数」「直近の評点」)の平均(=0)を意味します。また目盛 1 つが 1標準偏差(=1)に該当します

両軸のラインを基準に区別できる 4 つの区画は「象限」と呼ばれ、下の図のように右上がともに正の値となるよう目盛をとるとき、右上から順に、反時計回りで「第1象限」「第2象限」「第3象限」「第4象限」と呼んでいきます。


象限xの基準値yの基準値
1ともに平均より高い
2yのみ平均より高い
3ともに平均より低い
4xのみ平均より高い
説明のみ

綾子

27

ざっくりと言えば、この象限 1 と 3、ないしは 2 と 4 のどちらにより多くの要素が集まるかで、相関係数の符号が決まります(より忠実には 先に見た偏差積の和を 1・3 象限[+側]および 2・4 象限[-側]の別にとったとき、いずれの側が符号を決める力をもっているか[絶対値で大きいか])。前者の場合プラス(正の相関)、後者の場合マイナス(負の相関)となります。

ここでは下のように… 2 ・ 4 側により多くの要素が集まりましたからマイナス…ですね。

説明のみ

綾子

28

またこの散布図における 4 つの象限は、2 変数による簡易なセグメンテーションツールとして有用に使えるときもあろうかと思います。

たとえばここでのケースでは、2 変数それぞれの意味において第 1 象限から第 4 象限まで下のような名前をつけ、セグメントごとにより相応しい施策を管理する…といった活用の方法が浮かびます。この場合、マクロを使って要素にラベル(ここでは「顧客コード」)を表示させてやれば、可読性も高まったりするかもしれません。


説明のみ

「外れ値」を考える

綾子

29

では、ここからは通常の散布図に戻ってですね…

えーと…散布図からは負の相関の存在が察せられたので、今度は散布図のココ(ハイライトの部分)に注目してみたいと思います。

説明のみ

外れ値の確認

綾子

30

1 つだけ、マーカーの密集エリアから目立って離れたところにデータが存在しているのがわかります。これを「外れ値」といいます。この外れ値が、何らかの特殊な事情をもつもの(異常値)でないか検討したほうがよさそうです。

外れ値は、後の工程で求める相関係数に強い影響を与えます。したがって、はっきりと異常値だと確認できるなら、データから除外してやる必要もでてきます。

私が欲しいのは、単なる “計算したら出てきた値” …ではなくて、実情がよく斟酌された値のハズですから、異常値の可能性を探ることがとても重要な意味をもちえます。外れ値の検出には統計処理において定義される厳密な手続きが採られることがありますが、散布図から視覚によって判断することは、何より簡便でありながら実に有効な方法だと思います。

綾子

31

そこで一旦作業を中断して、この顧客を調べます。

私のことですから、そもそもデータの入力ミスかも知れないですので…。

綾子

32

えーと、顧客コード LMCPA のお客さんの実績は…入力ミスじゃない。ん!? どうやら社長自らフォローしているよう…。


結局、ウチの社長と深く関係のある会社さんで、他のお客さんと比べきわめて特殊な形態で取引させていただいていることがわかりました。今回の分析の前提とは相容れない(と考えてください)…ということでこれを異常値として認め、データから除外することに決めました。

綾子

33

ということでですね…。この除外対象となったデータは…えーと… 40 行目にありました。このデータを行ごと削除します。

具体的には、行番号の上で右クリックし、ショートカットメニューから削除をクリックします。

綾子

34

散布図が下のように自動的に修正されます。

ここまでに軸の最大値・最小値の設定を経ていない場合、削除したデータによってはそれらが再調整されています(このケースではタテ軸の最大値が 80 70 に変更されると思います)。これについて不都合のある場合、必要に応じて適切な設定を加えます。


…以上で散布図は完成です。

説明のみ

散布図の完成(異常値除外)

相関係数を求める

綾子

35

つづいて、第二のステップとして相関係数を求めます。

シートの空いているところ(ここではセルE1)に、あたらしい見出し「相関係数」を作成します。

綾子

36

ここで相関係数を求めます。

…そういえば、すこし脇道にそれちゃいますけど、相関係数と一口に言ってもいろいろなものがありますNe。


えーと… 元データの 2 つの変数がともに数量(間隔尺度・比尺度)であり、直線的関係が見られる場合は、ピアソンの積率相関係数(単相関係数)を用います。このケースでも変数はともに数量(間隔尺度)ですから…ピアソンの積率相関係数を求めることができますね。… Excel にはこれを計算するための関数があります。

あとは参考ですけど、そのほかには… 2 つの変数が数量データ(間隔尺度・比尺度)とカテゴリデータ(名義尺度)の場合の指標として「相関比」が、ともにカテゴリデータ(名義尺度)の場合の指標としては「クラメールの連関係数」が、また、とりわけ順序尺度の場合には「スピアマンの順位相関係数」といった指標なんかが利用されるようですYO。


スピアマンの順位相関係数

(1)異常値の判断がつかなかった場合など外れ値を含んだまま相関係数を求めるような際、それによる影響をできれば除きたい (2)2 つの変数が正規分布にしたがうという仮定をおかない …といった状況下で選択されることが多い相関係数です。

綾子

37

先ほど作成した「相関係数」見出しの直下のセルをアクティブにし、数式バー横の関数の挿入ボタンをクリックします。

関数の挿入ボタン

綾子

38

関数の挿入ダイアログがひらきます。

関数の検索ボックスに "pearson" と入力し、検索開始ボタンをクリックします。


Pearson関数とCorrel関数

Excel 2003 以降のバージョンでは両者とも同じ結果が返りますので、ここではCorrel関数を用いても OK です(Pearson関数 - Officeサポート)。

PEARSON関数の検索

綾子

39

関数名のいちばん上に、目的の「PEARSON」が表示されていると思います。

こちらを選択し、OKボタンをクリックします。

綾子

40

関数の引数ダイアログの配列1配列2の 2 カ所について、下のようにシート上の対応する色のセル範囲(各列の見出しを除くすべてのデータ)を指定します。

すべて入力した後、OKボタンをクリックします。

pearson関数ダイアログ

綾子

41

散布図の作成相関係数の計算、完了です。

あ、えと、念のため…「相関係数-0.52」とかいったように勢いあまって相関係数に単位をつけちゃうコトは NG ですYo。


無名数・順序尺度

相関係数そのものは単位を持たない無名数として扱います。またこれは、順序尺度となります。

後者の点についてここで少し顧みておきたいと思います(cf. 順序尺度「尺度水準」 ―"Wikipedia")。たとえば同じ 2 つの変数の相関係数を過去 2 つの時点にわたり観測してきたとして、その内容が以下の通りであったとします。

 0.2, 0.4

このとき、直前のものを評価するとして、順序尺度は大小のみが意味を持ちますから

  • 前時点より「強く(大きく)なった」

ことを言うことは可能なことがわかります。反面、加減乗除(+-×÷)に意味はないので、第一として

  • 前時点より200%(2倍)強い

とする表現を用いることが適切とは言えなくなります。またさらに、その後の観測値が

 0.6

であったとしたとき、第二として

  • 直前との比較で 0.2 ずつ増加してきたすなわち、等間隔で均等に強くなってきた

とする表現も不適切となることがわかります。

FINISHED

相関係数の計算完了(r=-0.52)

Extension

この事例は標本を対象としたものではないことから、相関分析のための手続きは以上で完了としています。ここからは仮のお話として、元データが標本であった場合の検定(無相関の検定)と推定についてすこし加えたいと思います。

無相関検定

晴花

42

少し補足します。その前に、ここからは仮のお話ですので前提を崩しちゃいます。

今回分析対象としたデータがより大きな母集団から無作為に抽出した標本だったとして、先のような相関係数 -0.52 を導いたと仮定します。

この場合、実際には 2 つの母集団が無相関(相関係数 0)であったとしても、きわめて希な組み合わせで相関の見られる標本となってしまうようなケースも考えられます。そこで相関があるかないかのひとつの判断として、無相関検定をおこなってみます。

晴花

43

検定ということで、帰無仮説と対立仮説は次のようにしておきます。

  • 帰無仮説(捨てたい仮説)… 2 つの母集団の相関係数はゼロ。
  • 対立仮説(採用したい仮説)… 2 つの母集団の相関係数はゼロでない。

また、データ対の数、自由度、そして先に求めたピアソンの積率相関係数を示すと、次のようになります。

  • データ対の数 : n=115
  • 自由度 : f=113(無相関検定での自由度は n-2 となります)
  • ピアソンの積率相関係数 : r=-0.52

帰無仮説H0:ρ=0, 対立仮説H1:ρ≠0, n=115, f=113, r=-0.52

晴花

44

検定統計量 T を計算します。式は下のとおりです。

では、シートの空いているところを使って、上で示した値を式にあてはめて計算してみます。

検定統計量T=(|r|√n-2)/(√(1-r^2))

晴花

45

とはいえ、上の式の入力はややこしいですね。よってここでは分子と分母に分けて計算します。

下の図のシート構成のとき、分子・分母・そして T の計算式は次のようになります。

  • [セルF5:分子] =ABS($E$2)*SQRT(COUNT($B$2:$B$116)-2)
  • [セルF6:分母] =SQRT(1-$E$2^2)
  • [セルF7:T] =F5/F6

晴花

46

検定統計量 T はおよそ 6.43 となりました。

説明のみ

検定統計量T=6.433913

晴花

47

この検定統計量 T の値と、自由度を使って有意確率(P値)を計算します。無相関検定の場合、帰無仮説は正しいんだYO!…って考えたとき、検定統計量 T は自由度 f=n-2 の t分布 にしたがうことから、有意確率はTdist関数で求めます。

ここでは、先にPearson関数を使用するときに呼び出した関数の挿入ダイアログを再び使って入力していくことにします。したがって、空いている適当なセルをアクティブにし(ここではセルF9)、関数の挿入ボタンから Tdist 関数のダイアログを呼び出します。

晴花

48

関数の引数ダイアログのXについて、下のようにシート上の対応する色のセル(検定統計量 T の値)を指定します。自由度は f=n-2 ですからここでは113、そして分布の指定は両側検定をおこないますので2としておきます。

すべて設定した後、OKボタンをクリックします。

TDIST関数ダイアログ:x=F7,自由度=113,分布の指定=2

晴花

49

P値は「3.10192E-09」と表示されています。指数表記です。

これを通常の表記になおすと「0.000000003…」といったところです。

すなわち、有意水準(α)が 5%(0.05), 1%(0.01)いずれの場合であっても P < α となり、帰無仮説が棄却されます。つまり、2 つの母集団は「相関係数がゼロではない」と考えることができます

説明のみ

P<α→帰無仮説の棄却

母相関係数の信頼区間の推定

晴花

50

これによって、たしかに “(程度を問わず)相関がある” ことを補強できたとは思います。が、あえて重箱の隅をつつけば、対立仮説「母集団の相関係数はゼロではない」においては、ゼロでなくても |0.1| や |0.2| の可能性を少なくとも否定してはいないじゃん!?…なんて思ったりもします(Step 44 式 “分子に n がある” サンプルサイズが大きければ r が小さくても有意になる)。

この点については、発表等の場において当該結果を評価者の耳目にさらすことになると、えてしてツッコミが返ってくることも少なくない部分のような…私自身は…そんな感触をもっています。

そうした点をふまえれば、“母相関係数がゼロでないなら、それはどの程度の値となりそうか” 踏み込んで計算しておいた方が何かと都合がいいのかも…とも思えてきます。以下、しばらくそのための手続きです(母相関係数の信頼区間の推定)。

晴花

51

(標本)相関係数 r をフィッシャーの Z 変換と呼ばれる方法で基準化します(パラメータ[平均]1/2・ln{(1+ρ)/(1-ρ)}, [分散]1/(n-3) の正規分布に近似的にしたがうようなかたちに変換)。

  • =FISHER(E2)

(以下、計算のしくみを明らかにしておきたい場合の選択)

  • =1/2*LN((1+E2)/(1-E2))

晴花

52

上で求めた値(rz )に z(α/2)/ Sqrt(n-3) を加減して、変換値による母相関係数(ρz )の信頼区間を求めます。なお下式にいう z(α/2) は標準正規分布の上側 α/2 パーセント点とします。

rz-{(z(α/2))/(√n-3)}≦ρz≦rz+{(z(α/2))/(√n-3)}

晴花

53

ここでは信頼区間を信頼係数 95% つまり α=0.05 で求めるものとします。…ということで、先の式の z(α/2) は 2.5% 点の値が必要なので…これを Norm.S.Inv 関数によって求めます(ただし引数は下側[累積]確率を求められるので 0.975)。

…式をシートに具体的に入力すると、次のようになります。

  • [下側]=F13-NORM.S.INV(0.975)/SQRT(115-3)
  • [上側]=F13+NORM.S.INV(0.975)/SQRT(115-3)

(ver. 2007 の場合はNorm.S.InvNormSInv関数を適用)

scrollable

晴花

54

変換した相関係数(rz )をもとの相関係数(r)に戻します(逆変換)。

  • [下側]=FISHERINV(E16)
  • [上側]=FISHERINV(G16)

(以下、計算のしくみを明らかにしておきたい場合の選択)

  • [下側]=(EXP(2*E16)-1)/(EXP(2*E16)+1)
  • [上側]=(EXP(2*G16)-1)/(EXP(2*G16)+1)

晴花

55

母相関係数の信頼区間は -0.641 ~ -0.369 となりました。先の検定でみたとおり、この範囲にはゼロが含まれていないことを確認できます。

ただし信頼係数 95% としたので、同じ母集団から無作為に 20 回標本を抽出して信頼区間を求めてみるとして、本当の母相関係数が うち 1 回だけは計算によって求められた範囲から外れる程度の確からしさとなります。

説明のみ

綾子

56

以上、あくまで元データが標本であることを仮定した場合のお話でした。ストーリーパートの方ではこのような検定や推定をする必要はないですYO。


  • 本頁で使用したデータはすべて架空のものです。また特定の会社等に実在する人物名、および同場所で実際に観測されたデータ群などを根拠にしたものでもありません。
.

LastUpdate

2016.7.12

.
このページの先頭へ