ひとりマーケティングのためのデータ分析

手順解説 | Excel(エクセル)でおこなうビジネスデータの分析

How-to

ヒストグラム

ヒストグラムは,特定の集団・グループなどにおいて観測される値を,階級と呼ばれる区間ごとに振り分け要約しビジュアライズすることによって,値の分布をよりつかみやすくするためのツールです。

ものつくりの現場においては,ヒストグラムはQC 7つ道具の1つとしてこれ以上ないほどにメジャーなツールです。ときに「誰しもが決して無縁ではいられない」といった修辞を付けても言い過ぎでないかもしれません。その有用性は事務しごとの現場でも変わることなく,たとえば売上・販売数量などの分析のツールとして利用できることは想像に難くないと思います。

Excelでヒストグラムを作成するとき,いくつかのアプローチを選択することができます。ただ,そのほとんどは,「度数分布表」を作成 → グラフへ加工 といった大枠の流れに沿うものです。こちらでは,そのいくつかのアプローチの中から,とくに「分析ツール」と呼ばれる Excel のアドインを利用する方法をとりあげます。

またヒストグラムの書式・スタイルに関してですが,これは細部においては多様であって,分野・環境,はては作図のバックグラウンドによって定まりません。したがってここではQCをはじめとした工学・数学的な領域で用いられるそれではなく,一般的な事務しごとでのものを想定していきたいと思います。

以下,エクセルによるヒストグラムの作り方です。ここでは一連の手続きをExcel 2016で追っています。Excel 2013,Excel 2010およびExcel 2007についても基本的には同じ流れとなりますが,一部ボタンの配置や名称などが異なる箇所があります(この場合,可能であれば当該箇所に明記します)。

元データ

晴花

1

元のデータです。

取扱商品の売上(万円)を個人別に集計したものです。

なおこちらの金額に関しては,1万円未満の端数は生じないものとします。


元データ・ヒストグラム

範囲をしらべる

晴花

2

まず,このデータがとる範囲(range)を見てみます。

今回のケースではデータの数が少ないので,パッと見で分かるところかもしれませんが,念のためシートの空いているところを使ってmin, max関数で売り上げに関する最低・最高をそれぞれ求めてみたいと思います。

式は下のとおりです。

最高値と最低値をMAX,MIN関数で計算 [最低]=MIN(D2:D25), [最高]=MAX(D2:D25)

晴花

3

結果は順に18, 83となります。したがって,83-18 = 65の幅があることが分かります。

階級をつくる

晴花

4

次に,この範囲をいくらかに分けていくことを考えます。

65の幅を,上下に若干の余裕をとって何個に分けていくべきか」ということです。

晴花

5

あ,ええと
分布をできるかぎり明瞭かつただしくとらえたいor伝えたいという趣旨のもと,誤読をふせぐ意味合いからも,これは原則としては 等間隔であるべきとされるところでShow。

Extension

ここからしばらく,ヒストグラムの“原理原則”まわりのやや細かな話題にふれたいと思います。工程のみを追いたい場合は,このエクステンションは飛ばしてもOKです。

階級と境界値

晴花

6

では具体的な工程に入る前に,少し遠回りになっちゃいますが,いささかストリクトな意味での階級の分け方から対応を考えていきたいと思います。

たとえば,下の図のようなヒストグラムがあるとしたとき

晴花

7

棒(「階級」または「ビン(bin)」といいます)Aに注目したとして,図の青い点を「下境界値」,赤い点を「上境界値」と呼びます。

晴花

8

同じように隣の棒Bをとりあげた場合には,下境界値と上境界値は次のようになります。

晴花

9

したがって,棒Aの上境界値と棒Bの下境界値は一致します。換言すれば,これは棒と棒の間に隔たりがない(=連続)ということを意味します。ヒストグラムの特徴とも言える,グラフに間断なく並べられる棒の形状は,この点に理由があります。

晴花

10

では次にですね

今,この棒Aの上境界値,つまり棒Bの下境界値を仮に「10」に決定したとします。

晴花

11

このとき,振り分けるべきデータとして“10”が登場してしまいました。

これでは「棒Aか棒Bかどちらでカウントすべきか」という何とも悩ましい問題が生じてしまいます。

晴花

12

そうした厄介なコトを避けるため,しごとの現場によっては境界値を設定するとき,境界値の上にデータが存在しないような値を設定することが求められることもあります。

こうした場合,ひとつの方法として境界値を値の最小単位(測定単位。たとえば図であげた「10」を「10万円」としたとき,最小単位は 1 万円)の半分(0.5万円)になるように設定してやれば,境界値とデータとが被ってしまうことはなくなります。このケースで例えるならば,下のようにABの境界値を10.5万円とするといった具合です。

厳密な手続きにしたがうQCの現場などでは,こうした点まで考慮されることが多いように思います。

階級幅の目安としてのアルゴリズム

晴花

13

ということで,そろそろ「65の幅を,上下に若干の余裕をとって何個に分けていくべきか」考えなくてはならないですNe。

晴花

14

いささか最初に大げさに掲げすぎたきらいもあるんですが

実のところ,これは“正解”が存在する類のものではありません。タテマエ的にはその手続きがどうであれOKというべきでしょうか。

晴花

15

でもやっぱり

階級の数が少なすぎても,多すぎても,分布をつかむための資料としては要点を得なくなるのも事実です。したがって,ある意味でここは自身の判断が最も問われてくるところなのかもしれません。

「であるならば,何らの目安は欲しいもの」

ということで,下の図のような計算を順に処理してそれらのアテをつけることがあります(「平方根選択」とも)。

  • 階級の数:√n
  • 階級の幅:範囲 ÷ √n

[階級の数]√n, [階級の幅]範囲÷√n

晴花

16

今回のケースにあてはめると,データの数n24,範囲は65万円でしたから

階級の数は5個,階級の幅は14万円といった値がみちびかれます。

[階級の数]√24≒5, [階級の幅]65÷√24≒13

晴花

17

あと,ええと
たぶんここで強調しておいた方がいいと思うことが1点ありまして…。

とりわけ上の「階級の幅」の値についてが重要なんですがこれは“小数点以下を切り上げた値”だっていうことでしょうか。より適切には,これは最小単位の整数倍になるような丸めをおこなっています。

具体的には先に見たように,ここでの最小単位が1万円ですから「13.27...を切り上げた14なら1の倍数だしちょうどいいや」といった具合です。Excelにバージョン2016で新しい機能「ヒストグラム」が組み込まれたこと自体は歓迎できることではあるんですが,この新機能は惜しいことにそうした「丸め」に関する部分に関心を払う類のものではないので,わたし的にはちょっと注意も要るんかな,とも思うところです。

そこで,適切な「丸め」をおこなわなかったときに抱えるかもしれないデメリットについて,ここで少しふれておきたいと思います。

ってことで単純な話にするため,ここで次のようなデータを用意しますNe。

晴花

18

端緒として,仮に階級の幅を1としたうえで(=最小単位の整数倍[1倍]になっている),階級ごとに上の数字の登場回数をカウントしてヒストグラムを描いていくとしたら,どうなるでしょうか。

結果,まったくのフラットなものができあがることについてはイメージがしやすいんじゃないかなと思います。たとえば,ドット1つを登場回数1回と見立ててやるとして,1~10までの等間隔な数字を,下のように 第1(最初の, いちばん左の)階級の下境界0.5第10(最後の, いちばん右の)階級の上境界10.5の中に振り分けていくわけですから,それぞれの階級にはもれなくドット1つが入ります。

つまり,“フラット”な状態です。

晴花

19

そこで,次にあえてセオリーに反して
階級幅を最小単位の整数倍に設定せず,1.6という値を設定してやろうと思います。

つまり,次のような境界線が描けます,か。

晴花

20

ということで,ここで先のドットを上の図に再度重ねなおして「どうなるか」を眺めてみると

下のA図のようになることがわかります。


やはり何より目に留まるのは,先とちがって階級ごとのドットの数が異なってくることでしょう(B図)。これをヒストグラムで描けば,C図のようになるはずです。


「あれ,これって“フラット”な分布だったはずだよNe?」

晴花

21

こうしたことをかえりみるに,

階級の幅を最小単位の整数倍で丸めない場合には,本来の分布とはなんだか異なる「歯抜け」とか「くし」と呼ばれる型のヒストグラムをみちびいてしまうことがあります。


バージョン2016のヒストグラム作成機能では,階級の数を直接指定することができます。これはこれで便利なしくみだとは思いますが,この場合,階級の幅には「範囲÷指定された階級の数」で計算される値を丸めず適用してきます。

出来上がったグラフを他の人の目にさらす前提があるとして,上記のことはすなわち「歯抜け」とか「くし」といった概して歓迎されない要素への関心の有無が必然的に問われてきてしまうことも意味します(下図,赤線部分がエクセルによって自動計算された階級幅)。

そうした不利益をてっとり早く回避するなら,“「階級の数」を指定するのではなく「階級の幅」の方を指定する”か,あるいは“すっきりした「階級の幅」の値が返ってくる「階級の数」しか指定しない”ことがbetterだとは思います。


Excel2016の新グラフによるヒストグラム作成の手続き

晴花

22

少し話が膨らんだ感もありますので,ここで階級の数および幅の決め方の話に戻ります。

えーと
階級の数については,先の「平方根選択」以外に,スタージェスの公式と呼ばれる“目安”も利用することができます。

これを以下に示します。

赤字部分はデータの数(n)です。すなわち,今回のケースでは24となるわけですが,この数字を変更すれば当然のことながら他の事例にも適用できます。

[スタージェスの公式] 階級の数=1+log(n)/log(2)

晴花

23

上の式からは,およそ6という値が返ってきます。このケースの場合√n法とかい離する値ではないですね。

この場合,階級の幅は 範囲 ÷ (1+(log(n)÷log(2)))


その他 こんな目安も

  • スコットの選択
  • フリードマン=ダイアコニスの選択

これらについては,階級の“数”ではなくて“幅”からのアプローチとなる点で先の2指標とは特徴を異にします(範囲と求めた幅とを除すことで階級の数を求める)。
エクセルでの計算例は こちら(―外部サイト「BDAstyle」)

階級値

晴花

24

ではこのへんで,今までにみちびいた条件を一度整理してみます。

ここでは,次のような方針を定めました。

(1)境界値は測定単位の1/2(0.5)で設定, (2)階級の数は5, (3)階級の幅は14

晴花

25

下のグラフが,この方針のもとに作成したヒストグラムです(サンプルのデータから作成したものではありません。イメージです)。


淡い緑色で囲った数字は「階級値」と呼ばれます。

この「階級値」というタームを用いる場合,それはたいてい“その階級の下境界値と上境界値の真ん中([下境界値+上境界値]÷ 2)の値”を指すものとして使用されます。「たいてい」と加えるのは,「階級値」の定義は図の製作者やツールに依存することも少なくないといった面も現実には無視できず,ときにそれが下境界値を指していたり上境界を指していたりと定まるものでないといった側面もあるゆえです。

“その階級の下境界値と上境界値の真ん中の値”を階級値とする場合,そうした混乱を嫌って,とくに「階級の中心値」とあえて定義を前面に出すような呼称を用いることもあります。

いずれにしろ,定義が明確であれば,グラフの横軸にこの階級値を示しておけば境界値を明示する必要は基本的にはありません(必要なら計算できるので)。

階級の中心値のみを表示したヒストグラムのイメージ

晴花

26

で,私がウチの社長にこのヒストグラムを意気揚々と提出しに行くわけですが

社長

27

「キミはこの図を見てRS(販売担当)部員が最初に何を思うかここに来るまでに少しでも考えたことがあるのか(イヤミ的な意味で)?」

晴花

28

…なーんてシーンが目に浮かびます。…クッ。

晴花

29

ここまで長々とExcelの操作以外のコトにふれてきましたが,総務・経理など一般的(と言っていいかわかりませんが)な事務しごとでの活用を想定した今回のようなケースでは「見る人・使う人から見た“わかりやすさ”にこそ意味をおくべきかも」なんて思うところもあります。

先に見たような指針やルールを軽視するわけではありませんが,状況に応じたアレンジについて考えることもやっぱり大切

なのかもしれませんNe


階級値でヒストグラムを描く

(書式の設定上)「数値」とみなされる要素を項目軸に振る場合,こちら(―外部サイト「BDAstyle」)の前段の手続きの方がスムーズかと思います。

晴花

30

では,ここから具体的な工程のお話となります。

事務しごとという背景においては,やはり「“見る人”“使う人”にデータの特徴を示すにあたって,better(≠best)な選択ができたか」の一点が問われてくる場合も多いように思います。ですからこのケースでは,単純に“キリのいいところ”で分けるという選択をしたいと思います

晴花

31

具体的には10万円刻みで区切っていく方法 で問題なさそうに思います。

その場合,範囲が65万円ですから上下の若干の余裕を考えても,8個の階級で全体をあらわすことができますNe。

晴花

32

ここで,あらたに決めなおした条件を下のようにまとめておきたいと思います。

このケースでは,以降,次の2つの条件のもとヒストグラムを作成していきます。

説明のみ

(1)階級の数は8つ, (2)階級の幅は10万円

「分析ツール」の性質をふまえる

晴花

33

エクセルの分析ツールでは,原則として境界値を指定する方式でなく,それぞれの階級でとりうる最大値(下の図の)を指定するという方式で階級の幅を決定していきます

言い換えれば「前の階級の最大値より大きく,今の階級の最大値以下(たとえば Amax<x≦Bmax)」という条件で階級ごとに度数をカウントする方式です。


分析ツールのこうした特性にならい,今回のケースではグラフに中心値や境界値を表示する方式をとりません。その階級に該当する値の範囲を表示していく,という方法をとりたいと思います。

説明のみ

エクセル「分析ツール」における度数カウントの特性

ラベルの表示方法を決める

晴花

34

さて,階級ごとに値の範囲を表示するにも,次の点を決めなければすすめません。

具体的な8つの階級に属する値を考えると,10~19, 20~29, 30~39, , 80~89とする案が1つ。また,11~20, 21~30, 31~40, , 81~90とする案が2つ目にうかびます。

ここで,仮に前者をプランA,後者をプランBと呼んでおきます。


今回のケースでは小数点以下端数が発生しないという設定でしたので,区切りがいいという意味でプランAのほうが扱いやすく思います。

説明のみ

晴花

35

反対に「19.5 万円」のように端数が発生する場合には,プランBのが収まりがよさそうです。ただ,この場合には,たとえば10.5のような値が発生する可能性も考えなくてはならなくなります。

つまり,ラベル上「11-20」の表記における“11”は不適切なものとなってしまいます。したがって「10<x≦20」など,代わりに下のような表記へと置き換えてやることも必要となってくるかと思います。

いずれにしろ,これらは「ラベルとしていかに適切かつ分かりやすく階級の幅を示すか」という“見た目”の問題を指しているにすぎません。分析ツールが階級の幅を判断するのは,あくまで(階級ごとにとりうる)最大値(上限)となります。

説明のみ

階級の上限を入力する

晴花

36

では,階級の数は8に決まったことですので,シートの空いているところにでも,それぞれの階級がとりうる最大値を書き入れていきます。

繰り返しですが,最大値だけを入力する実際のデータにその値が登場するしないは関係なしにといったところに注意です。

晴花

37

そうすると,こんな感じ(ハイライト部分)になります。

階級上限値の入力

「分析ツール」を使って度数分布表をみちびく

晴花

38

では次に,リボンのデータタブ分析グループにあるデータ分析ボタンをクリックします。


ボタンが表示されていない場合,「分析ツール」アドインのインストールが必要です(「分析ツールを読み込む」 ―"Office")。

scrollable

データ→データ分析

晴花

39

データ分析ダイアログがひらいたらヒストグラムを選択してOKボタンをクリックします。

「データ分析」ダイアログ…分析ツールからヒストグラムを選択

晴花

40

まず,ヒストグラムダイアログの入力範囲データ区間を指定します。具体的にはStep 41の図のように,シート上の対応する色の領域をそれぞれ指定していく作業となります。


! ここでは見出しも選択していますのでラベルにもチェックを入れておいてくださいNe。

晴花

41

さらに出力先をアクティブにしておきます。ここでは同じシート上に出力するものとして,空いているセルを任意に指定しても構いません。便宜上,ここではセルH1(シート上のピンク色の部分)としています。

全部入力できたらOKボタンをクリックします。

scrollable

「ヒストグラム」ダイアログ…[入力範囲]$D$1:$D$25, [データ区間]$F$1:$F$9, [出力先]$H$1, 「ラベル」をチェック

晴花

42

階級ごとの人数がカウントされました(下図)。

表では,カウントされた人数の見出しが「頻度」となっていますが,「度数」とする表現の方がより一般的なように思われます。

なおこの表は「度数分布表」と呼ばれます。

度数分布表

晴花

43

ところで,この度数分布表の階級のあらわし方…19…29…39…は,あくまで「分析ツール」での処理を念頭にしたものですから,作成者ではない他の人からも理解の得られる表現とは言いがたいように思います。

先に「プランA」方式を採用することに決めたことを受け,ここで下の図のようにより分かりやすい表現に改めることにします。

このとき「10-19」と入力すると自動的に日付として認識されてしまいますので,頭にアポストロフィ( ' )をつけ「'10-19」と入力することで,通常の文字列の扱いとしておきます。

階級の表し方を修正

「棒」グラフを使ってヒストグラムを描く

晴花

44

さて,ここからは上の度数分布表をもとに(エクセルの機能上に言う)棒グラフを作成する工程です。

表の「次の級」を除く階級・頻度の両範囲(下のハイライトの部分)を選択します。


「次の級」?

最後の階級を超えるデータが存在した場合にはここでカウントされます(たとえば,このケースで最後の階級「80-89」に含まれない「100」というデータが存在したような場合)。つまり,事前に最小値・最大値・範囲を確認し,適切に階級を設定しておけば意味のない項目です。

晴花

45

リボンの挿入タブグラフグループにある縦棒グラフの挿入ボタンをクリックします。

2010

2007

挿入タブグラフグループにある縦棒ボタン

挿入→縦棒

晴花

46

「2-D 縦棒」グループの集合縦棒ボタンをクリックします。

集合縦棒

晴花

47

表示されたグラフの任意の棒(柱)をクリックし,「頻度」系列を選択した状態にしておきます。

任意の系列をクリックすると,棒の4隅にマーカーが表示されます

晴花

48

リボンの書式タブ現在の選択範囲グループにある選択対象の書式設定をクリックします。

scrollable

書式→選択対象の書式設定

晴花

49

データ系列の書式設定ウインドウ・「系列のオプション」カテゴリの要素の間隔スライダーを動かすか,直接入力するかで値を「0%」にし,閉じるボタンをクリックします。

2010

2007

データ系列の書式設定ダイアログ・「系列のオプション」カテゴリの要素の間隔スライダーを「なし」まで動かして,閉じるボタンをクリック。

要素の間隔を[なし]にする

晴花

50

ヒストグラムの完成です。

こうした一連の作業にこなれてきたら,見やすくor伝わりやすくするために,より細かな部分にまで配慮を重ねてもいいかと思います。

参考までに,私に限れば下の2番目の図のように,VBAで他の統計パッケージのような見栄えをもつもの(別頁)に整えていくことが好みです。

ただ「見やすくor伝わりやすく」が指すものについては,高い視座からフラットな答えを導ける性格のものかと言えば,主観や環境の差異を排除しがたいものである以上否というべきだろうなとも思います。その意味で,実際のところの細部の調整を必要とする場面では,“空気を読む”技能こそがモノを言うようなことも少なくないかもしれません。

FINISHED

売上実績ヒストグラムの完成

Extension

このエクステンションでは,度数分布表・ヒストグラムの周辺要素に関する話題や,先の“原理原則”に関する若干の掘り下げ,さらには活用のヒントについて触れていきます。

累積度数・相対度数

晴花

51

以下Tips的なコトになりますが,作成した度数分布表に「累積度数」や「相対度数」,あるいは「累積相対度数」を必要に応じて加えることができます。


累積度数は,たとえば「売上49万円までのRS部員は何人いるか」といったことの理解に強みを発揮します。また,相対度数はたとえば,現在のRS部員は24名ですが昔はもっと大勢いました。相対度数であれば,この2つの時点間で人員の数が異なっても,特定の階級の変化に関して比較・分析が可能となります。

  • [累積度数] =SUM($I$2:I2)
  • [相対度数] =I2/SUM($I$2:$I$9)

Tips) [累積度数]=SUM($C$3:C3) [相対度数]=C3/SUM($C$3:$C$10)

Tips) [累積度数]下から階級を束ねて考えてみるとして,ある階級までのボリュームを絶対数で確認する [相対度数]・構成比を確認する ・時系列上で比較する

晴花

52

ということでヒストグラムの縦軸には,度数のかわりに 上にみた相対度数をとる場合もあります(下図)。

Tips) [累積度数]縦軸は「度数」だけでなく「相対度数」も利用可能

不等間隔な階級幅

晴花

53

相対度数はいわばその階級の全体に占める割合(構成比)ですから,すべてを足し合わせれば1(100%)になるはずです。

この点さえ念頭に置いてさえおけば,たとえば 管理上,度数の少ない「個別には重要視しなきゃならない理由もない」階級などを判断によって併合してしまうことも可能です(不等間隔な階級幅)。

晴花

54

たとえば最初の3階級と,最後の2階級を併合しちゃうとして

「併合」というタームから漂う語感的に,まず下図のような処置が思い浮かぶところでしょうか。

Tips) [累積度数]階級を併合する場合のまずい例1

晴花

55

いえ悪手から先に掲げました。考えてみれば,上記はマズイですね。

ここで最初に掲げたヒストグラムの役割をあらためて振り返ってみます。ヒストグラムは,“値の分布をよりつかみやすくするためのツール”でした。当然,これは実態を適度に忠実に反映することを前提としたものでなくてはならないはずで,すなわち要約のしかたを誤れば“値の分布をよりつかみやすくするためのツール”としての役割そのものを反故にしてしまいます。

以上をふまえたうえで,上記の図に後述の「度数折れ線」を重ねてやるとわかりやすいのですが 本来のもの(下図・上段)とくらべて,“悪手”とした方法では山の形をつくる特徴点(ここでは,尾根の形・谷から谷への幅・裾の広がりかたなど)つまり分布がちょっと別のものに見えてきてしまいます。

もっとも,ここではデータの下にとりわけ正規分布などの理論分布の存在を期待したものでもありませんので,そうした意味では,“悪手”によって誘われる読解のズレもある意味では小さいといえるのかもしれません。しかし,そうでない場合には“悪手”のもたらす影響は少なくはありません。

晴花

56

したがって今度は,それぞれの階級を束ねるにあたって,併合前の階級の幅を保持したまま処理してみたいと思います。


結果は下図を見ればいわずもがな,といったところでしょうか。こちらの方法でも山の特徴点が元のそれとおおきくズレてしまいます。「適度に忠実に反映」を目指す意のもとではなんだか用をなしません。

Tips) [累積度数]階級を併合する場合のまずい例2

度数は柱の「面積」によって表現される

晴花

57

等間隔に階級をとってヒストグラムをつくっていくときは,こうした感覚に悩まされることもありません。ただ,今回のように「併合」というアクションを考えると,先のような矛盾というか不都合にぶつかるかもしれません。この場合,ヒストグラムに関する理解をすこーし進める必要に迫られます。

具体的には,ストリクトな意味においては,度数はグラフの柱にいう“高さ”でなく面積によって示されているものであることを,あらたに掬い上げる必要があります。

このページの最初の「誤読をふせぐ意味合いからも,これは原則としては等間隔であるべきとされるところ」とした言及は,以上のような背景があるゆえです。

ということでヒストグラムの横軸のラベルについて,ぱっと見の印象ではExcelの機能上に言う「棒グラフ」の項目名としての意味合いを強く感じてしまうところではあるのですが,実際にはこれが間隔としての意味をきちんと持っていて,どちらかといえば同じく機能上に言う「散布図」の目盛りの方に近い存在でなければならないことがわかります。このあたりが,外形的にはすこぶる似ている「棒グラフ」との決定的な違いといえるかもしれません。

度数をあらわすのは高さではなく「面積」

晴花

58

では,以上のような要点をふまえてヒストグラムを作り直してみます。

具体的には,併合の対象とした階級に関して,相対度数の合計を併合前の階級の数で除していきます([横]併合前の相対階級幅×[縦]平均相対度数併合後の相対度数)。

Tips) [累積度数]一部階級の併合(不等幅な階級のヒストグラム)

晴花

59

上のあらたなヒストグラムにも先と同じように度数折れ線を引いてやると,いよいよ納得のいく(=同じ分布だとみなせる)アウトプットとなりそうなことを確認できます。

ただ,ここでとりあげたような不等間隔な階級幅は,前例やガイドラインなどに拠ることができない場合には,使いどころの判断が難しいとは思います。ここではあくまで例外的処理としての扱いから例示したにすぎませんが,分野によってはたとえばマクロ経済の領域での記述統計においてよく利用されているのを見かけます。


階級幅の異なるヒストグラムの例

Examples, "Histogram" - Wikipedia[en] (ページ中段にイメージ)

このパターンのヒストグラムをExcelベースで描画するのはちょっとばかりややこしいです。作業効率の点からは「R」など他の処理系に依存した方がはかどるかもしれません。

累積相対度数とパーセンタイル

晴花

60

さて,今度は累積相対度数です。相対度数と同様に比較に強みを持ちますが,こちらはグラフ化することでなおのこと使い勝手のいいツールとなると言えるのではないでしょうか。

分析ツールのヒストグラムダイアログを操作する際,下のように累積度数分布の表示グラフ作成にチェックを入れておくことで…

Tips) 「ヒストグラム」ダイアログでの累積相対度数の設定項目

晴花

61

累積相対度数線の入ったヒストグラムの原型を簡単に作成することができます。作成された原型を加工すると,下のようなヒストグラムができあがります(加工については パレート図の作成 QC版 を参照ください)。

累積相対度数線の形から,全体の構成比の変化を直観的に確認する目的で利用されたりします(ただしグラフの階級のとり方 および縦横比を 異時点間で統一していることが前提)。

Tips) 累積相対度数線を加えたヒストグラム

晴花

62

これはまた,トップx%, ボトムx%分析にも利用できちゃいますね

たとえば売上上位20%の区切りとなるデータ(人)は,階級「60-69」にある(いる)ことが読み取れます。

いくつかの分布の混在が疑われる典型―高原・多峰型

晴花

63

次にヒストグラムの見方に関する補足です。

たとえば,私が毎月,以上みてきたデータ処理をしていたものとして,リサーチサービス社の個人別売上データを集計したヒストグラムは(乱暴な言い方ですが)正規分布ライクになることを感覚的に知っていたとします。

しかしある月,なにげに集計した結果次のようなヒストグラムが出力されてきたとしたら,ちょっと「ん!」ってカンジに目に留まると思います。

ドーム型(高原型)のヒストグラム

ふた山型のヒストグラム

晴花

64

こんなときは 層別 によって原因を掘り下げてみることも大事かもしれません。

上のヒストグラムのタネ明かしですが
紫の方は,この月「若手」「中堅」「熟練」社員による違いが色濃くなったことが,また緑の方は,この月「営業活動に重点的にリソースを注げたグループ」と「他のことも同時進行しなければならなかったグループ」による違いが顕著に出た結果だとわかりました。

「層別」に強い「度数折れ線」

晴花

65

最後に,ヒストグラムにくらべて見かける機会はぐっと減りますが,ヒストグラム様(よう)のグラフとして,先に例示したような「度数折れ線」または「度数多角形」などとよばれるグラフも利用することができます。こちらは,ヒストグラムの各“棒”の上辺の中点を左からつないだものです(エクセルでこれを作る場合は 別頁 )。

ただしこれを用いる場合,下のように折れ線下の面積がヒストグラムの外周線下の面積と同じになるよう,度数折れ線のグラフの両端には必ず度数0(ゼロ)をとる必要があります。

Tips) 度数折れ線

晴花

66

私は,この度数折れ線の最大の長所はやはり1枚のグラフの上での多系列の層別にだってまずまずに耐え抜いてしまうトコロにあると思っています(逆にそれが時系列の変化ではなく度数分布を表現するものと理解してもらうための努力は必要ですが)。同じ条件であれば,下図下段のように「ヒストグラム」ではそれがなかなかに難しいところです。

Tips) 度数折れ線

Tips) 度数折れ線

晴花

67

以上,今回は分析ツールでヒストグラムを作りましたが,今の方法以外でヒストグラムを作るとしたら…

countif関数を使うfrequency関数を使うピボットグラフを使う(以上,外部サイト ―「BDAstyle」)といった方法でも可能だと思います。

  • 本頁で使用したデータはすべて架空のものです。また特定の会社等に実在する人物名,および同場所で実際に観測されたデータ群などを根拠にしたものでもありません。
.

LastUpdate

2017.3.22

.
このページの先頭へ