ひとりマーケティングのためのデータ分析

TOOLS / GENERATOR

「データの形」を見る。

平均だけでは見えないものが、分布には宿っている。

2026/5/29

平均値は、分布の「形」を教えてくれない

データを集計するとき、最初に求めるのは平均値という方がほとんどです。 それは間違いではありませんが、平均値だけでは見えないものがあります。 平均が同じ2つのデータセットでも、一方は値が中央付近に集中していて、 もう一方は両端に散らばっている——ということが起きます。 さらに、外れ値が1つあるだけで平均は大きく歪みます。

このページでは、データの「形」を見るための3つのツールを紹介します。 手元のデータの分布を探索するヒストグラム・幹葉図と、 統計的検定の理論分布を図示する分布曲線ジェネレーターです。

平均値が同じでも、分布が異なれば意味が変わる

アンケートの満足度スコアの平均が3.5点だったとします。 これは「3点と4点が多い普通の分布」かもしれませんし、 「1点と5点に二極化したU字型の分布」かもしれません。 どちらも平均3.5ですが、意味はまったく異なります。 前者は「可もなく不可もない」、後者は「熱狂と失望が混在している」です。

平均値だけでは見えない現象

  • 二峰性(バイモーダル)——2つの山がある分布。平均はその谷間を指すが、誰もそこにいない
  • 右裾・左裾の歪み——少数の極端な値が平均を引っ張り、実態とかけ離れた代表値になる
  • 外れ値の存在——1件の異常値が平均を大きく変えることがある。ヒストグラムで即座に発見できる
  • 分布の幅(ばらつき)——平均が同じでも、標準偏差が2倍違えばデータの意味は大きく異なる
晴花

HARUKA

統計的検定の多くは、データが正規分布に従うという前提を持つ。 しかし実務データはしばしばその前提を満たさない。 検定を適用する前にヒストグラムで分布の形を確認することは、 統計的推測の作法として基本中の基本。 形を見ずに検定をするのは、地図を見ずに目的地に向かうようなものだね。

3つのツールが答える、それぞれの問い

このページで紹介する3つのツールはいずれも「分布」を扱いますが、 対象とするデータと問いが異なります。

HISTOGRAM

ヒストグラム

対象:手元の実データ

「このデータはどんな形をしているか」

実データを階級に区切り、度数の分布を棒グラフで表示。分布の全体像を掴む最初の一手。

STEM-AND-LEAF

幹葉図

対象:手元の実データ

「分布の形を見ながら、個々の値も読みたい」

ヒストグラムと同じ情報量を保ちながら、元データの値が図の中に残る。探索的分析の精密ツール。

DISTRIBUTION CURVE

分布曲線

対象:理論分布

「検定の棄却域とP値を図で示したい」

t分布・正規分布・χ²分布・F分布の確率密度曲線に棄却域を重ねる。授業・レポート用の説明図の作成に。

綾子

AYAKO

「手元のデータの形を見たい」ならヒストグラムか幹葉図、 「検定の図を資料に貼りたい」なら分布曲線ジェネレーター—— という使い分けが基本です。 ヒストグラムと幹葉図のどちらを選ぶかは、 「形だけ見たい」か「値も読みたい」かで決まります。

ヒストグラム・層別ヒストグラムジェネレーター

ヒストグラムは、連続データを一定の幅の階級に区切り、 各階級に含まれるデータの個数(度数)を棒の高さで表したグラフです。 分布の形——対称か歪んでいるか、山が一つか複数か、外れ値があるか——を 一目で把握できます。

このジェネレーターは階級幅の決定アルゴリズムを スタージェス・平方根・スコット・手動指定の4種から選べます。 階級幅によって見え方が変わるため、複数の設定で試すことが探索的分析の基本です。 正規曲線・KDE(カーネル密度推定)・平均値線・±σ範囲の表示切り替え、 グループ列による層別ヒストグラムにも対応しています。

晴花

HARUKA

階級幅の選択はヒストグラム解釈の急所。 幅が広すぎると分布の細部が潰れ、狭すぎるとノイズが目立って形が見えなくなる。 スタージェスの公式は小〜中規模データに、 スコットはより大きなデータに向いている。 一種類の設定だけを信頼せず、複数試して形が安定しているか確認するのが正しい使い方、といえる。

GENERATOR 01 ヒストグラム・層別ヒストグラムジェネレーター データの「かたち」を、ひと目でつかむ。 数値列をコピペするだけ。4種の階級幅ロジック、正規曲線・KDE・σ範囲の表示切り替え、層別表示に対応。 ジェネレーターを開く

幹葉図ジェネレーター:分布の形を見ながら値を読む

幹葉図(Stem-and-Leaf Plot)は、1970年代に統計学者John W. Tukeyが 探索的データ解析(EDA)の文脈で体系化した分布表示手法です。 データを「幹(Stem)」と「葉(Leaf)」に分解し、 テキストのまま分布の形を可視化します。

ヒストグラムとの最大の違いは、元のデータ値が葉として図の中に残る点です。 分布の形を俯瞰しながら、同時に個々の値を読み取れます。 外れ値の数値確認、中央値・四分位数の目視、分布の対称性の判断—— これらをヒストグラムより詳細に、生データよりコンパクトに行えます。 データ件数が数十〜数百程度の場合に特に有効です。

綾子

AYAKO

ヒストグラムで「この辺に外れ値っぽい値がある」と思っても、 具体的にどの値かはヒストグラムから読めないじゃないですか。 幹葉図なら「87という値が1件だけ飛び出している」というのが図を見れば即わかります。 小規模データの最初の探索ツールとして、私はよく使います。

GENERATOR 02 幹葉図ジェネレーター データの声は、葉の並びに宿る。 数値列を貼り付けるだけで即生成。分布の形を見ながら個々の値が読める、探索的分析の精密ツール。 ジェネレーターを開く

分布曲線ジェネレーター:検定の「棄却域」を図で見せる

このツールは実データを入力するものではなく、 理論分布の確率密度曲線を描くジェネレーターです。 t分布・正規分布(z検定)・χ²分布・F分布に対応しており、 自由度・有意水準・検定統計量を入力すると、棄却域・棄却限界値・P値を 曲線上に重ねて図示します。

統計の授業・ゼミ・社内勉強会での説明資料や、 分析レポートに「この検定ではこの領域が棄却域」という図を添えたいときに使います。 Excelやプログラミングなしで、そのまま資料に貼れるSVG・PNGを生成できます。

晴花

HARUKA

「p値が0.03だから有意」という結論だけを書いた分析レポートは、 読む側に検定の構造が伝わりにくい。 分布曲線に棄却域と検定統計量の位置を重ねた図を添えることで、 「この値がどれだけ稀か」が視覚的に伝わり、説明の説得力が上がる。 数値だけのレポートと図入りのレポートでは、読後の理解度がまったく違う。

GENERATOR 03 統計的検定 分布曲線ジェネレーター 棄却域と限界値を、そのまま資料に貼れる図で。 t・z・χ²・F分布に対応。自由度・有意水準を入力するだけで棄却域・P値を図示。SVG・PNG出力。 ジェネレーターを開く

綾子