2026/5/29
平均値は、分布の「形」を教えてくれない
データを集計するとき、最初に求めるのは平均値という方がほとんどです。 それは間違いではありませんが、平均値だけでは見えないものがあります。 平均が同じ2つのデータセットでも、一方は値が中央付近に集中していて、 もう一方は両端に散らばっている——ということが起きます。 さらに、外れ値が1つあるだけで平均は大きく歪みます。
このページでは、データの「形」を見るための3つのツールを紹介します。 手元のデータの分布を探索するヒストグラム・幹葉図と、 統計的検定の理論分布を図示する分布曲線ジェネレーターです。
平均値が同じでも、分布が異なれば意味が変わる
アンケートの満足度スコアの平均が3.5点だったとします。 これは「3点と4点が多い普通の分布」かもしれませんし、 「1点と5点に二極化したU字型の分布」かもしれません。 どちらも平均3.5ですが、意味はまったく異なります。 前者は「可もなく不可もない」、後者は「熱狂と失望が混在している」です。
平均値だけでは見えない現象
- 二峰性(バイモーダル)——2つの山がある分布。平均はその谷間を指すが、誰もそこにいない
- 右裾・左裾の歪み——少数の極端な値が平均を引っ張り、実態とかけ離れた代表値になる
- 外れ値の存在——1件の異常値が平均を大きく変えることがある。ヒストグラムで即座に発見できる
- 分布の幅(ばらつき)——平均が同じでも、標準偏差が2倍違えばデータの意味は大きく異なる
HARUKA
統計的検定の多くは、データが正規分布に従うという前提を持つ。 しかし実務データはしばしばその前提を満たさない。 検定を適用する前にヒストグラムで分布の形を確認することは、 統計的推測の作法として基本中の基本。 形を見ずに検定をするのは、地図を見ずに目的地に向かうようなものだね。
3つのツールが答える、それぞれの問い
このページで紹介する3つのツールはいずれも「分布」を扱いますが、 対象とするデータと問いが異なります。
HISTOGRAM
ヒストグラム
対象:手元の実データ
「このデータはどんな形をしているか」
実データを階級に区切り、度数の分布を棒グラフで表示。分布の全体像を掴む最初の一手。
STEM-AND-LEAF
幹葉図
対象:手元の実データ
「分布の形を見ながら、個々の値も読みたい」
ヒストグラムと同じ情報量を保ちながら、元データの値が図の中に残る。探索的分析の精密ツール。
DISTRIBUTION CURVE
分布曲線
対象:理論分布
「検定の棄却域とP値を図で示したい」
t分布・正規分布・χ²分布・F分布の確率密度曲線に棄却域を重ねる。授業・レポート用の説明図の作成に。
AYAKO
「手元のデータの形を見たい」ならヒストグラムか幹葉図、 「検定の図を資料に貼りたい」なら分布曲線ジェネレーター—— という使い分けが基本です。 ヒストグラムと幹葉図のどちらを選ぶかは、 「形だけ見たい」か「値も読みたい」かで決まります。
ヒストグラム・層別ヒストグラムジェネレーター
ヒストグラムは、連続データを一定の幅の階級に区切り、 各階級に含まれるデータの個数(度数)を棒の高さで表したグラフです。 分布の形——対称か歪んでいるか、山が一つか複数か、外れ値があるか——を 一目で把握できます。
このジェネレーターは階級幅の決定アルゴリズムを スタージェス・平方根・スコット・手動指定の4種から選べます。 階級幅によって見え方が変わるため、複数の設定で試すことが探索的分析の基本です。 正規曲線・KDE(カーネル密度推定)・平均値線・±σ範囲の表示切り替え、 グループ列による層別ヒストグラムにも対応しています。
HARUKA
階級幅の選択はヒストグラム解釈の急所。 幅が広すぎると分布の細部が潰れ、狭すぎるとノイズが目立って形が見えなくなる。 スタージェスの公式は小〜中規模データに、 スコットはより大きなデータに向いている。 一種類の設定だけを信頼せず、複数試して形が安定しているか確認するのが正しい使い方、といえる。
幹葉図ジェネレーター:分布の形を見ながら値を読む
幹葉図(Stem-and-Leaf Plot)は、1970年代に統計学者John W. Tukeyが 探索的データ解析(EDA)の文脈で体系化した分布表示手法です。 データを「幹(Stem)」と「葉(Leaf)」に分解し、 テキストのまま分布の形を可視化します。
ヒストグラムとの最大の違いは、元のデータ値が葉として図の中に残る点です。 分布の形を俯瞰しながら、同時に個々の値を読み取れます。 外れ値の数値確認、中央値・四分位数の目視、分布の対称性の判断—— これらをヒストグラムより詳細に、生データよりコンパクトに行えます。 データ件数が数十〜数百程度の場合に特に有効です。
AYAKO
ヒストグラムで「この辺に外れ値っぽい値がある」と思っても、 具体的にどの値かはヒストグラムから読めないじゃないですか。 幹葉図なら「87という値が1件だけ飛び出している」というのが図を見れば即わかります。 小規模データの最初の探索ツールとして、私はよく使います。
GENERATOR 02 幹葉図ジェネレーター データの声は、葉の並びに宿る。 数値列を貼り付けるだけで即生成。分布の形を見ながら個々の値が読める、探索的分析の精密ツール。 ジェネレーターを開く
分布曲線ジェネレーター:検定の「棄却域」を図で見せる
このツールは実データを入力するものではなく、 理論分布の確率密度曲線を描くジェネレーターです。 t分布・正規分布(z検定)・χ²分布・F分布に対応しており、 自由度・有意水準・検定統計量を入力すると、棄却域・棄却限界値・P値を 曲線上に重ねて図示します。
統計の授業・ゼミ・社内勉強会での説明資料や、 分析レポートに「この検定ではこの領域が棄却域」という図を添えたいときに使います。 Excelやプログラミングなしで、そのまま資料に貼れるSVG・PNGを生成できます。
HARUKA
「p値が0.03だから有意」という結論だけを書いた分析レポートは、 読む側に検定の構造が伝わりにくい。 分布曲線に棄却域と検定統計量の位置を重ねた図を添えることで、 「この値がどれだけ稀か」が視覚的に伝わり、説明の説得力が上がる。 数値だけのレポートと図入りのレポートでは、読後の理解度がまったく違う。