基本統計量(品質管理検定®︎3級・QC検定®︎3級)

ビジネスにおける意思決定において、数値データは不可欠な羅針盤です。しかし、手元にある大量の数値をただ眺めるだけでは、本質を見誤るリスクがあります。データを整理し、その傾向を正確に把握するための「基本統計量」について、具体的な公式と数値例を交えて解説します。

1. 全体を代表する「中心」を捉える方法

データ群がどのような傾向にあるかを知るために、まずは「グループを代表する値」を求めます。

平均値(Mean)

すべてのデータの総和をデータの数で割った値です。

【公式】 $$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$$

(n: データ数、xi: 各データ)

計算例:ある店舗の客単価
データ:1,000円、1,200円、1,500円、1,300円、10,000円 $$\text{平均} = \frac{1,000 + 1,200 + 1,500 + 1,300 + 10,000}{5} = 3,000\text{円}$$

メディアン(中央値:Median)

データを小さい順に並べた際、真ん中に位置する値です。

計算例:上記の店舗のケース
並び替え:1,000、1,200、1,300、1,500、10,000 $$\text{中央値} = 1,300\text{円}$$

ポイント:外れ値(10,000円)の影響を強く受ける平均値に対し、中央値は実態に近い「多数派の傾向」を示します。

2. データの「ばらつき」を深く理解する指標

ここでは、以下の3つのデータを例に計算プロセスを見ていきます。
サンプルデータ: x = {10, 20, 30} (平均:20)

分散(Variance)

各データの「平均値からのズレ(偏差)」を二乗し、その平均をとったものです。

【公式】 $$s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})^2$$

  • 計算例
    1. 偏差を出す:$$(10-20), (20-20), (30-20) \rightarrow -10, 0, 10$$
    2. 二乗する:$$(-10)^2, 0^2, 10^2 \rightarrow 100, 0, 100$$
    3. 平均をとる:$$(100 + 0 + 100) \div 3 \approx 66.7$$

標準偏差(Standard Deviation)

分散の平方根をとったものです。元のデータと単位を揃えるために用います。

【公式】 $$s = \sqrt{s^2}$$

  • 計算例: $$\sqrt{66.7} \approx 8.16$$ この数値が大きいほど、データが平均から遠くに散らばっていることを意味します。

不偏分散(Unbiased Variance)

標本から母集団のばらつきを推定する際に使用します。n ではなく n – 1 で割ります。

【公式】 $$u^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i – \bar{x})^2$$

  • 計算例: $$(100 + 0 + 100) \div (3 – 1) = 100$$
  • なぜ n – 1 か?:限られたサンプルでは、真のばらつき(母分散)を小さく見積もってしまう傾向があるため、n – 1 で割ることでその誤差を補正します。

3. 異なるグループを比較する「変動係数」

変動係数(CV:Coefficient of Variation)

単位や規模が異なるデータの「相対的なばらつき」を比較するための指標です。

【公式】 $$CV = \frac{s}{\bar{x}}$$

  • 計算例:売上規模の違う支店の比較
    • A店: 平均100万円、標準偏差10万円 → CV = 10 ÷ 100 = 0.1
    • B店: 平均10万円、標準偏差2万円 → CV = 2 ÷ 10 = 0.2
  • 解釈:標準偏差だけ見ればA店(10万)の方が大きく見えますが、売上規模に対する安定性はB店(0.2)の方が低い(ばらつきが激しい)ことがわかります。

まとめ:指標の使い分け一覧

指標公式(イメージ)活用シーン
平均値$$\sum{ \frac { x }{ n }}$$全体の重心を知る。予算策定など
中央値真ん中の順位一般的な層(年収など)の把握
分散偏差二乗の平均統計的な計算のプロセスで利用
標準偏差$$\sqrt{\text{分散}}$$品質管理、リスクの度合いの判定
不偏分散$$\frac{偏差二乗和}{n-1}$$抜き取り調査から全体を推測する
変動係数$$\frac{標準偏差}{平均}$$スケールの違う対象の安定性比較

データを「平均値」という一点だけで捉えるのではなく、これらの公式を背景とした「ばらつき」の視点を持つことで、数値の背後にあるリスクや機会をより正確に捉えられるようになります。