2025/3/22

平均値、中央値、最頻値の使い分けは?具体例と合わせて代表値を解説【統計学】

Thumbnail for 平均値、中央値、最頻値の使い分けは?具体例と合わせて代表値を解説【統計学】

代表値とは

代表値とは、多数の数字によって構成されるデータを端的に示すための数値です。 データの中心的な傾向や特徴を示します。 データの代表となる値であり、データ間の比較や分析に用いることができます。

代表値には、平均値、中央値、最頻値があります。 これらはそれぞれ異なった特徴(メリット・デメリット)があるため、 適切な代表値を選択することが重要です。

それぞれの特徴と違い

3つの代表値である平均値、中央値、最頻値の それぞれの特徴と違いを紹介します。

平均値

平均値

定義 : データの合計をデータの個数で割った値
(全データを均した値。重心に位置する。)

データ全体の中心的な傾向を示す値

メリット

  • 計算の手間が比較的少ない : 計算で使用するのは足し算・割り算のみのため、他の代表値と比較して、計算が簡単。
  • 数学的・統計的応用範囲が広い : 多くの数学的・統計的手法では平均値を使用した計算が多く、応用範囲が広い。
  • データ全体を反映する : データ内のすべての値を使用して算出されるため、データ全体を反映する。 データがそぎ落とされていないため、データ数がわかれば総量も算出可能。

デメリット

  • 外れ値に敏感 : データに外れ値が含まれる場合、大きく影響を受ける。
  • 分布の偏りに対して無効 : データの分布が左右対称でない場合、平均値はデータの代表値として適切ではない場合がある。

中央値

中央値

定義 : 昇順 or 降順に並べたときに、中央に位置する値

データの代表的な傾向を示す値

メリット

  • 外れ値に対して影響が少ない : 外れ値の影響を受けにくく、データの代表値に使用できる。
  • 分布の偏りに対して有効 : データの分布が左右対称でない場合でも、その影響を受けづらい。

デメリット

  • 計算の手間が多い : データを昇順または降順に並び替える必要があり、四則演算以外が入るため、計算が複雑になる。
  • 数学的・統計学的応用範囲が狭い : 多くの数学的・統計的手法では平均値が使用されており、直接的に応用できる範囲は狭い。
  • データ全体を反映しない : 外れ値や分布の偏りに対する影響は少ない反面、中央のデータ付近以外を考慮せず、データ全体を反映しない。

最頻値

最頻値

定義 : データの中で出現頻度が一番高い値

データ内での一般的な値

メリット

  • 外れ値に対して影響が少ない : 外れ値の影響を受けにくく、データの代表値に使用できる(中央値と同様)。

  • 分布の偏りに対して有効 : データの分布が左右対称でない場合でも、その影響を受けづらい(中央値と同様)。

  • カテゴリデータに適する : 平均値や中央値と異なり、最頻値はカテゴリデータに適用できる (逆に、量的データでは使用しづらい)。

デメリット

  • 計算の手間が多い : データを昇順または降順に並び替える必要があり、四則演算以外が入るため、計算が複雑になる(中央値と同様)。

  • 数学的・統計学的応用範囲が狭い : 多くの数学的・統計的手法では平均値が使用されており、直接的に応用できる範囲は狭い(中央値と同様)。

  • データ全体を反映しない : 外れ値や分布の偏りに対する影響は少ない反面、分布のピーク付近のデータ以外を考慮せず、データ全体を反映しない(中央値と同様)。

  • わずかな差で大きく変わる可能性がある : 分布に複数のピークがあり、その頻度の差が小さい場合、わずかに頻度の値が変化しただけで結果が大きく変わる可能性がある。

  • 複数の値になる可能性がある : 最頻値は複数の値になる可能性がある。その場合、適切な解釈が必要。

3つの代表値の比較表

平均値中央値最頻値
計算の手間✅比較的少ない❌多い❌多い
数学的・統計学的応用範囲✅広い❌狭い❌狭い
データ全体を...✅反映する❌反映しない❌反映しない
外れ値に対して...❌敏感✅影響が少ない✅影響が少ない
分布の偏りに対して...❌無効✅有効✅有効
適したデータ量的データ量的データ
順位データ
順位データ
カテゴリデータ
その他❌わずかな差で大きく変わる可能性あり
🟡複数の値になる場合あり

量的データ、順位データ、カテゴリデータの関係

量的データ は、連続値を用いたデータのことで、さらに分類すると比率データや間隔データに分けられます。

順位データ は、大小関係はあるものの、その間隔に意味がない離散値を用いたデータのことです。
質的データに分類されます。

カテゴリデータ は、数値を用いないデータのことです。
質的データに分類されます。

分類データの種類
量的データ比率データ質量、時間、金額など
量的データ間隔データ温度、湿度など
質的データ順位データ満足度、成績順位など
質的データカテゴリデータ性別、血液型、都道府県など

具体例

以下は、各データに対する代表値の例です。

(分布の形状、外れ値の有無、分析の目的などによっては、 最適な代表値は以下から変わる場合があります)。

平均値が使用される例

データデータの種類分布の偏り・外れ値の大きさ
テストの得点量的データ
製品の寸法・重量データ量的データ
財務諸表の収益量的データ
日々の気温量的データ
GDP(一人当たりの国民全体の経済力)量的データ
商品の売り上げデータ量的データ

中央値が使用される例

データデータの種類分布の偏り・外れ値の大きさ
住宅(不動産)価格量的データ
所得量的データ
企業の給与量的データ
顧客滞在時間データ量的データ
顧客満足度調査の回答順位データ

最頻値が使用される例

データデータの種類分布の偏り・外れ値の大きさ
アンケート「好きな色は?」の回答カテゴリデータ
最も売れている商品サイズ順位データ
webサイトのアクセス時間帯分析順位データ

代表値の選定方法

代表値として平均値、中央値、最頻値のどれを選ぶか、選定方法を紹介します。

総合的な判断が必要

データの特性、分布の形状や分析の目的に応じて 適切な代表値を選択することが重要です。
代表値の選定方法は1通りだけではないので注意してください。

場合によっては、複数の代表値を併用すること、
他の統計値や分析方法を用いることも検討しましょう。

簡易フローチャート

以下は、代表値の選定方法を簡易的に示したフローチャートです。 主に、単峰性の分布を持つデータを対象としています。

カテゴリーデータ?カテゴリーデータ?頻度が重要?頻度が重要?順位データ?順位データ?分布は偏っている?or外れ値が大きい?分布は偏っている?or外れ値が大きい?データの背景全体の特徴も把握したい?データの背景全体の特徴も把握したい?最頻値最頻値平均値平均値他の代表値の併用、 多角的分析を検討 他の代表値の併用、 多角的分析を検討 中央値中央値NoNoNoNoNoNoYesYesNoNo終了終了NoNoYesYesYesYesYesYesYesYes

多峰性のデータの場合

多峰性の分布を持つデータの代表値の選定方法は簡単ではありません。 手っ取り早く行えるアプローチとしては、以下の2つがあります。

  • 方法1. 分布中の各ピークごとに最頻値を算出する。 複数の最頻値が得られる。

  • 方法2. 全データの中央値を算出する。 ピーク位置からはずれる可能性が大きいが、全体を代表する1つの中央値が得られる。

多峰性の分布を持つデータには、 複数のグループが混在している可能性が高いです。 可能であれば、それぞれのグループごとに分離して分析することが望ましいです。

とりあえず3つ算出するのも手

量的データの場合、 とりあえず3つの代表値を算出してみるのも手です。 3つの代表値に大きな差がなければ、 分布の偏りや外れ値がほとんどないと判断できます。

まとめ

3つの代表値のおおまかな選定方法について説明しました。 選定の基準は主に

  • 分布の偏りや外れ値の有無
  • データの種類

になりますが、 分布のピークの数、データの特性や分析の目的によっても 適切な代表値は変わります。 総合的に判断して、適切な代表値を選択することが重要です。


平均値平均値頻度頻度

中央値中央値50%50%50%50%頻度頻度

最頻値最頻値頻度頻度

サンプルデータ (テストの得点 )
テストの得点 [点]
1Score
252
370
477
5100
655
785
869
959
1058
1165
1272
1358
1470
1569
1642
1769
1861
1958
2073
2160
2282
2363
2451
2578
2666
2793
2881
2970
3075
3151
3273
3380
3479
3568
3672
3795
3865
3973
4080
4166
4286
4374
4490
4572
4664
4769
4883
4955
5068
5157
5255
5361
5456
5554
5668
5776
5858
5960
6078
6165
6263
6372
6456
6567
6677
6773
6866
6962
7059
7172
7270
7373
7465
7593
7655
7762
7871
7967
8073
8166
8277
8387
8471
8582
8664
8763
8879
8976
9065
9187
9279
9371
9451
9568
9686
9770
9865
9978
10077
10161
102
テストの得点 [点]テストの得点 [点]00.050.1度数度数

サンプルデータ (不動産価格 )
不動産価格 [10,000 JPY]
1Price (in 10,000 JPY)
2513
3662
4252
5335
61324
7402
8580
9750
10557
11109
12450
13293
141256
15468
16398
17365
18621
194
20464
211468
2270
23494
24627
25302
26346
27739
28169
29106
301574
31942
32203
33604
34804
35955
36957
37118
38869
39305
40768
41376
42140
43212
44205
45209
46234
47381
48454
4913
501287
51395
52638
531158
54143
55143
561058
57192
58124
59766
60997
61581
62563
63318
64264
65462
6614
671073
681013
69494
70218
7141
72835
73726
74273
75568
76582
77244
78125
79493
80144
81582
822024
8397
84216
85487
86174
87565
88266
89326
90621
91894
9271
93331
94389
95108
96257
971125
98734
99842
100209
101634
102
不動産価格 [10,000 JPY]不動産価格 [10,000 JPY]00.050.1度数度数
サンプルデータ (顧客満足度)
顧客満足度
1評価
24
33
43
55
65
74
85
92
102
112
125
133
143
153
165
172
181
192
202
213
222
232
242
252
262
274
281
292
305
313
324
333
342
353
363
373
385
394
403
412
424
432
441
451
463
474
483
494
504
513
524
531
541
553
562
573
585
592
605
615
622
632
642
654
663
674
684
692
702
712
724
735
744
755
764
774
783
795
805
812
825
832
844
852
862
872
883
894
902
912
924
934
944
952
962
974
985
992
1002
1012
顧客満足度顧客満足度00.050.1度数度数

サンプルデータ (好みの色)
好みの色
1好きな色
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
好みの色好みの色00.050.1度数度数