代表値とは
代表値とは、多数の数字によって構成されるデータを端的に示すための数値です。
代表値には、平均値、中央値、最頻値があります。
それぞれの特徴と違い
3つの代表値である平均値、中央値、最頻値の
平均値
平均値
定義 : データの合計をデータの個数で割った値
(全データを均した値。重心に位置する。)データ全体の中心的な傾向を示す値
メリット
- 計算の手間が比較的少ない : 計算で使用するのは足し算・割り算のみのため、他の代表値と比較して、計算が簡単。
- 数学的・統計的応用範囲が広い : 多くの数学的・統計的手法では平均値を使用した計算が多く、応用範囲が広い。
- データ全体を反映する : データ内のすべての値を使用して算出されるため、データ全体を反映する。
データがそぎ落とされていないため、データ数がわかれば総量も算出可能。
デメリット
- 外れ値に敏感 : データに外れ値が含まれる場合、大きく影響を受ける。
- 分布の偏りに対して無効 : データの分布が左右対称でない場合、平均値はデータの代表値として適切ではない場合がある。
中央値
中央値
定義 : 昇順 or 降順に並べたときに、中央に位置する値
データの代表的な傾向を示す値
メリット
- 外れ値に対して影響が少ない : 外れ値の影響を受けにくく、データの代表値に使用できる。
- 分布の偏りに対して有効 : データの分布が左右対称でない場合でも、その影響を受けづらい。
デメリット
- 計算の手間が多い : データを昇順または降順に並び替える必要があり、四則演算以外が入るため、計算が複雑になる。
- 数学的・統計学的応用範囲が狭い : 多くの数学的・統計的手法では平均値が使用されており、直接的に応用できる範囲は狭い。
- データ全体を反映しない : 外れ値や分布の偏りに対する影響は少ない反面、中央のデータ付近以外を考慮せず、データ全体を反映しない。
最頻値
最頻値
定義 : データの中で出現頻度が一番高い値
データ内での一般的な値
メリット
-
外れ値に対して影響が少ない : 外れ値の影響を受けにくく、データの代表値に使用できる(中央値と同様)。
-
分布の偏りに対して有効 : データの分布が左右対称でない場合でも、その影響を受けづらい(中央値と同様)。
-
カテゴリデータに適する : 平均値や中央値と異なり、最頻値はカテゴリデータに適用できる
(逆に、量的データでは使用しづらい)。
デメリット
-
計算の手間が多い : データを昇順または降順に並び替える必要があり、四則演算以外が入るため、計算が複雑になる(中央値と同様)。
-
数学的・統計学的応用範囲が狭い : 多くの数学的・統計的手法では平均値が使用されており、直接的に応用できる範囲は狭い(中央値と同様)。
-
データ全体を反映しない : 外れ値や分布の偏りに対する影響は少ない反面、分布のピーク付近のデータ以外を考慮せず、データ全体を反映しない(中央値と同様)。
-
わずかな差で大きく変わる可能性がある : 分布に複数のピークがあり、その頻度の差が小さい場合、わずかに頻度の値が変化しただけで結果が大きく変わる可能性がある。
-
複数の値になる可能性がある : 最頻値は複数の値になる可能性がある。その場合、適切な解釈が必要。
3つの代表値の比較表
| 平均値 | 中央値 | 最頻値 | |
|---|---|---|---|
| 計算の手間 | ✅比較的少ない | ❌多い | ❌多い |
| 数学的・統計学的応用範囲 | ✅広い | ❌狭い | ❌狭い |
| データ全体を... | ✅反映する | ❌反映しない | ❌反映しない |
| 外れ値に対して... | ❌敏感 | ✅影響が少ない | ✅影響が少ない |
| 分布の偏りに対して... | ❌無効 | ✅有効 | ✅有効 |
| 適したデータ | 量的データ | 量的データ 順位データ | 順位データ カテゴリデータ |
| その他 | ❌わずかな差で大きく変わる可能性あり 🟡複数の値になる場合あり |
量的データ、順位データ、カテゴリデータの関係
量的データ は、連続値を用いたデータのことで、さらに分類すると比率データや間隔データに分けられます。
順位データ は、大小関係はあるものの、その間隔に意味がない離散値を用いたデータのことです。
質的データに分類されます。カテゴリデータ は、数値を用いないデータのことです。
質的データに分類されます。
分類 データの種類 例 量的データ 比率データ 質量、時間、金額など 間隔データ 温度、湿度など 質的データ 順位データ 満足度、成績順位など カテゴリデータ 性別、血液型、都道府県など
具体例
以下は、各データに対する代表値の例です。
(分布の形状、外れ値の有無、分析の目的などによっては、
平均値が使用される例
| データ | データの種類 | 分布の偏り・外れ値の大きさ |
|---|---|---|
| テストの得点 | 量的データ | 小 |
| 製品の寸法・重量データ | ||
| 財務諸表の収益 | ||
| 日々の気温 | ||
| GDP(一人当たりの国民全体の経済力) | ||
| 商品の売り上げデータ |
| テストの得点 [点] | |
| 1 | 52 |
| 2 | 70 |
| 3 | 77 |
| 4 | 100 |
| 5 | 55 |
| 6 | 85 |
| 7 | 69 |
| 8 | 59 |
| 9 | 58 |
| 10 | 65 |
| 11 | 72 |
| 12 | 58 |
| 13 | 70 |
| 14 | 69 |
| 15 | 42 |
| 16 | 69 |
| 17 | 61 |
| 18 | 58 |
| 19 | 73 |
| 20 | 60 |
| 21 | 82 |
| 22 | 63 |
| 23 | 51 |
| 24 | 78 |
| 25 | 66 |
| 26 | 93 |
| 27 | 81 |
| 28 | 70 |
| 29 | 75 |
| 30 | 51 |
| 31 | 73 |
| 32 | 80 |
| 33 | 79 |
| 34 | 68 |
| 35 | 72 |
| 36 | 95 |
| 37 | 65 |
| 38 | 73 |
| 39 | 80 |
| 40 | 66 |
| 41 | 86 |
| 42 | 74 |
| 43 | 90 |
| 44 | 72 |
| 45 | 64 |
| 46 | 69 |
| 47 | 83 |
| 48 | 55 |
| 49 | 68 |
| 50 | 57 |
| 51 | 55 |
| 52 | 61 |
| 53 | 56 |
| 54 | 54 |
| 55 | 68 |
| 56 | 76 |
| 57 | 58 |
| 58 | 60 |
| 59 | 78 |
| 60 | 65 |
| 61 | 63 |
| 62 | 72 |
| 63 | 56 |
| 64 | 67 |
| 65 | 77 |
| 66 | 73 |
| 67 | 66 |
| 68 | 62 |
| 69 | 59 |
| 70 | 72 |
| 71 | 70 |
| 72 | 73 |
| 73 | 65 |
| 74 | 93 |
| 75 | 55 |
| 76 | 62 |
| 77 | 71 |
| 78 | 67 |
| 79 | 73 |
| 80 | 66 |
| 81 | 77 |
| 82 | 87 |
| 83 | 71 |
| 84 | 82 |
| 85 | 64 |
| 86 | 63 |
| 87 | 79 |
| 88 | 76 |
| 89 | 65 |
| 90 | 87 |
| 91 | 79 |
| 92 | 71 |
| 93 | 51 |
| 94 | 68 |
| 95 | 86 |
| 96 | 70 |
| 97 | 65 |
| 98 | 78 |
| 99 | 77 |
| 100 | 61 |
中央値が使用される例
| データ | データの種類 | 分布の偏り・外れ値の大きさ |
|---|---|---|
| 住宅(不動産)価格 | 量的データ | 大 |
| 所得 | ||
| 企業の給与 | ||
| 顧客滞在時間データ | ||
| 顧客満足度調査の回答 | 順位データ |
| 不動産価格 [10,000 JPY] | |
| 1 | 513 |
| 2 | 662 |
| 3 | 252 |
| 4 | 335 |
| 5 | 1324 |
| 6 | 402 |
| 7 | 580 |
| 8 | 750 |
| 9 | 557 |
| 10 | 109 |
| 11 | 450 |
| 12 | 293 |
| 13 | 1256 |
| 14 | 468 |
| 15 | 398 |
| 16 | 365 |
| 17 | 621 |
| 18 | 4 |
| 19 | 464 |
| 20 | 1468 |
| 21 | 70 |
| 22 | 494 |
| 23 | 627 |
| 24 | 302 |
| 25 | 346 |
| 26 | 739 |
| 27 | 169 |
| 28 | 106 |
| 29 | 1574 |
| 30 | 942 |
| 31 | 203 |
| 32 | 604 |
| 33 | 804 |
| 34 | 955 |
| 35 | 957 |
| 36 | 118 |
| 37 | 869 |
| 38 | 305 |
| 39 | 768 |
| 40 | 376 |
| 41 | 140 |
| 42 | 212 |
| 43 | 205 |
| 44 | 209 |
| 45 | 234 |
| 46 | 381 |
| 47 | 454 |
| 48 | 13 |
| 49 | 1287 |
| 50 | 395 |
| 51 | 638 |
| 52 | 1158 |
| 53 | 143 |
| 54 | 143 |
| 55 | 1058 |
| 56 | 192 |
| 57 | 124 |
| 58 | 766 |
| 59 | 997 |
| 60 | 581 |
| 61 | 563 |
| 62 | 318 |
| 63 | 264 |
| 64 | 462 |
| 65 | 14 |
| 66 | 1073 |
| 67 | 1013 |
| 68 | 494 |
| 69 | 218 |
| 70 | 41 |
| 71 | 835 |
| 72 | 726 |
| 73 | 273 |
| 74 | 568 |
| 75 | 582 |
| 76 | 244 |
| 77 | 125 |
| 78 | 493 |
| 79 | 144 |
| 80 | 582 |
| 81 | 2024 |
| 82 | 97 |
| 83 | 216 |
| 84 | 487 |
| 85 | 174 |
| 86 | 565 |
| 87 | 266 |
| 88 | 326 |
| 89 | 621 |
| 90 | 894 |
| 91 | 71 |
| 92 | 331 |
| 93 | 389 |
| 94 | 108 |
| 95 | 257 |
| 96 | 1125 |
| 97 | 734 |
| 98 | 842 |
| 99 | 209 |
| 100 | 634 |
| 101 |
| 顧客満足度 | |
| 1 | 4 |
| 2 | 3 |
| 3 | 3 |
| 4 | 5 |
| 5 | 5 |
| 6 | 4 |
| 7 | 5 |
| 8 | 2 |
| 9 | 2 |
| 10 | 2 |
| 11 | 5 |
| 12 | 3 |
| 13 | 3 |
| 14 | 3 |
| 15 | 5 |
| 16 | 2 |
| 17 | 1 |
| 18 | 2 |
| 19 | 2 |
| 20 | 3 |
| 21 | 2 |
| 22 | 2 |
| 23 | 2 |
| 24 | 2 |
| 25 | 2 |
| 26 | 4 |
| 27 | 1 |
| 28 | 2 |
| 29 | 5 |
| 30 | 3 |
| 31 | 4 |
| 32 | 3 |
| 33 | 2 |
| 34 | 3 |
| 35 | 3 |
| 36 | 3 |
| 37 | 5 |
| 38 | 4 |
| 39 | 3 |
| 40 | 2 |
| 41 | 4 |
| 42 | 2 |
| 43 | 1 |
| 44 | 1 |
| 45 | 3 |
| 46 | 4 |
| 47 | 3 |
| 48 | 4 |
| 49 | 4 |
| 50 | 3 |
| 51 | 4 |
| 52 | 1 |
| 53 | 1 |
| 54 | 3 |
| 55 | 2 |
| 56 | 3 |
| 57 | 5 |
| 58 | 2 |
| 59 | 5 |
| 60 | 5 |
| 61 | 2 |
| 62 | 2 |
| 63 | 2 |
| 64 | 4 |
| 65 | 3 |
| 66 | 4 |
| 67 | 4 |
| 68 | 2 |
| 69 | 2 |
| 70 | 2 |
| 71 | 4 |
| 72 | 5 |
| 73 | 4 |
| 74 | 5 |
| 75 | 4 |
| 76 | 4 |
| 77 | 3 |
| 78 | 5 |
| 79 | 5 |
| 80 | 2 |
| 81 | 5 |
| 82 | 2 |
| 83 | 4 |
| 84 | 2 |
| 85 | 2 |
| 86 | 2 |
| 87 | 3 |
| 88 | 4 |
| 89 | 2 |
| 90 | 2 |
| 91 | 4 |
| 92 | 4 |
| 93 | 4 |
| 94 | 2 |
| 95 | 2 |
| 96 | 4 |
| 97 | 5 |
| 98 | 2 |
| 99 | 2 |
| 100 | 2 |
最頻値が使用される例
| データ | データの種類 | 分布の偏り・外れ値の大きさ |
|---|---|---|
| アンケート「好きな色は?」の回答 | カテゴリデータ | 大 |
| 最も売れている商品サイズ | 順位データ | |
| webサイトのアクセス時間帯分析 |
| 好みの色 | |
| 1 | 黄 |
| 2 | 赤 |
| 3 | 赤 |
| 4 | 黄 |
| 5 | 青 |
| 6 | 青 |
| 7 | 青 |
| 8 | 赤 |
| 9 | 赤 |
| 10 | 青 |
| 11 | 青 |
| 12 | 赤 |
| 13 | 青 |
| 14 | 青 |
| 15 | 青 |
| 16 | 青 |
| 17 | 青 |
| 18 | 赤 |
| 19 | 黄 |
| 20 | 青 |
| 21 | 赤 |
| 22 | 赤 |
| 23 | 赤 |
| 24 | 青 |
| 25 | 赤 |
| 26 | 黄 |
| 27 | 青 |
| 28 | 黄 |
| 29 | 黄 |
| 30 | 黄 |
| 31 | 青 |
| 32 | 赤 |
| 33 | 赤 |
| 34 | 黄 |
| 35 | 赤 |
| 36 | 赤 |
| 37 | 青 |
| 38 | 赤 |
| 39 | 黄 |
| 40 | 赤 |
| 41 | 赤 |
| 42 | 黄 |
| 43 | 青 |
| 44 | 青 |
| 45 | 青 |
| 46 | 青 |
| 47 | 青 |
| 48 | 青 |
| 49 | 黄 |
| 50 | 青 |
| 51 | 黄 |
| 52 | 黄 |
| 53 | 青 |
| 54 | 黄 |
| 55 | 黄 |
| 56 | 青 |
| 57 | 赤 |
| 58 | 黄 |
| 59 | 黄 |
| 60 | 赤 |
| 61 | 青 |
| 62 | 黄 |
| 63 | 赤 |
| 64 | 赤 |
| 65 | 黄 |
| 66 | 赤 |
| 67 | 赤 |
| 68 | 赤 |
| 69 | 青 |
| 70 | 赤 |
| 71 | 緑 |
| 72 | 赤 |
| 73 | 赤 |
| 74 | 赤 |
| 75 | 緑 |
| 76 | 青 |
| 77 | 青 |
| 78 | 青 |
| 79 | 赤 |
| 80 | 青 |
| 81 | 黄 |
| 82 | 青 |
| 83 | 赤 |
| 84 | 赤 |
| 85 | 黄 |
| 86 | 青 |
| 87 | 赤 |
| 88 | 緑 |
| 89 | 青 |
| 90 | 黄 |
| 91 | 黄 |
| 92 | 赤 |
| 93 | 赤 |
| 94 | 赤 |
| 95 | 赤 |
| 96 | 黄 |
| 97 | 黄 |
| 98 | 青 |
| 99 | 青 |
| 100 | 赤 |
代表値の選定方法
代表値として平均値、中央値、最頻値のどれを選ぶか、選定方法を紹介します。
総合的な判断が必要
データの特性、分布の形状や分析の目的に応じて 適切な代表値を選択することが重要です。
代表値の選定方法は1通りだけではないので注意してください。場合によっては、複数の代表値を併用すること、
他の統計値や分析方法を用いることも検討しましょう。
簡易フローチャート
以下は、代表値の選定方法を簡易的に示したフローチャートです。
多峰性のデータの場合
多峰性の分布を持つデータの代表値の選定方法は簡単ではありません。
-
方法1. 分布中の各ピークごとに最頻値を算出する。
複数の最頻値が得られる。 -
方法2. 全データの中央値を算出する。
ピーク位置からはずれる可能性が大きいが、全体を代表する1つの中央値が得られる。
多峰性の分布を持つデータには、
とりあえず3つ算出するのも手
量的データの場合、 とりあえず3つの代表値を算出してみるのも手です。
まとめ
3つの代表値のおおまかな選定方法について説明しました。
- 分布の偏りや外れ値の有無
- データの種類
になりますが、