子どもの頃から馴染みがあって、使いやすいため、「平均」ということばは、日常のいたるところで見かけます。
しかし、データ全体の特徴を分かりやすく見るために使われる代表値には、「平均値」以外にも、「中央値」、「最頻値」といった種類があることをご存じですか?
この記事では、データから実態を把握するために知っておきたい、これらの代表値について、メリット、デメリットを出来る限り分かりやすく説明していきます。
各数値の説明、使用例
ここからは、分かりやすく、会社Aと会社Bを例に出して、それぞれの値を考えていきましょう。会社A、会社Bの年収と人数の内訳は、以下の通りです。
①平均値
平均値とは「全ての値を足して、それを値の個数で割った値」です。
例えば、「1,2,3,4,10」とあった場合、これらの平均値は、4です。
2社の年収の平均を出してみると、会社Aの年収の平均値は約682万円。
会社Bの年収の平均値は、約708万円になりました。
もし、あなたが年収の多い会社に入りたいと考えていた時、あなたはどちらの会社を選びますか。
「年収の平均値が、会社Bの方が大きいから、会社Bに入ろう。」と考えませんか。
しかし、平均値だけを見て、会社Bに入社した場合、入社してからはじめて、ほとんどの人が年収400万円以下で働いていることに気付くことになるでしょう。
実際のデータを見てみましょう。
この会社には、年収7000万円の人が5人おり、この5人が平均値を底上げしていたことが分かります。
このように、平均値は、全ての値を計算に入れられる一方で、会社B内の年収7000万円の人のように、極端な数値も計算に加わってしまうため、注意が必要です。
平均値を使う前に、まず、各数値の分布が、どうなっているのかを確認する必要があります。
②中央値
中央値とは、「数値を小さい方から順に並べたときに、真ん中に位置する値」です。
そのため、極端な値があっても、無視されます。
例えば、数値が「1,2,3,4,5,6,1000」と小さい順に並べたとき、中央値は、4になります。
平均値に比べ、中央値自体は、極端な値である1000に影響を受けません。
会社Aの年収の中央値は720万円、会社Bの年収の中央値は300万円です。
平均値と違い、会社Bの年収が低い事を確認できるようになりました。
これを見ると、「最初から中央値で考えるべきだった。」と思うかもしれません。
しかし、会社Aが1年後、年収850万円以上の人たちを、全員800万円に減俸したとします。それでも、中央値は、720万円のままです。
「中央値は変わらないので、社員の待遇にも大きな変化はありません。」と説明されたとして、それは実態と合っているでしょうか?
このように、中央値は、データ全体ではなく、真ん中だけを表しているので、データの変化、比較には向いていない場合があります。
③最頻値
最頻値とは、「一番個数が多い値」です。
例えば、数値が「1,2,3,3,3,4,5,5,1000」とあったとき、最頻値は、3になります。
中央値と同様に、極端な値の影響は受けていません。
会社Aの最頻値は650万円で、会社Bの最頻値は300万円です。
こちらも中央値同様、会社Bの年収が低い事を確認できます。
しかし、最頻値にも問題点があります。
極端な話ですが、会社Aの社員の年収が各金額帯で、同数だった場合は、一番個数が多いものという概念がなくなるので、最頻値という数値の意味を成しません。
また、そもそものデータの数が少ない場合にも、理想的な結果は得られません。
結局どう選べばいいの?
適切な代表値を採用するまでの道のりは、以下の通りです。
①分布を見る。
②きれいなお山型の分布(会社Aのような形)→ 平均値
きれいな分布でない(会社Bのような形)→ 中央値、最頻値を確認する。
③データの個数が少ない場合は、最頻値は使わない。
きれいな分布でない場合、中央値や最頻値の両者とも使わない方が良い場合もあります。
例えば、分布の山が2つあるような場合です。
そういった場合は、ヒストグラムや箱ひげ図で分布について考えましょう。
まとめ
<平均値>「全ての値を足して、それを値の個数で割った値」
メリット:すべての値が抜けもれなく、平均値という数値に反映される。
デメリット:極端な値があった場合は、大きく影響を受けてしまう。
<中央値>「数値を小さい方から順に並べたときに、真ん中に位置する値」
メリット:極端な値があった場合でも、影響を受けづらい。
デメリット:データ全体の変化を見るとき、比較するときには向かないことがある。
<最頻値>「一番個数が多い値」
メリット:極端な値があった場合でも、影響を受けづらい。
デメリット:データの個数が少ない場合は使えない。
さて、何でも「平均」だけで考えてはいけないことは、お分かりいただけたでしょうか?
そして、ご紹介した3つの代表値にはそれぞれ特徴があり、いずれも相応しくない使い方をすると、データの実態を見誤ってしまうことが分かったと思います。
とは言え、データのボリュームがあまりにも大きいと、その分布をみて、その全貌を正しく把握するのは、なかなか大変です。
かっこでは、膨大なデータを正しく見られるように整理、集計、可視化することで、全員が実態を把握して、正しく判断するためのお手伝いをしています。
1億レコードを超えるようなデータであっても、ちゃんと見えるようにしますので、困った際には、ぜひ、かっこのデータサイエンスまでご相談ください。
1億レコードまでのデータであればよりお手軽に使える「さきがけKPI」というサービスもございます。ご検討ください。
こちらのストーリーは弊社データサイエンス事業部のオウンドメディア「かっこデータサイエンスぶろぐ」より転載しています。