はじめに
こんにちは。今回は、データの要約についてまとめてみたいと思います。
データの要約と言われてもピンと来ないかもしれませんが、大丈夫です!
例えば、あなたが住んでいる地域の夏の気温について聞かれたとき、7-8月の平均気温などを返答することが多いのではないでしょうか。
これも立派なデータの要約です。ある地方の夏の気温を要約して平均値を回答した訳です。
主な代表値には、平均値、中央値、最頻値があります。
それらの特徴について触れてみたいと思います。
平均値
聞いたことが無い人はいないのではではないかという値、平均値。
最もよく使われる代表値です。
データをX1、X2、X3…Xnとすると、
平均値は、(X1+X2+X3+…+Xn)/ n と表されます。
中央値
データを小さい順に並べた時に真ん中に来る値、中央値。
データが偶数個なら真ん中の2つの値を足して2で割った値が中央値になります。
正規分布を取らない母集団の要約には、中央値がよく使用されます。
最頻値
データの中で最も頻繁に現れる値、最頻値。
連続値のデータでは、度数分布の中で最も出現回数の多い範囲における中央の値が最頻値になります。
各代表値の違い
主な代表値である、平均値、中央値、最頻値を取り上げましたが、同じデータでも、それぞれが指す値が異なることがあります。
例えば、平均値は外れ値に影響されやすいです。
具体例として花巻東高校の卒業生の平均年収が昨今では話題になりました。
2023年にメジャーリーガーの大谷選手が、ロサンゼルス・ドジャースと10年で7億ドル(約1000億円)の大型契約を結びました。
この結果、大谷選手の母校である花巻東高校の2013年度卒業生の平均年収が4000万円になったと話題になりました。
もちろん4000万円稼いでいる人もいるかもしれませんが、大谷選手という外れ値によって平均値は大きく影響されてしまうという印象的な例でした。
どの代表値を採用するかはデータの分布によります。
- 正規分布ならば、平均値
- それ以外の分布であれば、中央値や最頻値
といった具合に使い分けてもらえればよいのではないでしょうか。
そして、分布について別記事でも解説します。
この記事が皆様のお役に立でば幸いです。