データ全体の持つ情報を1つの値にまとめる作業を数値要約といい、要約された値を要約統計量という。
数値統計量として、代表値と散布度がある。
代表値
データ全体を1つの値で代表させるとき、この値を代表値という。
代表値には、平均、中央値(メディアン)、最頻値(モード)がある。
- 平均値・・データの値すべてを加算して、データ数で割った値。
- 中央値・・大きさ順に並べた時の、真ん中の値。
- 最頻値・・出現頻度の最も高い値。
この3つの使い分けは、外れ値の影響や、データの分布の仕方を考慮して行う必要がある。
散布度
データがどれだけばらついているか、に関する指標を散布度という。
散布度には、平均偏差、分散、標準偏差、範囲(レンジ)がある。
- 平均偏差・・平均からの偏差の絶対値の平均値
- 分散・・平均からの偏差の二乗の平均値
- 標準偏差・・分散の平方根
- 範囲・・最大値と最小値の差
コメント