blog/content/post/2011/02/13/2011-02-13-『rによるやさしい統計学』のお勉...

4.9 KiB
Raw Blame History

title author date wordtwit_post_info categories
『Rによるやさしい統計学』のお勉強 (2) kazu634 2011-02-13
O:8:"stdClass":13:{s:6:"manual";b:0;s:11:"tweet_times";s:1:"1";s:5:"delay";s:1:"0";s:7:"enabled";s:1:"1";s:10:"separation";i:60;s:7:"version";s:3:"3.7";s:14:"tweet_template";b:0;s:6:"status";i:2;s:6:"result";a:0:{}s:13:"tweet_counter";i:2;s:13:"tweet_log_ids";a:1:{i:0;i:5417;}s:9:"hash_tags";a:0:{}s:8:"accounts";a:1:{i:0;s:7:"kazu634";}}
R

二日目です。とりあえず続けるぞ。

2.5 平均とは

  • 代表値: 分布の中心的位置を示す、そのデータを代表する値のこと

→ 平均は代表値の一つ

> sum(1,2,3,4,5,6,7,8,9,10)
[1] 55
> test_a <- c(10, 13, 8, 15, 8)
> sum(test_a)
[1] 54
> sum(test_a) / 5
[1] 10.8
> sum(test_a) / length(test_a)
[1] 10.8
> mean(test_a)
[1] 10.8

2.6 平均以外の代表値

代表値として平均を用いることは非常に一般的ですが、平均以外の代表値もあります。中央値と最頻値が知られています。

  • 中央値: データを大きさの順に並べた場合真ん中に位置する値のこと
> median(test_a)
[1] 10

→ 真ん中が存在しない場合は、真ん中の2つの値の平均をもって中央値とすることが一般的です。

  • 最頻値: 最も頻繁に観測される値のこと

 

  • データに外れ値*1のある場合など、中央値が用いられる場合はありますが、一般的には、代表値としては平均を用いると考えて差し支えありません。
  • 質的変数については、平均・中央値が計算できないので、代表値は必然的に最頻値となります

Rによるやさしい統計学

Rによるやさしい統計学

*1:他のデータの値から極端に離れた値