平均年収と正規分布の練習
修了したビジネススクールのアシスタントとして統計学の授業に参加しています。20名ほどが選択して受講していますが、ハタメだと受講生が理解しているかどうかわからないものです…(先生がわかってるかもしれないけど)。
授業は基本、SPSS を使って進行(学生は1000円で1年ライセンスがもらえる。うらやましい)。先日は正規分布と推定・検定でした。ここで備忘録として、正規分布に関連する R の関数を記録しておきます。
まず、rnorm()。ある平均、標準偏差を設定した正規分布から指定した個数の数字を出してくれます。年収が正規分布しているとして(たぶんしてない)、平均367万円、標準偏差135万円の場合、ランダムにサンプルを50個とるには、
> df <- rnorm(50, 367, 135)
> head(df)
[1] 446.8296 219.2281 410.4212 246.3494 450.3918 452.1416
次に、pnorm()。平均367万円、標準偏差135万円で、年収500万円までの人の割合は次のように出します。つまり、83.7%。逆に言えば、年収500万円より大きい人は全体の2割より小さい(100-83.7)。
> pnorm(500, 367, 135)
[1] 0.8377334
最後に、qnorm()。全体の7割を占めるまでの年収は次のとおりでqnorm()を使います。それによると437万円。
> qnorm(0.7, 367, 135)
[1] 437.7941
また、上位5%の人たちが年収いくら以上かを調べると589万円。
> qnorm(0.95, 367, 135)
[1] 589.0552
繰り返しますが、これは年収が正規分布に従っていた場合です。実際には「年収300万円以下の割合は40.9%」だそうです。確認してみます。pnorm() を使って、正規分布の場合の年収300万までの割合は
> pnorm(300, 367, 135)
[1] 0.3098427
で、30.9%。まぁ、実際とは違いが出ますね…(当たり前)。