Knowledge As Practice

JAIST(東京)で Transformative Service Research に取り組んでる社会人大学院生の研究・勉強メモ

M-1グランプリの結果の納得度を適切な仮説検定で調べてみる

はじめに

 
つい最近『P値 ―その正しい理解と適用』という本を読みました。

P値 ―その正しい理解と適用― (統計スポットライト・シリーズ)

P値 ―その正しい理解と適用― (統計スポットライト・シリーズ)

 
本当はベイズについて学びたいと思っているのですが,周りに理解者は少ないし,知識欲が高い人でも「学習コストが〜〜」という意見があったりして,やはり学位を取るまでは頻度主義で行くしかないかなぁと考えていたところ,ちょうどよい機会だったので手に取ってみました。

 
読みやすく薄い本で,短時間でP値の理解を深めることができます。ただ後半に進むほど数式が増えて,理解が難しくなったので8章以降は読んでいません。統計ユーザーにはそれくらいでいいかなと思います。

 
この『P値』ですが 「p値について正しく理解して統計的仮説検定を適切に行いましょう」という啓蒙書として読むことができます。p値への誤解を解く3章は「p値は小さいほどよいというのはまちがい」という基礎知識を知っている人にとっても,読めばさらにp値への理解が深まると思います。

 
5章では適切な仮説検定を行う手順が解説されています。簡単にまとめると

  • 意味ある差と見なせる基準(効果量)を決めましょう。
  • 有意水準,検出力(検定力)を設定して,サンプルサイズを決めましょう。
  • データを集めて分析し,p値を使って有意かどうか2分法(有意傾向とかいう謎ワードを使わない)で判断しましょう。

です。

 
サンプルサイズが大きいほどp値は小さくなるので,集められるならたくさんデータがあったほうがいいというわけでないわけです。

 
せっかく勉強したので実践しみようと思います。

 

本エントリーのねた

 
2018年のRアドベントカレンダー(5日目)のエントリーなので,もちろんRを使います。では,今回の分析ネタについて説明します。

 
先日(2018年12月2日)にM-1グランプリが開催されました。優勝したのは「霜降り明星」だったのですが,いっしょに視聴していた妻が「結果に納得いかない」みたいな態度だったので(妻は和牛ファン。メジャーになる前から応援していた),世の大勢がこの結果(審査員の判定)についてどう思っているのか調べてみることにしました。

 

分析手法とサンプルサイズの設計

 
M-1グランプリの結果について「納得しているか/していないか」について調査したいので,二項検定(もしくは母比率の検定)を使います。サンプルサイズを決めるために効果量を設定します。

 
効果量は「意味ある違い(インパクトの大きさ)」があると見なせる評価指標です。今回はそこそこ小さくてもOKと考えて,0.2にします。有意水準と検出力については,それぞれ一般的とされる5%と0.8に設定して両側検定を行います。

 
サンプルサイズを出すには,pwr パッケージを使います。pwr については,こちらのページでまとまっています。 http://monge.tec.fukuoka-u.ac.jp/r_analysis/effect_size_01.html

 
今回は二項検定なので,サンプルサイズを決めるために pwr.p.test() を利用します。決めたいサンプルサイズ n を NULL すればOK。

> library(pwr)
> pwr.p.test(h = 0.2, n = NULL, 
                    sig.level = 0.05, power = 0.8,
                    alternative ="two.sided")

     proportion power calculation for binomial distribution (arcsine transformation) 

              h = 0.2
              n = 196.2215
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

 
結果から,サンプルサイズ(上の結果のn)は200ほど必要だとわかりました。次に,データ集めに移ります。

 

データ集めと概要

 
サンプルはM-1グランプリの結果を知っている人から無作為に集めるのがいいのでしょう。しかし,現実的に個人でやるにはムリなので,アンケート調査の「アンとケイト」を利用しました。 https://research-ssl.ann-kate.jp

 
質問は『今年(2018年)のM-1グランプリの結果をご存じの方に質問します。優勝が「霜降り明星」であることについて,あなたは納得していますか? していませんか? どちらかお答えください』です。回答は「納得している」「納得していない」の2択で,ランダムに表示されるようにしました。

 
費用は10800円でした。本年のブログで5000円ほどアマゾンアフィリエイト収益があったので,費用の半分をそれにあてたと考えています。今年もいろんな人のブログや twitter の情報にたいへん助けられた(身近に量的研究している人がいないので孤独なんです)ので,個人的歳末還元祭としました。

 
データはこちらからダウンロードできます(エクセル形式)。ご自由にお使いください。

https://app.box.com/s/891kjk5adtt442wsjbgk2jyyvm4ovl3r

 
得られたデータの概要は次のとおりです。

性別 人数
女性 118
男性 82
世代 人数
15歳未満 2
15歳~19歳 11
20歳~29歳 44
30歳~39歳 41
40歳~49歳 36
50歳~59歳 32
60歳以上 34
納得している? 人数
納得していない 79
納得している 121

 
「納得していない」が79名,「納得している」が112名でした。納得している人が多いですね。帰無仮説検定に進みます。

 

分析と結果

 
今回は二項検定なので,binom.test() を使います。特別なパッケージは必要ないです。世間の結果への納得度に偏りがないならば,1人ごとの回答が「納得している/していない」のどちらかになる確率(二項分布のパラメータ)は0.5になります。

 
帰無仮説は「納得度に偏りがない(パラメータ=0.5)」,対立仮説は「納得度に偏りがある(パラメータ≠0.5)」です。データより,200人中121人が「納得している」と答えたので,分析コードは次のとおりになります。x が「納得している」と答えた人の数,n がサンプルサイズ,p がパラメータです。

> binom.test(x = 121, n = 200, p = 0.5,
           alternative = "two.sided",
           conf.level = 0.95)
           
    Exact binomial test

  data:  121 and 200
  number of successes = 121, number of trials = 200, p-value = 0.003635
  alternative hypothesis: true probability of success is not equal to 0.5
  95 percent confidence interval:
   0.5336036 0.6732350
  sample estimates:
  probability of success 
                   0.605            
           

 
分析結果より p 値が 0.05 より小さく,有意水準5%で差があると言えました(95%CI [0.53, 0.67])。

 

おわりに

どうやら世間一般では優勝の結果に納得している人が有意に多いようです。このことを妻に伝えると「ふ〜ん。それは何も考えていないから」と辛辣な答えが返ってきました・・・。現場からは以上です。

 

補足

 
なお,最近の類書としては『伝えるための心理統計』と『心理学のためのサンプルサイズ設計入門』があります。

伝えるための心理統計: 効果量・信頼区間・検定力

伝えるための心理統計: 効果量・信頼区間・検定力

心理学のためのサンプルサイズ設計入門 (KS専門書)

心理学のためのサンプルサイズ設計入門 (KS専門書)

 
『伝えるための〜』を以前読んだときは難しく感じたので,『P値』→『伝えるための〜』という順番がよさそうに思います。さらに実践していくときに『サンプルサイズ設計入門』を手に取るという流れがいいかもしれません(まだ積ん読状態)。より専門的なものには『サンプルサイズの決め方』がありますが,私には手が余るので紹介しません。

 
最後に,ブログでも許容度が過ぎたり不正確すぎる記述・まちがいがあれば教えてください。

クリエイティブ・コモンズ・ライセンス
この 作品 は クリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンスの下に提供されています。