M-1グランプリの結果の納得度を適切な仮説検定で調べてみる

はじめに

　
つい最近『P値 ―その正しい理解と適用』という本を読みました。

作者: 柳川堯,島谷健一郎,宮岡悦良
出版社/メーカー: 近代科学社
発売日: 2018/11/28
メディア: 単行本
この商品を含むブログを見る

　
本当はベイズについて学びたいと思っているのですが，周りに理解者は少ないし，知識欲が高い人でも「学習コストが〜〜」という意見があったりして，やはり学位を取るまでは頻度主義で行くしかないかなぁと考えていたところ，ちょうどよい機会だったので手に取ってみました。

　
読みやすく薄い本で，短時間でP値の理解を深めることができます。ただ後半に進むほど数式が増えて，理解が難しくなったので8章以降は読んでいません。統計ユーザーにはそれくらいでいいかなと思います。

　
この『P値』ですが「p値について正しく理解して統計的仮説検定を適切に行いましょう」という啓蒙書として読むことができます。p値への誤解を解く3章は「p値は小さいほどよいというのはまちがい」という基礎知識を知っている人にとっても，読めばさらにp値への理解が深まると思います。

　
5章では適切な仮説検定を行う手順が解説されています。簡単にまとめると

意味ある差と見なせる基準（効果量）を決めましょう。
有意水準，検出力（検定力）を設定して，サンプルサイズを決めましょう。
データを集めて分析し，p値を使って有意かどうか2分法（有意傾向とかいう謎ワードを使わない）で判断しましょう。

です。

　
サンプルサイズが大きいほどp値は小さくなるので，集められるならたくさんデータがあったほうがいいというわけでないわけです。

　
せっかく勉強したので実践しみようと思います。

本エントリーのねた

　
2018年のRアドベントカレンダー（5日目）のエントリーなので，もちろんRを使います。では，今回の分析ネタについて説明します。

　
先日（2018年12月2日）にM-1グランプリが開催されました。優勝したのは「霜降り明星」だったのですが，いっしょに視聴していた妻が「結果に納得いかない」みたいな態度だったので（妻は和牛ファン。メジャーになる前から応援していた），世の大勢がこの結果（審査員の判定）についてどう思っているのか調べてみることにしました。

分析手法とサンプルサイズの設計

　
M-1グランプリの結果について「納得しているか／していないか」について調査したいので，二項検定（もしくは母比率の検定）を使います。サンプルサイズを決めるために効果量を設定します。

　
効果量は「意味ある違い（インパクトの大きさ）」があると見なせる評価指標です。今回はそこそこ小さくてもOKと考えて，0.2にします。有意水準と検出力については，それぞれ一般的とされる5％と0.8に設定して両側検定を行います。

　
サンプルサイズを出すには，pwr パッケージを使います。pwr については，こちらのページでまとまっています。 http://monge.tec.fukuoka-u.ac.jp/r_analysis/effect_size_01.html

　
今回は二項検定なので，サンプルサイズを決めるために pwr.p.test() を利用します。決めたいサンプルサイズ n を NULL すればOK。

> library(pwr)
> pwr.p.test(h = 0.2, n = NULL, 
                    sig.level = 0.05, power = 0.8,
                    alternative ="two.sided")

     proportion power calculation for binomial distribution (arcsine transformation) 

              h = 0.2
              n = 196.2215
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

　
結果から，サンプルサイズ（上の結果のn）は200ほど必要だとわかりました。次に，データ集めに移ります。

データ集めと概要

　
サンプルはM-1グランプリの結果を知っている人から無作為に集めるのがいいのでしょう。しかし，現実的に個人でやるにはムリなので，アンケート調査の「アンとケイト」を利用しました。 https://research-ssl.ann-kate.jp

　
質問は『今年（2018年）のM-1グランプリの結果をご存じの方に質問します。優勝が「霜降り明星」であることについて，あなたは納得していますか？　していませんか？　どちらかお答えください』です。回答は「納得している」「納得していない」の2択で，ランダムに表示されるようにしました。

　
費用は10800円でした。本年のブログで5000円ほどアマゾンアフィリエイト収益があったので，費用の半分をそれにあてたと考えています。今年もいろんな人のブログや twitter の情報にたいへん助けられた（身近に量的研究している人がいないので孤独なんです）ので，個人的歳末還元祭としました。

　
データはBOXからダウンロードできます。ご自由にお使いください（アクセス後、右上の「ダウンロード」からダウンロード可能です）。

Box
https://app.box.com/s/891kjk5adtt442wsjbgk2jyyvm4ovl3r

　
得られたデータの概要は次のとおりです。

性別	人数
女性	118
男性	82

世代	人数
15歳未満	2
15歳～19歳	11
20歳～29歳	44
30歳～39歳	41
40歳～49歳	36
50歳～59歳	32
60歳以上	34

納得している？	人数
納得していない	79
納得している	121

　
「納得していない」が79名，「納得している」が112名でした。納得している人が多いですね。帰無仮説検定に進みます。

分析と結果

　
今回は二項検定なので，binom.test() を使います。特別なパッケージは必要ないです。世間の結果への納得度に偏りがないならば，1人ごとの回答が「納得している／していない」のどちらかになる確率（二項分布のパラメータ）は0.5になります。

　
帰無仮説は「納得度に偏りがない（パラメータ=0.5）」，対立仮説は「納得度に偏りがある（パラメータ≠0.5）」です。データより，200人中121人が「納得している」と答えたので，分析コードは次のとおりになります。x が「納得している」と答えた人の数，n がサンプルサイズ，p がパラメータです。

> binom.test(x = 121, n = 200, p = 0.5,
           alternative = "two.sided",
           conf.level = 0.95)
           
    Exact binomial test

　　data:  121 and 200
　　number of successes = 121, number of trials = 200, p-value = 0.003635
　　alternative hypothesis: true probability of success is not equal to 0.5
　　95 percent confidence interval:
 　　0.5336036 0.6732350
　　sample estimates:
　　probability of success 
   　　              0.605

　
分析結果より p 値が 0.05 より小さく，有意水準5％で差があると言えました（95%CI [0.53, 0.67]）。

おわりに

どうやら世間一般では優勝の結果に納得している人が有意に多いようです。このことを妻に伝えると「ふ〜ん。それは何も考えていないから」と辛辣な答えが返ってきました･･･。現場からは以上です。

補足

　
なお，最近の類書としては『伝えるための心理統計』と『心理学のためのサンプルサイズ設計入門』があります。

伝えるための心理統計: 効果量・信頼区間・検定力

作者: 大久保街亜,岡田謙介
出版社/メーカー: 勁草書房
発売日: 2012/01/26
メディア: 単行本
購入: 9人クリック: 164回
この商品を含むブログ (13件) を見る

心理学のためのサンプルサイズ設計入門 (KS専門書)

作者: 村井潤一郎,橋本貴充
出版社/メーカー: 講談社
発売日: 2017/03/08
メディア: 単行本（ソフトカバー）
この商品を含むブログを見る

　
『伝えるための〜』を以前読んだときは難しく感じたので，『P値』→『伝えるための〜』という順番がよさそうに思います。さらに実践していくときに『サンプルサイズ設計入門』を手に取るという流れがいいかもしれません（まだ積ん読状態）。より専門的なものには『サンプルサイズの決め方』がありますが，私には手が余るので紹介しません。

　
最後に，ブログでも許容度が過ぎたり不正確すぎる記述・まちがいがあれば教えてください。