テキストマイニングの環境整備つまずきメモ
テキストマイニングをしようと決意して,その準備をしたところ,いくつかつまづいたところがあったので,そのメモを残しておきます。解決策はネット上に散らばっていて,同じようなトラブルにまたあったときのためです。なお,Mac です。
1. 環境構築の基礎知識をゲット
まず『Rによるやさしいテキストマイニング』(やさテキ)を読み,次に『Rによるテキストマイニング入門(第2版)』を読みました。2冊でざっとテキストマイニングの基礎知識と分析の流れをつかみます。どちらも読みやすいですが,まず『やさテキ』から『Rによる〜』の順がよいと思います。
- 作者: 小林雄一郎
- 出版社/メーカー: オーム社
- 発売日: 2017/02/17
- メディア: 単行本
- この商品を含むブログを見る
- 作者: 石田基広
- 出版社/メーカー: 森北出版
- 発売日: 2017/06/28
- メディア: 単行本
- この商品を含むブログを見る
2.MeCab のインストール時のつまずき
『Rによる〜』に書かれている方法で MeCab のインストールを行ったところ,うまく行きませんでした。ターミナル上で「mecab すもももももももものうち」と打っても結果が
??,????,,,,,?,???????,???????
と文字化けするのです。これは MeCab をもう1度次の方法でインストールして解決できました。
$ ./configure --enable-utf8-only --with-charset=utf8 --with-mecab-config=/usr/local/bin/mecab-config $ make $ make install
詳細はこちらにあります。
3.RMeCab インストール時のつまずき
私の環境では『Rによる〜』に記載されている方法でインストールして RMecab を使うと RStudio ごと落ちるという現象が起きました(Rコンソールでもダメ)。tweet したところ,石田先生に助けていただきました。
辞書もソースからインストールされているということですよね。では、Rで install.packages("RMeCab", repos = "https://t.co/ItGfYL8TAs", type = "source") を実行してみてください
— RMeCab (@rmecab) 2017年6月30日
これで無事解決。ありがとうございます。
4.mecab-ipadic-NEologd を使用するときのつまずき
テキストマイニングの対象はちょっと特別な言葉が入っているので,標準の辞書ではない NEologd を使うことにしました。この辞書のインストールは次のページに従って行いました。
しかし,RMeCab で NEologd を使うときは,ユーザ辞書が必要とのこと。次のページの「R」セクションの記述に従って,ユーザ辞書を作り直しました。
作った辞書(〜〜.csv.dic という名前のファイル)は,適当なところにコピーして使います。こんな感じ。
> RMeCabC("オールセラミック", dic = "/Users/jibun/mecab-user-dict-seed.20170630.csv.dic") [[1]] 名詞 "オールセラミック"
標準の辞書だと,
> RMeCabC("オールセラミック") [[1]] 接頭詞 "オール" [[2]] 名詞 "セラミック"
ちゃんと,オールセラミックを1つの言葉として扱ってくれてる。よかった。
まだまだテキストマイニングは準備すら難しい印象を持ちました(私の環境では)。でも『やさテキ』と『Rによるテキストマイニング第2版』とネット上の先達のおかげでなんとかなりました。KH Coder に流れたくなったけど,せっかくなんとか準備が整ったので R でがんばりたいと思います。
- 作者: 小林雄一郎
- 出版社/メーカー: オーム社
- 発売日: 2017/02/17
- メディア: 単行本
- この商品を含むブログを見る
- 作者: 石田基広
- 出版社/メーカー: 森北出版
- 発売日: 2017/06/28
- メディア: 単行本
- この商品を含むブログを見る
統計的因果推論の勉強会の前準備
きっかけは,先月の月1ゼミでした。3時間のゼミのうち,はじめの1時間は輪読をしています。その中で私が「統計的因果推論というものがあるらしい」と情報共有をして,その後「日本社会心理学会 春の方法論セミナー」のページを紹介したところ,先生が興味を示されました。そして,5月からゼミ前の90分間を使って,自由参加で統計的因果推論の勉強会(1回につき1章ずつ)をスタートすることにしました。私が音頭を取って…*1。
私を含め,参加者となるのは経営学(主にマネジメント)を勉強・研究しに来ている社会人学生なので,基本,文系が多いです。統計分析の基本知識を一緒に復習しながら,勉強会を進めていく予定です。
まず,統計的因果推論勉強会の前準備をするために,資料にあたりました。そのまとめメモとして,書き残しておきます。書籍,ブログ・スライド,Cinii で検索した日本語論文の3タイプに分けます。
書籍
代表的なのは次の2冊。必ず紹介されています。もう紹介も不要なレベル。
統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)
- 作者: 宮川雅巳
- 出版社/メーカー: 朝倉書店
- 発売日: 2004/04
- メディア: 単行本
- 購入: 6人 クリック: 67回
- この商品を含むブログ (23件) を見る
調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)
- 作者: 星野崇宏
- 出版社/メーカー: 岩波書店
- 発売日: 2009/07/29
- メディア: 単行本
- 購入: 29人 クリック: 285回
- この商品を含むブログ (26件) を見る
ただし,数学を学部のときに学んでいない人にはきついです。宮川本は6章より先はサッパリ(目は通した)。現時点では,宮川本・星野本も合わせて3割くらい理解できたかどうか,というところ。私のような文系には次の森田本でイメージをつかむのがよさそうです。16章に説明があります。ただし,アニメが好きな人に限ります。
- 作者: 森田果
- 出版社/メーカー: 日本評論社
- 発売日: 2014/06/09
- メディア: 単行本
- この商品を含むブログ (7件) を見る
もう1つ日本語ではタイトルど直球の本があります。上記2冊よりはやさしい印象ですが,数式はけっこう出てきます。この本は4割くらい理解できたかもしれません。
- 作者: 岩崎学
- 出版社/メーカー: 朝倉書店
- 発売日: 2015/11/11
- メディア: 単行本
- この商品を含むブログ (2件) を見る
もっと文系にやさしく統計的因果推論を説明している本はないかと,洋書もチェックしました。次の2つが読みやすそうでした。Kindle のサンプルをチェック後,まず私は ”Primer” のほうを購入して読み進めています。今年出たばかりだし,著者の1人が Judea Pearl なので,大きなまちがいはないだろう,そして薄い(印刷版だと160ページくらい)というのが選定理由です。とりあえず,1章まではついていけてます。
- 作者: Stephen L. Morgan,Christopher Winship
- 出版社/メーカー: Cambridge University Press
- 発売日: 2014/11/17
- メディア: Kindle版
- この商品を含むブログを見る
Causal Inference in Statistics: A Primer
- 作者: Judea Pearl,Madelyn Glymour,Nicholas P. Jewell
- 出版社/メーカー: Wiley
- 発売日: 2016/01/25
- メディア: Kindle版
- この商品を含むブログを見る
ブログ
Google で「統計的因果推論」で検索。結果の10ページ目まで確認して,私にとって参考になるのは次のものでした。
星野本を4回に分けてまとめてくれています。やっぱり難しい。いつかはわかるようになりたいです。
smrmkt.hatenablog.jp
こちらも星野本の実践例。もともと本にRのコードが付いているから,実際にやってみるのができるんですね。
www.fisproject.jp
こちらも読み応えがあります(まだ読み切れてない)。この分野は林先生のブログがとても勉強になります。
takehiko-i-hayashi.hatenablog.com
清水先生の LiNGAM まではたどり着けていません…(理解力と数学力が)。
論文など
検索すると,宮川先生・黒木先生を中心にいろいろ出てきます。でも,まだ自分には難しくて読めない。次のものはなんとか読めるんじゃないか,文系でも興味深いじゃないかというものをピックアップしました。少しずつ読んでいこうと思います(難しくて挫折する恐れ大)。
社会科学分野における統計的因果推論のためのマッチング手法の活用 : 企業金融の研究における適用とその問題
ci.nii.ac.jp
「特集 因果的説明とベイジアンネットワーク」の以下の5本(『哲学論叢』35巻,pp. 81–141,2008)
因果とは何かをめぐる哲学的論争(1)D.ルイスの反事実的条件法による分析とその批判
http://repository.kulib.kyoto-u.ac.jp/dspace/handle/2433/96279
因果とは何かをめぐる哲学的論争(2)メンジーズの機能主義とそれに対する批判
http://repository.kulib.kyoto-u.ac.jp/dspace/handle/2433/96278
哲学者のためのベイジアンネットワーク入門
http://repository.kulib.kyoto-u.ac.jp/dspace/handle/2433/96277
ベイジアンネットワーク、共通原因、そして因果的マルコフ条件
http://repository.kulib.kyoto-u.ac.jp/dspace/handle/2433/96276
ベイジアンネットワークと確率の解釈
[
http://repository.kulib.kyoto-u.ac.jp/dspace/handle/2433/96275]
あと2つほど。
因果効果におけるバックドア/フロントドア基準について
http://www.math.chuo-u.ac.jp/\~sugiyama/14/14-01.pdf
<研究ノート>因果推論の理論と分析手法
ci.nii.ac.jp
読了 『完全独習 ベイズ統計学』(2015)
個人的に大きなイベントが終わり、うまくいきそうなので、学びと研究を再開です。
リハビリとして、今年11月に出版された『完全独習 ベイズ統計学入門』を読んで、ブログを書きます。本の詳細は下をクリックしてください。
- 作者: 小島寛之
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2015/11/20
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (3件) を見る
『図解・ベイズ統計「超」入門』より、もう少し計算などを使ってベイズ統計を学んでいく本のように感じました。したがって、『図解・ベイズ~』などのベイズ統計を紹介する本を1冊でも読んだことがある人は苦しまずに読みきれると思います。
図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術 (サイエンス・アイ新書)
- 作者: 涌井貞美
- 出版社/メーカー: SBクリエイティブ
- 発売日: 2013/12/18
- メディア: 新書
- この商品を含むブログ (13件) を見る
『完全独習 ベイズ~』は面積図などを使って、あの手この手でわかりやすく説明をしてくれます。『基礎からのベイズ統計学』がさっぱりわからないという方は、この『完全独習 ベイズ~』を読んでみるといいのではないかと思いました。逆に『基礎からの~』を読んだ方は必要がないというか、『完全独習 ベイズ~』の第2部を立ち読みでくらいでいいんじゃないかと。
基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門
- 作者: 豊田秀樹
- 出版社/メーカー: 朝倉書店
- 発売日: 2015/06/25
- メディア: 単行本
- この商品を含むブログ (3件) を見る
今回の本でもっともよかったのは最後のブックガイドです。ベイズ統計への理解を深めるために次はこういう本を読めばいいのだな、と教えてくれます。その中の1冊にチャレンジしたいと思います(RやStan関連の本の紹介はありません)。
とにかくこれから勉強したい方にこういうのがあるよ、とオススメできる本が増えたのは嬉しいです。
サービス・ドミナント・ロジックの日本語文献
先日、ブログのコメントで大学生の方から質問を受けました。質問内容は「サービス・ドミナント・ロジック(以下、S-D ロジック)の文献を知りたい」的なもの。抽象的な内容が多いので、いろいろな説明を読んで理解を深めたいという趣旨だと思います。
コメント欄で返信をしましたが、せっかくなので新しいエントリーとしてアップします。自分のマトメにもなりますし。なお、次から挙げる文献は全部読んでいますが、私の記憶に記憶違い・勘違いがあるかもしれません。その際はご指摘ください。
また、論文に比べて手に入りやすい日本語の書籍・オンライン記事をメインします。ほとんどは図書館で手に入ると思います。サービスデザインとかサービス思考とかいう言葉が好きな方もぜひ知っておいてほしい議論です。
●まずはオススメ。わかりやすい、読みやすいもの。
一橋・藤川先生の論稿がわかりやすいです。オンライン記事で、すぐに読めて便利です。 www.dhbr.net
紙媒体としては、『一橋ビジネスレビュー』2010年夏号以降に何回か連載された「サービス・マネジメントのフロンティア」もたいへん有益です。第1回に S-D ロジックの説明があったと思います。
●書籍の一部にS-D ロジックが言及されているもの。
次の6冊は、ある章または節でS-D ロジックを取り上げています。それなりにページを割いているものから順に挙げます。
- 作者: 井上崇通
- 出版社/メーカー: 同文舘出版
- 発売日: 2012/04
- メディア: 単行本
- この商品を含むブログを見る
- 作者: 近藤隆雄
- 出版社/メーカー: 生産性出版
- 発売日: 2012/07/24
- メディア: 単行本
- 購入: 1人 クリック: 1回
- この商品を含むブログを見る
- 作者: 久保田進彦,澁谷覚,須永努
- 出版社/メーカー: 有斐閣
- 発売日: 2013/12/14
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
マーケティング (New Liberal Arts Selection)
- 作者: 池尾恭一,青木幸弘,南知惠子,井上哲浩
- 出版社/メーカー: 有斐閣
- 発売日: 2010/05/01
- メディア: 単行本(ソフトカバー)
- 購入: 1人 クリック: 16回
- この商品を含むブログ (6件) を見る
- 作者: 小野譲司
- 出版社/メーカー: 日本経済新聞出版社
- 発売日: 2010/04/16
- メディア: 新書
- 購入: 3人 クリック: 32回
- この商品を含むブログ (1件) を見る
- 作者: 明治大学経営品質科学研究所
- 出版社/メーカー: 中央経済社
- 発売日: 2011/08
- メディア: 単行本
- クリック: 1回
- この商品を含むブログを見る
明治大・井上先生の学部生向けテキスト『消費者行動論』はやさしくS-D ロジックが説明されています。S-D ロジック研究の最前線にいらっしゃる先生の本です。2冊目は2013年度まで明治大ビジネススクールでサービス・マーケティングを教えていらっしゃた近藤先生によるもので、サービスマーケ本3部作のうちの1冊です。近藤先生のサービスマーケ本は、どれも勉強になります。
3冊目はマーケティング初級者向けテキストですが、かなり初めのほうにS-D ロジックが言及されている意欲的な本です。S-D ロジックのような新しい視点を知ってからマーケティングの本流を学んでいくスタイルもいいですね。
4冊目はマーケティングの偉い先生方が共同で執筆されていて、後ろの方のサービス・マーケティングの章でS-D ロジックが取り上げられています。5冊目も後ろの方で言及されています。6冊目は研究書です。難しかった印象があります。7章と8章が S-D ロジックのお話です。
●まるごと1冊がS-D ロジックや価値共創
サービス・ドミナント・ロジック―マーケティング研究への新たな視座
- 作者: 井上崇通,村松潤一
- 出版社/メーカー: 同文舘出版
- 発売日: 2010/03
- メディア: 単行本
- 購入: 3人 クリック: 6回
- この商品を含むブログを見る
- 作者: スティーブバロン,トニーコンウェイ,ギャリーワナビー,井上崇通,田口尚史,庄司真人,菊池一夫,余漢燮
- 出版社/メーカー: 同友館
- 発売日: 2012/04/02
- メディア: 単行本
- この商品を含むブログを見る
- 作者: 南知惠子,西岡健一
- 出版社/メーカー: 有斐閣
- 発売日: 2014/06/18
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る
- 作者: 村松潤一
- 出版社/メーカー: 同文舘出版
- 発売日: 2015/04/02
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
1冊目は S-D ロジックを勉強を始める方がと必ず読む本だと思います。私もこの本からスタートしました(2013年頃でしょうか)。2冊目は研究書になりますが、リレーションシップ・マーケティングとからめながら、質的分析を行っているものです。これが日本語で読めるのはたいへんお得です。
3冊目は2015年に出た本です。S-D ロジックがすべてではなく、批判もなされ、北欧のサービス・ロジックを取り入れながら、日本の研究者が価値共創の議論をさらに深めようと努力されています。4冊目は2014年度に出ました。製造業と価値共創の関係について理解を深めたい方にはピッタリだと思います。
ベイズ推定はベスト!?
少し前から『Doing Bayesian Data Analysis』を読んでいます。
Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan
- 作者: John Kruschke
- 出版社/メーカー: Academic Press
- 発売日: 2014/11/11
- メディア: Kindle版
- この商品を含むブログを見る
著者は "Puppy Book"(子犬本)と読んでいて、表紙にかわいい子犬が3匹いるのが目立つ本です*1。社会科学(と生物学?)向けでやたら複雑な数式はなく、読みやすそうなので読み始めました。
読んでいるのは電子書籍。著者割引を使えば6000円ほどで、PDF版とKindleで読めるフォーマットがダウンロードできます*2。
1章には「ほんとに忙しい人は2章を読んだら、"Bayesian estimation supersedes the t test.*3" という論文を読め、そうすれば16章まで読んだとの同じだから」と書いてあります。なので、2章のあとに、その論文を読みました。
論文の主張は「とにかくベイズ推定。帰無仮説検定よりずっと得られる情報が多いから、ベイズ使え」の一点張り。これくらいのポジションを取るのって大事だな、と違うところで関心しました。ちなみに著者はこの論文の中でベイズ推定を BEST と略しています(ベイジアンエスティメーションの略)。ベイズサイコーってやつです。
書籍で使用されている分析ツールはR、JAGS、Stan。コードもあります。まだそこまで読んでいないですが、今後もじっくり読んでいく予定です。次々回以降のKobe.Rで学んだ内容を発表していこうかな、と画策しています*4。
以下、3章までと論文を読んだ自分用メモです。
ベイズデータ分析には2つの基本的な思想がある。
1つ目の思想は「ベイズ推定は可能性の中にある信頼性の再配置する*5」こと。
2つ目の思想は「(信頼性を配置する)可能性とは、意味のある数学的モデルの中にあるパラメーターである」こと。
ベイズ統計分析でパラメーターを推定する。
パラメーターはデータの発生を刺激する装置の調整つまみみたいなもの。
私たちの目標は、どのモデルが信頼性あるかを評価すること。
最近読んだ統計分析のオススメ本を2冊
ちょっと端境期です。自分の研究ツールを磨こうと統計学関連の本を読んでいます。この1~2週間で読んでよかったのは次の2つです。
背後のティッシュが生活感丸出しですみません…。
『平均と分散~』は著者のページによると「マンガでわかる統計学(オーム社)の次に読む本を想定」されていて、初級レベルから『緑本』への接続を狙っているようです。
「統計分析とRに慣れてきて、『緑本』は最後まで読み通せたけど、なんとなくな理解で終わってしまった人(つまり私です)」にはちょうどいい本でした。数式を1行も見たくない、という方には向いていません。とはいえ、数式はそんなに出てこないので、安心してください*1。
解説はとてもていねいで、これでもかというほどクドイです。でも、そのクドさが理解度を深めてくれます。受験参考書の実行中継シリーズの統計分析版、といった感じでしょうか。文章もやさしいので、さらさら読めます。
この本で統計分析中級者への道を踏み出せます。
2冊目の『統計学の王国』は、フルカラーで楽しい本です。●●分析~、××分析~とか、とっちらかった頭をほぐしてくれます。ただ、こちらもまったくの初心者にはつらいと思います。「アブダクション」「確率分布曼荼羅」「自由度」というトピックが私には印象的でした。
三中先生の文章はいい感じに力抜けていて、かつ知的。こんな文章が書けたらいいなぁと思うほど。うらやましい…。専門以外の幅広い読書をしないと身につかないような。まだまだ自分には修行が必要ですね。
- 作者: 馬場真哉
- 出版社/メーカー: プレアデス出版
- 発売日: 2015/07/14
- メディア: 単行本
- この商品を含むブログを見る
みなか先生といっしょに 統計学の王国を歩いてみよう〜情報の海と推論の山を越える翼をアナタに!
- 作者: 三中信宏
- 出版社/メーカー: 羊土社
- 発売日: 2015/05/29
- メディア: 単行本
- この商品を含むブログ (2件) を見る
*1: の説明がちゃんとある。大学で数学を選択してない文系人間にはとても助かります。
サービス・マーケティングの北欧派の考えがよくわかる貴重な一冊
今年、翻訳が出た『サービス・ロジックによる現代マーケティング理論』を読みました。なんだか表紙がおしゃれなデザインです。
サービス・ロジックによる現代マーケティング理論: 消費プロセスにおける価値共創へのノルディック学派アプローチ
- 作者: クリスチャングルンルース,蒲生智哉
- 出版社/メーカー: 白桃書房
- 発売日: 2015/07/03
- メディア: 単行本
- この商品を含むブログを見る
著者は北欧派の代表的存在のグルンルース(Christian Grönroos)です。ヒゲをたくわえたおしゃれ紳士(会ったことないけど)。フィンランドにあるハンケン大学の先生です。2013年には別の翻訳書が出ています。
北欧型サービス志向のマネジメント―競争を生き抜くマーケティングの新潮流
- 作者: クリスチャングルンルース,Christian Gr¨onroos,近藤宏一,蒲生智哉
- 出版社/メーカー: ミネルヴァ書房
- 発売日: 2013/06
- メディア: 単行本
- この商品を含むブログ (1件) を見る
イメージビデオ(?)もおしゃれ…。
vimeo.com
2冊とも目を通してますが、今回の本(『サービス・ロジックによる~』)のほうが読みやすいです。テキストではなく論文集なので、文体が簡潔明瞭だからだと思います。じっくり読める教科書的な本を探している場合は『北欧型サービス志向~』のほうがよいかもしれません。
翻訳者は目白大の蒲生先生です。昨年の日本マーケティング学会カンファレンスの「価値共創型マーケティング研究会」にて発表をされていたのですが、残念ながら聞くことができませんでした。グルンルースの本を2冊も訳されていらっしゃるので、いつか講演や発表を聞いてみたいです。
私はサービス・マーケティングは大きくわけて2つの流派があると思っています。すなわち北米と北欧です*1。大きな論点の1つが、北米派のサービス・ドミナント・ロジック(S-Dロジック)と北欧派のサービス・ロジック(Sロジック)です。
S-Dロジックが理論・抽象的な方向を目指しているのに対し、Sロジックは実践・具体的な方法を目指しているように思えます。なので、仕事のヒントを得やすいのは、北欧派のほうかもしれません。北米派と北欧派は互いに刺激しあっています。
サービス・マーケティングを通して勉強したことがある人は誰でも名前を知っているグルンルースですが、まだまだ知らない人が多いと思います。サービス業に従事していて、サービス・マーケティング*2に興味がある方は、ぜひ読んでみてください!
サービス・ロジックによる現代マーケティング理論: 消費プロセスにおける価値共創へのノルディック学派アプローチ
- 作者: クリスチャングルンルース,蒲生智哉
- 出版社/メーカー: 白桃書房
- 発売日: 2015/07/03
- メディア: 単行本
- この商品を含むブログを見る