Knowledge As Practice

JAIST(東京)で Transformative Service Research に取り組んでる社会人大学院生の研究・勉強メモ

テキストマイニングの環境整備つまずきメモ

テキストマイニングをしようと決意して,その準備をしたところ,いくつかつまづいたところがあったので,そのメモを残しておきます。解決策はネット上に散らばっていて,同じようなトラブルにまたあったときのためです。なお,Mac です。

 

1. 環境構築の基礎知識をゲット

 
まず『Rによるやさしいテキストマイニング』(やさテキ)を読み,次に『Rによるテキストマイニング入門(第2版)』を読みました。2冊でざっとテキストマイニングの基礎知識と分析の流れをつかみます。どちらも読みやすいですが,まず『やさテキ』から『Rによる〜』の順がよいと思います。

 

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング

Rによるテキストマイニング入門

Rによるテキストマイニング入門

 

2.MeCab のインストール時のつまずき

 
『Rによる〜』に書かれている方法で MeCab のインストールを行ったところ,うまく行きませんでした。ターミナル上で「mecab すもももももももものうち」と打っても結果が

 

??,????,,,,,?,???????,???????

 
と文字化けするのです。これは MeCab をもう1度次の方法でインストールして解決できました。

 

$ ./configure --enable-utf8-only --with-charset=utf8 --with-mecab-config=/usr/local/bin/mecab-config
$ make
$ make install

 
詳細はこちらにあります。

kumagonjp2.blog.fc2.com

 

3.RMeCab インストール時のつまずき

 
私の環境では『Rによる〜』に記載されている方法でインストールして RMecab を使うと RStudio ごと落ちるという現象が起きました(Rコンソールでもダメ)。tweet したところ,石田先生に助けていただきました。

 
これで無事解決。ありがとうございます。

 

4.mecab-ipadic-NEologd を使用するときのつまずき

 
テキストマイニングの対象はちょっと特別な言葉が入っているので,標準の辞書ではない NEologd を使うことにしました。この辞書のインストールは次のページに従って行いました。

qiita.com

 
しかし,RMeCab で NEologd を使うときは,ユーザ辞書が必要とのこと。次のページの「R」セクションの記述に従って,ユーザ辞書を作り直しました。

github.com

 
作った辞書(〜〜.csv.dic という名前のファイル)は,適当なところにコピーして使います。こんな感じ。

> RMeCabC("オールセラミック", 
      dic = "/Users/jibun/mecab-user-dict-seed.20170630.csv.dic")
[[1]]
              名詞 
"オールセラミック" 

 
標準の辞書だと,

> RMeCabC("オールセラミック")
[[1]]
  接頭詞 
"オール" 

[[2]]
        名詞 
"セラミック"

 
ちゃんと,オールセラミックを1つの言葉として扱ってくれてる。よかった。

 
まだまだテキストマイニングは準備すら難しい印象を持ちました(私の環境では)。でも『やさテキ』と『Rによるテキストマイニング第2版』とネット上の先達のおかげでなんとかなりました。KH Coder に流れたくなったけど,せっかくなんとか準備が整ったので R でがんばりたいと思います。

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング

Rによるテキストマイニング入門

Rによるテキストマイニング入門

統計的因果推論の勉強会の前準備

きっかけは,先月の月1ゼミでした。3時間のゼミのうち,はじめの1時間は輪読をしています。その中で私が「統計的因果推論というものがあるらしい」と情報共有をして,その後「日本社会心理学会 春の方法論セミナー」のページを紹介したところ,先生が興味を示されました。そして,5月からゼミ前の90分間を使って,自由参加で統計的因果推論の勉強会(1回につき1章ずつ)をスタートすることにしました。私が音頭を取って…*1

 
私を含め,参加者となるのは経営学(主にマネジメント)を勉強・研究しに来ている社会人学生なので,基本,文系が多いです。統計分析の基本知識を一緒に復習しながら,勉強会を進めていく予定です。

 
まず,統計的因果推論勉強会の前準備をするために,資料にあたりました。そのまとめメモとして,書き残しておきます。書籍,ブログ・スライド,Cinii で検索した日本語論文の3タイプに分けます。

 

書籍

代表的なのは次の2冊。必ず紹介されています。もう紹介も不要なレベル。

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

 
ただし,数学を学部のときに学んでいない人にはきついです。宮川本は6章より先はサッパリ(目は通した)。現時点では,宮川本・星野本も合わせて3割くらい理解できたかどうか,というところ。私のような文系には次の森田本でイメージをつかむのがよさそうです。16章に説明があります。ただし,アニメが好きな人に限ります。

 
もう1つ日本語ではタイトルど直球の本があります。上記2冊よりはやさしい印象ですが,数式はけっこう出てきます。この本は4割くらい理解できたかもしれません。

統計的因果推論 (統計解析スタンダード)

統計的因果推論 (統計解析スタンダード)

 
もっと文系にやさしく統計的因果推論を説明している本はないかと,洋書もチェックしました。次の2つが読みやすそうでした。Kindle のサンプルをチェック後,まず私は ”Primer” のほうを購入して読み進めています。今年出たばかりだし,著者の1人が Judea Pearl なので,大きなまちがいはないだろう,そして薄い(印刷版だと160ページくらい)というのが選定理由です。とりあえず,1章まではついていけてます。

Counterfactuals and Causal Inference: Methods and Principles for Social Research (Analytical Methods for Social Research)

Counterfactuals and Causal Inference: Methods and Principles for Social Research (Analytical Methods for Social Research)

Causal Inference in Statistics: A Primer

Causal Inference in Statistics: A Primer

 

ブログ

Google で「統計的因果推論」で検索。結果の10ページ目まで確認して,私にとって参考になるのは次のものでした。

 
星野本を4回に分けてまとめてくれています。やっぱり難しい。いつかはわかるようになりたいです。
smrmkt.hatenablog.jp

 
こちらも星野本の実践例。もともと本にRのコードが付いているから,実際にやってみるのができるんですね。
www.fisproject.jp

 
こちらも読み応えがあります(まだ読み切れてない)。この分野は林先生のブログがとても勉強になります。
takehiko-i-hayashi.hatenablog.com

 
清水先生の LiNGAM まではたどり着けていません…(理解力と数学力が)。

 

論文など

検索すると,宮川先生・黒木先生を中心にいろいろ出てきます。でも,まだ自分には難しくて読めない。次のものはなんとか読めるんじゃないか,文系でも興味深いじゃないかというものをピックアップしました。少しずつ読んでいこうと思います(難しくて挫折する恐れ大)。

 
社会科学分野における統計的因果推論のためのマッチング手法の活用 : 企業金融の研究における適用とその問題
ci.nii.ac.jp

 
「特集 因果的説明とベイジアンネットワーク」の以下の5本(『哲学論叢』35巻,pp. 81–141,2008)

 
因果とは何かをめぐる哲学的論争(1)D.ルイスの反事実的条件法による分析とその批判
http://repository.kulib.kyoto-u.ac.jp/dspace/handle/2433/96279

 
因果とは何かをめぐる哲学的論争(2)メンジーズの機能主義とそれに対する批判
http://repository.kulib.kyoto-u.ac.jp/dspace/handle/2433/96278

 
哲学者のためのベイジアンネットワーク入門
http://repository.kulib.kyoto-u.ac.jp/dspace/handle/2433/96277

 
ベイジアンネットワーク、共通原因、そして因果的マルコフ条件
http://repository.kulib.kyoto-u.ac.jp/dspace/handle/2433/96276

 
ベイジアンネットワークと確率の解釈
[
http://repository.kulib.kyoto-u.ac.jp/dspace/handle/2433/96275]

 
あと2つほど。
因果効果におけるバックドア/フロントドア基準について
http://www.math.chuo-u.ac.jp/\~sugiyama/14/14-01.pdf

 
<研究ノート>因果推論の理論と分析手法
ci.nii.ac.jp

*1:とても大きなプレッシャーですが,これくらいやらないと動かないので,がんばります。ちなみに裏目標として,他のゼミ生の方にも統計分析に興味を持ってもらって,こっそりR仲間を増やし,いっしょにベイズ統計を勉強できるようになりたいです。

読了 『完全独習 ベイズ統計学』(2015)

個人的に大きなイベントが終わり、うまくいきそうなので、学びと研究を再開です。

 
リハビリとして、今年11月に出版された『完全独習 ベイズ統計学入門』を読んで、ブログを書きます。本の詳細は下をクリックしてください。

完全独習 ベイズ統計学入門

完全独習 ベイズ統計学入門

 
『図解・ベイズ統計「超」入門』より、もう少し計算などを使ってベイズ統計を学んでいく本のように感じました。したがって、『図解・ベイズ~』などのベイズ統計を紹介する本を1冊でも読んだことがある人は苦しまずに読みきれると思います。

 
『完全独習 ベイズ~』は面積図などを使って、あの手この手でわかりやすく説明をしてくれます。『基礎からのベイズ統計学』がさっぱりわからないという方は、この『完全独習 ベイズ~』を読んでみるといいのではないかと思いました。逆に『基礎からの~』を読んだ方は必要がないというか、『完全独習 ベイズ~』の第2部を立ち読みでくらいでいいんじゃないかと。

基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門

基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門

 
今回の本でもっともよかったのは最後のブックガイドです。ベイズ統計への理解を深めるために次はこういう本を読めばいいのだな、と教えてくれます。その中の1冊にチャレンジしたいと思います(RやStan関連の本の紹介はありません)。

 
とにかくこれから勉強したい方にこういうのがあるよ、とオススメできる本が増えたのは嬉しいです。

サービス・ドミナント・ロジックの日本語文献

先日、ブログのコメントで大学生の方から質問を受けました。質問内容は「サービス・ドミナント・ロジック(以下、S-D ロジック)の文献を知りたい」的なもの。抽象的な内容が多いので、いろいろな説明を読んで理解を深めたいという趣旨だと思います。

 
コメント欄で返信をしましたが、せっかくなので新しいエントリーとしてアップします。自分のマトメにもなりますし。なお、次から挙げる文献は全部読んでいますが、私の記憶に記憶違い・勘違いがあるかもしれません。その際はご指摘ください。

 
また、論文に比べて手に入りやすい日本語の書籍・オンライン記事をメインします。ほとんどは図書館で手に入ると思います。サービスデザインとかサービス思考とかいう言葉が好きな方もぜひ知っておいてほしい議論です。

 

●まずはオススメ。わかりやすい、読みやすいもの。

一橋・藤川先生の論稿がわかりやすいです。オンライン記事で、すぐに読めて便利です。 www.dhbr.net

business.nikkeibp.co.jp

 
紙媒体としては、『一橋ビジネスレビュー』2010年夏号以降に何回か連載された「サービス・マネジメントのフロンティア」もたいへん有益です。第1回に S-D ロジックの説明があったと思います。

 

●書籍の一部にS-D ロジックが言及されているもの。

次の6冊は、ある章または節でS-D ロジックを取り上げています。それなりにページを割いているものから順に挙げます。

消費者行動論

消費者行動論

サービス・イノベーションの理論と方法

サービス・イノベーションの理論と方法

はじめてのマーケティング (有斐閣ストゥディア)

はじめてのマーケティング (有斐閣ストゥディア)

マーケティング (New Liberal Arts Selection)

マーケティング (New Liberal Arts Selection)

顧客満足[CS]の知識(日経文庫)

顧客満足[CS]の知識(日経文庫)

経営品質科学の研究―企業活動のクォリティを科学する

経営品質科学の研究―企業活動のクォリティを科学する

 
明治大・井上先生の学部生向けテキスト『消費者行動論』はやさしくS-D ロジックが説明されています。S-D ロジック研究の最前線にいらっしゃる先生の本です。2冊目は2013年度まで明治大ビジネススクールでサービス・マーケティングを教えていらっしゃた近藤先生によるもので、サービスマーケ本3部作のうちの1冊です。近藤先生のサービスマーケ本は、どれも勉強になります。

 
3冊目はマーケティング初級者向けテキストですが、かなり初めのほうにS-D ロジックが言及されている意欲的な本です。S-D ロジックのような新しい視点を知ってからマーケティングの本流を学んでいくスタイルもいいですね。

 
4冊目はマーケティングの偉い先生方が共同で執筆されていて、後ろの方のサービス・マーケティングの章でS-D ロジックが取り上げられています。5冊目も後ろの方で言及されています。6冊目は研究書です。難しかった印象があります。7章と8章が S-D ロジックのお話です。

 

●まるごと1冊がS-D ロジックや価値共創

サービス・ドミナント・ロジック―マーケティング研究への新たな視座

サービス・ドミナント・ロジック―マーケティング研究への新たな視座

リレーションシップ・マーケティング―消費者経験アプローチ

リレーションシップ・マーケティング―消費者経験アプローチ

サービス・イノベーション -- 価値共創と新技術導入

サービス・イノベーション -- 価値共創と新技術導入

価値共創とマーケティング論

価値共創とマーケティング論

 
1冊目は S-D ロジックを勉強を始める方がと必ず読む本だと思います。私もこの本からスタートしました(2013年頃でしょうか)。2冊目は研究書になりますが、リレーションシップ・マーケティングとからめながら、質的分析を行っているものです。これが日本語で読めるのはたいへんお得です。

 
3冊目は2015年に出た本です。S-D ロジックがすべてではなく、批判もなされ、北欧のサービス・ロジックを取り入れながら、日本の研究者が価値共創の議論をさらに深めようと努力されています。4冊目は2014年度に出ました。製造業と価値共創の関係について理解を深めたい方にはピッタリだと思います。

ベイズ推定はベスト!?

少し前から『Doing Bayesian Data Analysis』を読んでいます。

Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan

Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan

 
著者は "Puppy Book"(子犬本)と読んでいて、表紙にかわいい子犬が3匹いるのが目立つ本です*1。社会科学(と生物学?)向けでやたら複雑な数式はなく、読みやすそうなので読み始めました。

 
読んでいるのは電子書籍著者割引を使えば6000円ほどで、PDF版とKindleで読めるフォーマットがダウンロードできます*2

 
1章には「ほんとに忙しい人は2章を読んだら、"Bayesian estimation supersedes the t test.*3" という論文を読め、そうすれば16章まで読んだとの同じだから」と書いてあります。なので、2章のあとに、その論文を読みました。

 
論文の主張は「とにかくベイズ推定。帰無仮説検定よりずっと得られる情報が多いから、ベイズ使え」の一点張り。これくらいのポジションを取るのって大事だな、と違うところで関心しました。ちなみに著者はこの論文の中でベイズ推定を BEST と略しています(ベイジアンエスティメーションの略)。ベイズサイコーってやつです。

 
書籍で使用されている分析ツールはR、JAGS、Stan。コードもあります。まだそこまで読んでいないですが、今後もじっくり読んでいく予定です。次々回以降のKobe.Rで学んだ内容を発表していこうかな、と画策しています*4

 
以下、3章までと論文を読んだ自分用メモです。

ベイズデータ分析には2つの基本的な思想がある。
1つ目の思想は「ベイズ推定は可能性の中にある信頼性の再配置する*5」こと。
2つ目の思想は「(信頼性を配置する)可能性とは、意味のある数学的モデルの中にあるパラメーターである」こと。

 

ベイズ統計分析でパラメーターを推定する。
パラメーターはデータの発生を刺激する装置の調整つまみみたいなもの。
私たちの目標は、どのモデルが信頼性あるかを評価すること。

*1:ちなみに、いちばん左の子犬がなぜ退屈そうにあくびをしているのかも意味があります。

*2:紙の本は大阪の丸善ジュンク堂にあります。14000円くらいだったかな。分厚いです

*3:Kruschke, J. K. (2013). Bayesian estimation supersedes the t test. Journal of Experimental Psychology: General, 142(2), 573.

*4:今回10月3日はR Markdownについて発表します。

*5:数ある可能性に対して信頼性を配置すること、とも。うまく日本語に直せない…。

最近読んだ統計分析のオススメ本を2冊

ちょっと端境期です。自分の研究ツールを磨こうと統計学関連の本を読んでいます。この1~2週間で読んでよかったのは次の2つです。

  • 馬場真哉『平均と分散から始める一般化線形モデル入門』
  • 三中信宏『みなか先生といっしょに統計学の王国を歩いてみよう』

 
f:id:hikaru1122:20150919100934j:plain
背後のティッシュが生活感丸出しですみません…。

 
『平均と分散~』は著者のページによると「マンガでわかる統計学オーム社)の次に読む本を想定」されていて、初級レベルから『緑本』への接続を狙っているようです。

 
「統計分析とRに慣れてきて、『緑本』は最後まで読み通せたけど、なんとなくな理解で終わってしまった人(つまり私です)」にはちょうどいい本でした。数式を1行も見たくない、という方には向いていません。とはいえ、数式はそんなに出てこないので、安心してください*1

 
解説はとてもていねいで、これでもかというほどクドイです。でも、そのクドさが理解度を深めてくれます。受験参考書の実行中継シリーズの統計分析版、といった感じでしょうか。文章もやさしいので、さらさら読めます。

 
この本で統計分析中級者への道を踏み出せます。

 
2冊目の『統計学の王国』は、フルカラーで楽しい本です。●●分析~、××分析~とか、とっちらかった頭をほぐしてくれます。ただ、こちらもまったくの初心者にはつらいと思います。「アブダクション」「確率分布曼荼羅」「自由度」というトピックが私には印象的でした。  
 
三中先生の文章はいい感じに力抜けていて、かつ知的。こんな文章が書けたらいいなぁと思うほど。うらやましい…。専門以外の幅広い読書をしないと身につかないような。まだまだ自分には修行が必要ですね。

 

平均・分散から始める一般化線形モデル入門

平均・分散から始める一般化線形モデル入門

 

*1:{ \displaystyle \Pi} の説明がちゃんとある。大学で数学を選択してない文系人間にはとても助かります。

サービス・マーケティングの北欧派の考えがよくわかる貴重な一冊

今年、翻訳が出た『サービス・ロジックによる現代マーケティング理論』を読みました。なんだか表紙がおしゃれなデザインです。

サービス・ロジックによる現代マーケティング理論: 消費プロセスにおける価値共創へのノルディック学派アプローチ

サービス・ロジックによる現代マーケティング理論: 消費プロセスにおける価値共創へのノルディック学派アプローチ

 
著者は北欧派の代表的存在のグルンルース(Christian Grönroos)です。ヒゲをたくわえたおしゃれ紳士(会ったことないけど)。フィンランドにあるハンケン大学の先生です。2013年には別の翻訳書が出ています。

北欧型サービス志向のマネジメント―競争を生き抜くマーケティングの新潮流

北欧型サービス志向のマネジメント―競争を生き抜くマーケティングの新潮流

 
イメージビデオ(?)もおしゃれ…。
vimeo.com

 
2冊とも目を通してますが、今回の本(『サービス・ロジックによる~』)のほうが読みやすいです。テキストではなく論文集なので、文体が簡潔明瞭だからだと思います。じっくり読める教科書的な本を探している場合は『北欧型サービス志向~』のほうがよいかもしれません。

 
翻訳者は目白大の蒲生先生です。昨年の日本マーケティング学会カンファレンスの「価値共創型マーケティング研究会」にて発表をされていたのですが、残念ながら聞くことができませんでした。グルンルースの本を2冊も訳されていらっしゃるので、いつか講演や発表を聞いてみたいです。

 
私はサービス・マーケティングは大きくわけて2つの流派があると思っています。すなわち北米と北欧です*1。大きな論点の1つが、北米派のサービス・ドミナント・ロジック(S-Dロジック)と北欧派のサービス・ロジック(Sロジック)です。

 
S-Dロジックが理論・抽象的な方向を目指しているのに対し、Sロジックは実践・具体的な方法を目指しているように思えます。なので、仕事のヒントを得やすいのは、北欧派のほうかもしれません。北米派と北欧派は互いに刺激しあっています。

 
サービス・マーケティングを通して勉強したことがある人は誰でも名前を知っているグルンルースですが、まだまだ知らない人が多いと思います。サービス業に従事していて、サービス・マーケティング*2に興味がある方は、ぜひ読んでみてください!

サービス・ロジックによる現代マーケティング理論: 消費プロセスにおける価値共創へのノルディック学派アプローチ

サービス・ロジックによる現代マーケティング理論: 消費プロセスにおける価値共創へのノルディック学派アプローチ

*1:今回の本の中では3つあると言っています。北米、北欧、ヨーロッパ。

*2:グルンルース本人は「サービス・マネジメント」という言葉を好んでいるように感じています。

クリエイティブ・コモンズ・ライセンス
この 作品 は クリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンスの下に提供されています。