テキストマイニングをしようと決意して,その準備をしたところ,いくつかつまづいたところがあったので,そのメモを残しておきます。解決策はネット上に散らばっていて,同じようなトラブルにまたあったときのためです。なお,Mac です。
1. 環境構築の基礎知識をゲット
まず『Rによるやさしいテキストマイニング』(やさテキ)を読み,次に『Rによるテキストマイニング入門(第2版)』を読みました。2冊でざっとテキストマイニングの基礎知識と分析の流れをつかみます。どちらも読みやすいですが,まず『やさテキ』から『Rによる〜』の順がよいと思います。

- 作者: 小林雄一郎
- 出版社/メーカー: オーム社
- 発売日: 2017/02/17
- メディア: 単行本
- この商品を含むブログを見る

- 作者: 石田基広
- 出版社/メーカー: 森北出版
- 発売日: 2017/06/28
- メディア: 単行本
- この商品を含むブログを見る
2.MeCab のインストール時のつまずき
『Rによる〜』に書かれている方法で MeCab のインストールを行ったところ,うまく行きませんでした。ターミナル上で「mecab すもももももももものうち」と打っても結果が
??,????,,,,,?,???????,???????
と文字化けするのです。これは MeCab をもう1度次の方法でインストールして解決できました。
$ ./configure --enable-utf8-only --with-charset=utf8 --with-mecab-config=/usr/local/bin/mecab-config $ make $ make install
詳細はこちらにあります。
3.RMeCab インストール時のつまずき
私の環境では『Rによる〜』に記載されている方法でインストールして RMecab を使うと RStudio ごと落ちるという現象が起きました(Rコンソールでもダメ)。tweet したところ,石田先生に助けていただきました。
辞書もソースからインストールされているということですよね。では、Rで install.packages("RMeCab", repos = "https://t.co/ItGfYL8TAs", type = "source") を実行してみてください
— RMeCab (@rmecab) 2017年6月30日
これで無事解決。ありがとうございます。
4.mecab-ipadic-NEologd を使用するときのつまずき
テキストマイニングの対象はちょっと特別な言葉が入っているので,標準の辞書ではない NEologd を使うことにしました。この辞書のインストールは次のページに従って行いました。
しかし,RMeCab で NEologd を使うときは,ユーザ辞書が必要とのこと。次のページの「R」セクションの記述に従って,ユーザ辞書を作り直しました。
作った辞書(〜〜.csv.dic という名前のファイル)は,適当なところにコピーして使います。こんな感じ。
> RMeCabC("オールセラミック", dic = "/Users/jibun/mecab-user-dict-seed.20170630.csv.dic") [[1]] 名詞 "オールセラミック"
標準の辞書だと,
> RMeCabC("オールセラミック") [[1]] 接頭詞 "オール" [[2]] 名詞 "セラミック"
ちゃんと,オールセラミックを1つの言葉として扱ってくれてる。よかった。
まだまだテキストマイニングは準備すら難しい印象を持ちました(私の環境では)。でも『やさテキ』と『Rによるテキストマイニング第2版』とネット上の先達のおかげでなんとかなりました。KH Coder に流れたくなったけど,せっかくなんとか準備が整ったので R でがんばりたいと思います。

- 作者: 小林雄一郎
- 出版社/メーカー: オーム社
- 発売日: 2017/02/17
- メディア: 単行本
- この商品を含むブログを見る

- 作者: 石田基広
- 出版社/メーカー: 森北出版
- 発売日: 2017/06/28
- メディア: 単行本
- この商品を含むブログを見る