RMeCabでPNE文章を処理してみた

Rによるテキストマイニング入門

Rによるテキストマイニング入門

Rによるテキストマイニング入門の74ページ。Ngram関数。対象は、蛋白質核酸酵素の文章10000行分(全体は37万行)。

"[LESS-THAN-2]" 60344
"[蛋白-質]" 1631
"[こと-,]" 905
"[よう-,]" 402
"[)>-,]" 386
"[)-,]" 384
"[0-.]" 377
"[_-2]" 361
"[場合-,]" 332
"[(-図]" 294
"[1-,]" 281
"[N-_]" 278
"[^<-2]" 274
"[分子-量]" 271
"[活性-化]" 267
"[残-基]" 265
"[.-5]" 261
"[ため-,]" 259
"[の-,]" 252
"[糖-鎖]" 250
"[,-細胞]" 249
"[もの-,]" 247
"[_-3]" 243
"[_-s]" 237
"[アク-チン]" 236
"[結果-,]" 233
"[,-酵素]" 229
"[,-,]" 225
"[1-)]" 218
"[こと-^<]" 216
"[,-これ]" 209
"[筆者-ら]" 203
"[,-1]" 200
"[_-i]" 197
"[,-これら]" 197
"[細胞-内]" 190
"[,-000]" 188
"[S-.]" 186
"[--2]" 186
"[,-2]" 184
"[,-蛋白]" 183
"[固定-化]" 181
"[2-)]" 181
"[ない-,]" 177
"[,-N]" 176
"[.-(]" 172
"[作用-,]" 171
"[特異-的]" 170
"[緩衝-液]" 168

素のMeCabだと、遺伝子→遺伝+子とか分けたりするので、こういうのをうまくとってこないといけないだろうな、と。このリストは、上の方を1画面分とってきたものだけれども、ノイズがかなりあるものの、多くは、記号が混じっているもので、それを除くと、いい感じのがとれてくるのではないか。で、そいつを辞書につっこんで、何回か回せばいいかな、と。
多分、全体の数と、蛋白→何か の数とかとを勘案して、蛋白→質が有意か否かを判断するのがスジなんでしょう。
おもろいおもろい。