専門用語抽出をやってみる(TermExtractで処理してみる・その1)

サンプルプログラムは、専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説にリンクがある、と。
そいつによると、ファイルを食わすようになっている。って、MontyTaggerの出力をファイルにするってどうするんだよ。よくわからんから、

./run.bat 2>&1 1> tmp.log
(標準エラー出力を標準出力にマージして、標準出力をファイルに吐く)

なんてことをしてみた。で、入力待ちの状態になるので、そこにテキストを張り付けて処理さす。将来的にはpythonのコードを書くか(久しぶりだな)。
で、その結果を、先のサンプルプログラム・改に食わしてみる、が、特に何もでないな。どこが問題だ?(いろいろ変数を宣言すべきか? 食わすファイルが変なのか?)→ 出た。コメントアウトしすぎてた。

12q locus                                                                9.36
chromosome                                                               6.00
one gene                                                                 5.26
noninsulin-dependent diabetes                                            5.03
'one gene                                                                4.90
gene                                                                     3.46
description                                                              3.00
one gene locus                                                           2.57
locus                                                                    2.45
'noninsulin-dependent diabetes                                           2.11
noninsulin-dependent diabetes mellitus                                   2.08
'chromosome                                                              2.00
NIDDM                                                                    2.00
number sign                                                              1.41
Finnish population                                                       1.41
entry                                                                    1.00
NIDDM3                                                                   1.00
form                                                                     1.00
causation                                                                1.00
mutation                                                                 1.00
['number                                                                 1.00
evidence                                                                 1.00
NIDDM2                                                                   1.00
2q                                                                       1.00
CAPN10                                                                   1.00

元文章 http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=125853 よりは、

A number sign (#) is used with this entry because of evidence that more than one gene locus is involved in the causation of noninsulin-dependent diabetes mellitus (NIDDM). See 601283 for description of a form of NIDDM linked to 2q, which may be caused by mutation in the gene encoding calpain-10 (CAPN10; 605286). See 601407 for description of a chromosome 12q locus, NIDDM2, found in a Finnish population. See 603694 for description of a locus on chromosome 20, NIDDM3.

けっこういいんでない? もっと文章をたくさん食わすと、この場合は、2型糖尿病だけれども、それが上の方にやってきそう。