専門用語抽出をやってみる(TermExtractで処理してみる・その1)
サンプルプログラムは、専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説にリンクがある、と。
そいつによると、ファイルを食わすようになっている。って、MontyTaggerの出力をファイルにするってどうするんだよ。よくわからんから、
./run.bat 2>&1 1> tmp.log (標準エラー出力を標準出力にマージして、標準出力をファイルに吐く)
なんてことをしてみた。で、入力待ちの状態になるので、そこにテキストを張り付けて処理さす。将来的にはpythonのコードを書くか(久しぶりだな)。
で、その結果を、先のサンプルプログラム・改に食わしてみる、が、特に何もでないな。どこが問題だ?(いろいろ変数を宣言すべきか? 食わすファイルが変なのか?)→ 出た。コメントアウトしすぎてた。
12q locus 9.36 chromosome 6.00 one gene 5.26 noninsulin-dependent diabetes 5.03 'one gene 4.90 gene 3.46 description 3.00 one gene locus 2.57 locus 2.45 'noninsulin-dependent diabetes 2.11 noninsulin-dependent diabetes mellitus 2.08 'chromosome 2.00 NIDDM 2.00 number sign 1.41 Finnish population 1.41 entry 1.00 NIDDM3 1.00 form 1.00 causation 1.00 mutation 1.00 ['number 1.00 evidence 1.00 NIDDM2 1.00 2q 1.00 CAPN10 1.00
元文章 http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=125853 よりは、
A number sign (#) is used with this entry because of evidence that more than one gene locus is involved in the causation of noninsulin-dependent diabetes mellitus (NIDDM). See 601283 for description of a form of NIDDM linked to 2q, which may be caused by mutation in the gene encoding calpain-10 (CAPN10; 605286). See 601407 for description of a chromosome 12q locus, NIDDM2, found in a Finnish population. See 603694 for description of a locus on chromosome 20, NIDDM3.
けっこういいんでない? もっと文章をたくさん食わすと、この場合は、2型糖尿病だけれども、それが上の方にやってきそう。