HyperEstraierいじり

いれてみたので、実際に検索できるか、そこいらのデータで試してみる。
http://hyperestraier.sourceforge.net/intro-ja.html を参考に。インデックスをつくって、で、CGIを設置し、検索をかける、と。
とりあえず、今までためていた論文 (PDF形式) を相手にやってみたが、

nakazato@casper:~/Sites/youshi$ estcmd gather -il ja -sd casket /Users/nakazato/mudskipper/mystock/paper/gendoo_omim
estcmd: INFO: reading list from the directory: /Users/nakazato/mudskipper/mystock/paper/gendoo_omim
estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=6899176 crnum=0 csiz=0 dknum=0
estcmd: INFO: closing: name=casket dnum=0 wnum=0 fsiz=6899280 crnum=0 csiz=0 dknum=0
estcmd: INFO: finished successfully: elapsed time: 0h 0m 0s

なんかうまくいっている感じじゃないね。確かに検索してみても0件。
やっぱし、PDFだとバイナリだからダメかなーとか思ったので、MEDLINEのXMLとか試してみたが同様。それなりに形式が整っていないと素ではダメっぽい。
というわけで、昔つくったHTMLファイル群を相手にやってみた。

nakazato@casper:~/Sites/youshi$ estcmd gather -il ja -sd casket /Users/nakazato/mudskipper/web/chalk-less/
estcmd: INFO: reading list from the directory: /Users/nakazato/mudskipper/web/chalk-less/
estcmd: INFO: status: name=casket dnum=0 wnum=0 fsiz=6899280 crnum=0 csiz=0 dknum=0
estcmd: INFO: 1 (/Users/nakazato/mudskipper/web/chalk-less/complex/syllabus.html): registered
estcmd: INFO: 2 (/Users/nakazato/mudskipper/web/chalk-less/discussion/discussion.html): registered
estcmd: INFO: 3 (/Users/nakazato/mudskipper/web/chalk-less/discussion/lawsci/1.html): registered
estcmd: INFO: 4 (/Users/nakazato/mudskipper/web/chalk-less/discussion/lawsci/2.html): registered
estcmd: INFO: 5 (/Users/nakazato/mudskipper/web/chalk-less/discussion/lawsci/3.html): registered
estcmd: INFO: 6 (/Users/nakazato/mudskipper/web/chalk-less/discussion/lawsci/4.html): registered
estcmd: INFO: 7 (/Users/nakazato/mudskipper/web/chalk-less/discussion/lawsci/5.html): registered
estcmd: INFO: 8 (/Users/nakazato/mudskipper/web/chalk-less/discussion/lawsci/lawsci.html): registered
estcmd: INFO: 9 (/Users/nakazato/mudskipper/web/chalk-less/discussion/lawsci/ls-index.html): registered
...
estcmd: INFO: 65 (/Users/nakazato/mudskipper/web/chalk-less/radioact/radioact3.html): registered
estcmd: INFO: 66 (/Users/nakazato/mudskipper/web/chalk-less/radioact/syllabus.html): registered
estcmd: INFO: flushing index words: name=casket dnum=66 wnum=1 fsiz=7207729 crnum=25031 csiz=2146453 dknum=0
estcmd: INFO: flushing index words: name=casket dnum=66 wnum=10001 fsiz=7548954 crnum=15031 csiz=1208210 dknum=0
estcmd: INFO: flushing index words: name=casket dnum=66 wnum=20001 fsiz=7852978 crnum=5031 csiz=404289 dknum=0
estcmd: INFO: closing: name=casket dnum=66 wnum=25032 fsiz=8020924 crnum=0 csiz=0 dknum=0
estcmd: INFO: finished successfully: elapsed time: 0h 0m 0s

うまくいったようです。
検索してみたら、ちゃんと結果が出た!
http://hyperestraier.sourceforge.net/uguide-ja.html とか見ると、自分でこれがタイトルでこれがauthorで、とかやればよいみたい。
それに、Webでの向こう側を検索して(いわゆるクロールってやつ)データを集めるのもできるから、このあたりをhackですね。
とりあえず、今、PDFとメタデータ(独自フォーマット)だから、それを呼んで出るように仕立てて、そいつに対してHyperEstraierって感じですかね。