PubMed Central (PMC)データをいじってみる

前に統合牧場で話に出ていたのだが、PMCのデータもFTPにあるのね。探すの苦労した。。。
File Validation Tools
直接的なリンクでないけれども、せっかくだから、他のツールのリンクもあるのでこっちを。
で、落としてきた。tar.gzで3GBくらい。ほどくと、雑誌ごとにディレクトリがきられとる。NARとか見ると、7192 articlesがおさめられていた。(11/1/24現在)
そういう統計情報は、PMC Journal List [N-S]などを見るべし。
しっかし、相変わらずXMLきたねぇなぁ。多分、長くなるからことごとく改行文字を削ったんだろうけど、読みにくいこと限りなし。っちゅうことで

perl -lane 's/(<\/.*?>)/$1\n/g; print' file

とかやってそこそこ改行をかまして眺めてみたり。(実際にはさらに入れてみたり)
それもこれも、BioPerlとかで、PMID抜くとか、タイトルだけ抜くとかそういうのができないからなのだが、NCBI eUtils使って取りにいく、なんてのは(こっそり)できたりするんだよね。(http://bugja.sourceforge.jp/index.php?ArrangeBiblioPmc
ただ、webで見れるのと、XML取れるのは別だからな。。。