PNEテキストデータいじり倒し準備

前までは「いじり」くらいだったのだが、id:syou6162が専門用語リストをつくってくれたので(って、本人はまだまだです。。。とか言うだろうが)、こいつは本格的に遊べるわいっちゅうか、こうやってやってくれたのを使える形にして出すのが自分の役割だとも思っているので、いじり倒していこう、ということで、その準備とか。
とりあえず、ファイル名が「ページ_号_年.txt」になっているので、使い勝手がよかろうと考え「年_号_ページ.txt」にrenameしてみた。まぁ、大したことないのだが、とか思っていたのだが、年が1900年(実際は、1990年)になってたりとか、2008年(実際は2003年。そもそもデータが2006年までしかないので)になってたりとか、けっこう間違いがあって、大したことがあったみたい。というわけでつっこんで見てみたら、意外とあるもので。。。年と号と並べて比べてみると、号がずれていたり、年がずれていたり。手直し。
続きまして、仕事柄、BioPerlを使って、文献からタイトルとか本文とかとっていたりするわけだけれども、そういうときには

$title = Bio::Biblio->new(-access => "eutils")->get_by_id("12531781)->next_bibref()->title();

とかやるので(って、titleメソッドでタイトルとれるのがキモ)、同じようなことができるようなの作っとけば後が楽だな、と思い立ち、なら、どんなタグがあんのかな、と。
これまた、細かいミスがありまして、

本文中中見出し → 本文中中出見し:9件
図表キャプション → 図表キャブション:7件

などなど。あと、本文中にHTMLタグが出てくる記事があって、PNEデータにつけたタグと区別がつきません(まぁ、上記のスクリプトを書く分には関係ないんだけど)。
本文中でプロテオームがフロテオームになっている箇所があるのはOCRの失敗?
まぁ、いろいろあるってことです。
教訓:データのクリーニング必要で重要