どんな生物種がどこに出てくるかデータのアップデート

http://d.hatena.ne.jp/thecla/20090629#1246267300とかhttp://d.hatena.ne.jp/thecla/20090701の続きで、蛋白質核酸酵素のどの記事にどんな生物種が出てくるかのデータのアップデート。
アップデートのデータをもらったので、アップデートしようかと。
なんか、同じ内容が複数回出力されてる? 結果が変なので、ファイルをuniqしたら、行数が7%くらいになった。
前のと比べてみたら、たとえば、ヒトの出てくる記事の数が減っている。取り逃がしているのか、精度が上がっているのか。確認しないとわからない。概して減っているなら、前の結果とマージして出す、ということに決着さそうかと思う。