OMIMの遺伝子エントリをEntrez Geneに当ててみる

2010-03-12 - chalk-less::weblog::theclaで書いたとおり、OMIMには、疾患と疾患関連遺伝子が含まれているわけで、これらを一緒に扱うのは非常に違和感があるわけです。
はたまた、今、Gendoo - Gene, Disease Features Ontology-based Overview Systemは、Entrez Geneから、というのと、OMIMからという入り口があって、遺伝子に関しては、どっちを見たらいいんだろう、ということになっているわけです。
というわけで、先日に示した、OMIMの各エントリに関する文献について、遺伝子を指しているものは、Entrez Geneに当てて、一緒に扱おう、ということでやってみてます。
Entrez GeneのFTPサイトであるftp://ftp.ncbi.nih.gov/gene/DATA/に、mim2geneっちゅうのがありまして、

#Format: MIM_number GeneID type (tab is used as a separator, pound sign - start of a comment)
100300 100188340 gene
100640 216 gene
100650 217 gene
100660 218 gene
100670 219 gene
100678 39 gene
100680 100187742 gene
100690 1134 gene
100710 1140 gene
100720 1144 gene
100725 1145 gene
100730 1146 gene
100740 43 gene
100790 429 gene
100800 2261 phenotype
100850 50 gene
100880 48 gene
101000 4771 phenotype
101200 2263 phenotype

という感じに頭20行がなっているのですが、これを使って、gene ならEntrez Geneに当てる、とやったものの、OMIMで遺伝子扱いされているものがリンクされていなかったり、疾患扱いされているものが遺伝子としてリンクされていたり。結局、OMIMのタイプによって分けることとしてみました。