疾患の用語集を作ってみよう

前に書いたか忘れたけれども、疾患の用語でいろんなのをjoinして、なるべく幅広く取ってみようかねー、とか思っている。
とりあえず、ソースとしては、まず、OMIM。それからMeSHのCカテゴリ(Diseases)。例によって、UMLSに当ててみる感じか。UMLSにも、Disease or Syndromeというカテゴリがあるし、これはこれで、ソースとするべし(どう使うか、というのもあるのだが)。本当は、ICD-10とかも混ぜ込みたいが、UMLSにソースとしてICD-10とかあるものの、そこいらで配られているのとはどうも違って、どうやってくっつけたものか。
とりあえずも、

grep B2.2.1.2.1 umls2term.tab  > umls2term.disease.tab

とかしてみる。umls2term.tabっちゅうのは、concept IDとかcategoryとかMeSH IDとか実際の語とかをテーブルにしたもの。で、B.2.2.1.2.1っちゅうのは、”Disease or Syndrome”のカテゴリのIDで、この下にMental or Behavioral DysfunctionとNeoplastic
Processのカテゴリがあったりする。これで90591行。けっこう多い。(MeSHが全体で23000だし、OMIMも全体で20000)。
問題として、どの語を代表とさすか、とかいうのがあるなぁ。MeSHとかOMIMにリンクのあるものは、その語を採用する、という手もあるが、素直なのは、(現時点でよいので)利用頻度の高い語だろうか。ただ、同じシリーズものは、同じフォーマットがよいな(ようするにI型糖尿病だけど、2型糖尿病にならないようにする、ということ)。
あと、そもそもが、Concept IDに対して、各種ソースからくっつけられるものをくっつけているので、1つのMeSHが(OMIMについても)複数のConcept IDに対応づけられていたりするんだよなぁ。ついでに、UMLSに対応づけられたMeSHとか見ると、MeSHが全体で6002でuniqして3610、OMIMが6264でuniqして5466。あ、逆に複数のOMIMが1つのConcept IDに対応づいていたりするから、本当は、もう少し多いな。OMIMが6346→5502か。
MeSHは、UMLSのサブセットというのを信じているから、MeSHにあって、UMLSにない、というのはない、と、勝手に思っているが、それも確認しないとな。OMIMにあって、UMLSにない、はけっこうありそうだ。(OMIMは遺伝子のエントリもあるから、そこが少ない原因というのも容易に想像されるが)
以上、とりとめもなく、書き連ねてみました。