UMLS→日本語用語集

件のMRCONSO.RRFのファイルをアレンジして、日本語の用語集を作ってみた。
各国語の語が混じっているので、JPNのだけピックアップ。NOS (no other specification)というのがゴミのようについているのがあるので、それを除いて、uniq。
せっかくだから、concept ID と、Semantic Typeもつけてみた。

C0000039        Pharmacologic Substance 1,2-ジパルミトイルホスファチジルコリン
C0000039        Pharmacologic Substance 1,2-ジパルミトイルレシチン
C0000039        Pharmacologic Substance ジパルミトイルホスファチジルコリン
C0000039        Pharmacologic Substance ジパルミトイルレシチン
C0000052        Enzyme  アミロペクチン分枝酵素
C0000052        Enzyme  1,4-アルファ-グルカン分枝酵素
C0000052        Enzyme  Q-酵素
C0000052        Enzyme  α-1,4-グルカン分枝酵素
C0000052        Enzyme  アミロ-(1,4-1,6)-トランスグリコシラーゼ
C0000052        Enzyme  グリコーゲン分枝酵素

Semantic Type は、以下のような感じ。(MRSTY.RRFをアレンジ)

T071    A       Entity
T072    A1      Physical Object
T001    A1.1    Organism
T002    A1.1.1  Plant
T003    A1.1.1.1        Alga
T004    A1.1.2  Fungus
T005    A1.1.3  Virus
T006    A1.1.4  Rickettsia or Chlamydia
T007    A1.1.5  Bacterium
T194    A1.1.6  Archaeon

不思議な用語も収載されていて、

C0000872        Health Care Related Organization        学術医学センター

なんてのが入っていたりするので、Semantic Typeとかではじくとかかね。
今度、ファイル渡す。>id:syou6162