こんな統計値もありかと思った

なんだーかんだーと、疾患名とかなんとかかんとかで、(日本語)辞書が重要で必要だ(で、それを使った結果とか副産物として得られる [っちゅうか、自分ではこれが主産物だと思うのだが] 各種リンクだの根拠 [エビデンス] だのがもっと重要で必要で利用価値がある)と何度か書いてきたように思うが、いかんせん、対峙しないといけない山っちゅうのは、かなり大きく、どっから取り崩したもんかいね、と前々から思いつつ、あちこちをつついている。
今回、まぁ今さらなのだが、やはりよく見るのは、頻度が高いもんだろう、と、また、情報をリッチにしないといけないのは、頻度が低いもんだろうという結論に達し、早い話、例のやつ(Gendoo - Gene, Disease Features Ontology-based Overview System)で、(Entrez Geneでの)遺伝子で対応づいたMeSHの頻度や、(OMIMでの)疾患で参考文献の数を調べてみて、それで機械的に取り崩すこととした。
で、その例のやつ(Gendoo - Gene, Disease Features Ontology-based Overview System)のデータを作るときの中間ファイルから計算すると手っ取り早いのだが、いかんせん、自動化したときに、こういう中間ファイルをどこかにちまっと置いとく仕様にしちまっていて、発掘するのに、意外と時間がかかってしまった。なんなんだか。。。orz
とりあえず、MeSHの頻度については、ヒトの分は計算(っちゅうか処理っちゅうか算数っちゅうか)が終了。↓こいつは、ヒトの遺伝子に対応づいた疾患キーワード。上下15語(機械的

14943 Genetic Predisposition to Disease
11468 Breast Neoplasms
9666 Prostatic Neoplasms
9642 Disease Models, Animal
8999 Multiple Sclerosis
7888 Adenocarcinoma
7161 Neoplasms
7019 Lung Neoplasms
6432 Disease Progression
5557 Liver Neoplasms
5312 Alzheimer Disease
5260 Inflammation
5204 Carcinoma, Squamous Cell
4757 Colorectal Neoplasms
4756 Neovascularization, Pathologic
...
1 Ancylostomiasis
1 Anal Gland Neoplasms
1 Amaurosis Fugax
1 Alexia, Pure
1 Aleutian Mink Disease
1 Ageusia
1 Adie Syndrome
1 Actinomycosis
1 Accelerated Idioventricular Rhythm
1 Acanthamoeba Keratitis
1 Acalculous Cholecystitis
1 Abortion, Incomplete
(全3690行)

疾患カテゴリはヒトとか(マウスとかラットとか)くらいしかおもしろくないだろうが、薬剤・化合物カテゴリとか、生命現象とか、扱う生物種でバリエーションがかわるだろうから、こういう統計値も置いておくだけで意外とおもしろがってくれるのでは、などと勝手に思いました。
あとは、根拠となる文献もでーたを置くとともに、検索できるようにしておいた方がよいなと改めて思いました。(←これが辞書でなくてそれを使った副産物の部分)