SRAまわりの統計情報・自動化への試み

2010-05-07 - chalk-less::weblog::theclaでやったようにSRAのデータについて、実験の目的(タイプ)がどうとかプラットフォームがどうとか、生物種がどうとか、という頻度情報を出すというのをやったりしてまして、で、これが自動で更新されるようになんとかしつつあります。
というわけで、断片になっていたスクリプトをまとめたり。まだ、cronでまわすあたりは書いていないけれども、NCBIからデータを取ってきて、回数を勘定したりするのはできた。

1366 Whole Genome Sequencing
463 Transcriptome Analysis
390 Metagenomics
198 Epigenetics
110 Other
70 Resequencing
19 Gene Regulation Study
17 Population Genomics
12 RNASeq
10 Cancer Genomics
2 Forensic or Paleo-genomics
1 Synthetic Genomics
2658 TOTAL

なんか、RNASeqってのとForensic or Paleo-genomicsってのが増えているんですが。。。
週イチとかで回して、過去のも見られるようにしとくとともに、グラフとか描きたくなるよね。。。
前回は、プラットフォームとか生物種とかのもリストにしましたが、

*** PLATFORM ***
11727 Illumina Genome Analyzer II
4321 454 GS FLX
3058 Illumina Genome Analyzer
1481 Solexa 1G Genome Analyzer
1314 454 Titanium
923 unspecified
822 GS FLX
187 AB SOLiD System 3.0
164 GS 20
158 AB SOLiD System 2.0
98 454 GS 20
76 AB SOLiD System
14 Helicos HeliScope
9 454 GS
24352 TOTAL

なんかえらい数が多くなっているのは、数え方がかわったのか、真実なのか。。。前の勘定のしかたを発掘してみるか。。。

*** TAXONOMY NAME ***
76656 Human Metagenome
2380 Homo sapiens
1051 Human
757 Mus musculus
609 Drosophila melanogaster
591 Plasmodium falciparum
400 human metagenome
240 Oryza sativa Indica Group
178 human skin metagenome
160 Metagenomic
150 Caenorhabditis elegans
137 Arabidopsis thaliana
...
93157 TOTAL

これは、数え方が変なんですね。メタゲというサンプルがあって(で、これがリンクされていて)、実はそいつは複数のサンプルの集合体なので、ひとつひとつにメタゲと書かれたデータがついているので、何度も同じのをカウントしていることになっている。Homo sapiensとHumanと両方出てきているし、まぁ、そのあたりは後ほど直すということで。
てなわけで、目的(タイプ)のところは信用おけるので、さっさと公開するようにしよう。。。