文献リストの手直しメモ
毎度おなじみながら、NGSの公共データベースであるSRAで、メタデータのまとめをして統計的なところから検索するっていう SRAs ってのをやってます ( http://sra.dbcls.jp/ )。この中で、文献からデータを検索するってのがあるわけですが、5月下旬にNGS現場の会 第2回研究会ってのに参加しまして、いろんなベンダーあるなーとか思ったわけです。んでもって、(あくまでこちらでつかんでいる情報でだけですが)文献が出ているデータを機種別に検索してみまして
- +
platform count(*)
- +
Illumina Genome Analyzer II 4298 454 GS FLX 3701 Illumina Genome Analyzer 2927 454 GS FLX Titanium 847 Illumina Genome Analyzer IIx 645 Illumina HiSeq 2000 377 AB SOLiD System 3.0 154 454 GS 20 154 Helicos HeliScope 115 AB SOLiD System 2.0 114 AB SOLiD System 66 AB SOLiD 4 System 56 454 GS 21 NULL 18 unspecified 15 PacBio RS 13 Complete Genomics 4 454 GS Junior 2 Ion Torrent PGM 2 Illumina MiSeq 1
- +
こんな結果を得ました。
で、ほほぅ。Illumina MiSeqもあるのかー、とMySQLをたたいたらば
- +
RA PLATFORM pmid
- +
SRA048303 Illumina MiSeq 22185227
- +
確かにあったわけです。
ところが、実際にサービスしているページ ( http://sra.dbcls.jp/cgi-bin/publication.cgi ) では出ない。これはおかしい。
もうちょっと調べてみますと
- +
RA study_title platform
- +
SRA048303 Ultra-Deep Targeted Sequencing Illumina Genome Analyzer IIx SRA048303 Ultra-Deep Targeted Sequencing Illumina MiSeq
- +
と、1つの登録で複数のプラットフォームであったわけです。なるほどなるほど。
で、どこでコケるのかなーっと思ったらば、取ってきた文献とデータのペアをMySQLに登録するプロセスで
if len(rows) != 1: # データは一種類だけ入っているはずなので、複数あると
おかしい
とある行を発見したのですが、データは一種類ではなかった。。。(残念)
というわけで、今度 直してねー(と、とりあえず書いておく)