文献リストの手直しメモ

毎度おなじみながら、NGSの公共データベースであるSRAで、メタデータのまとめをして統計的なところから検索するっていう SRAs ってのをやってます ( http://sra.dbcls.jp/ )。この中で、文献からデータを検索するってのがあるわけですが、5月下旬にNGS現場の会 第2回研究会ってのに参加しまして、いろんなベンダーあるなーとか思ったわけです。んでもって、(あくまでこちらでつかんでいる情報でだけですが)文献が出ているデータを機種別に検索してみまして

                                                                                    • +
platform count(*)
                                                                                    • +
Illumina Genome Analyzer II 4298
454 GS FLX 3701
Illumina Genome Analyzer 2927
454 GS FLX Titanium 847
Illumina Genome Analyzer IIx 645
Illumina HiSeq 2000 377
AB SOLiD System 3.0 154
454 GS 20 154
Helicos HeliScope 115
AB SOLiD System 2.0 114
AB SOLiD System 66
AB SOLiD 4 System 56
454 GS 21
NULL 18
unspecified 15
PacBio RS 13
Complete Genomics 4
454 GS Junior 2
Ion Torrent PGM 2
Illumina MiSeq 1
                                                                                    • +

こんな結果を得ました。
で、ほほぅ。Illumina MiSeqもあるのかー、とMySQLをたたいたらば

                                                                                • +
RA PLATFORM pmid
                                                                                • +
SRA048303 Illumina MiSeq 22185227
                                                                                • +

確かにあったわけです。
ところが、実際にサービスしているページ ( http://sra.dbcls.jp/cgi-bin/publication.cgi ) では出ない。これはおかしい。
もうちょっと調べてみますと

                                                                                                                                                        • +
RA study_title platform
                                                                                                                                                        • +
SRA048303 Ultra-Deep Targeted Sequencing Illumina Genome Analyzer IIx
SRA048303 Ultra-Deep Targeted Sequencing Illumina MiSeq
                                                                                                                                                        • +

と、1つの登録で複数のプラットフォームであったわけです。なるほどなるほど。
で、どこでコケるのかなーっと思ったらば、取ってきた文献とデータのペアをMySQLに登録するプロセスで

if len(rows) != 1: # データは一種類だけ入っているはずなので、複数あると
おかしい

とある行を発見したのですが、データは一種類ではなかった。。。(残念)
というわけで、今度 直してねー(と、とりあえず書いておく)