SRA のデータが汚い(いまさら)

まずはこちらをご覧ください。


...



pubmed
17916733


これは、SRX096404というデータで、実体はSRA045429.experiment.xmlですが、このデータが、PubMed の 17916773 、つまり、http://www.ncbi.nlm.nih.gov/pubmed?term=17916733Microbial population structures in the deep marine biosphere. - PubMed - NCBI)をさしている、とそういうことです。
ここで数字の後ろにスペースが入っていることは、この際、目をつぶるとして、こういうのを拾ってきて、SRAsのhttp://sra.dbcls.jp/cgi-bin/publication.cgiが作られています。
続きまして、こちらをご覧ください。


...



pubmed
1146689


これは、SRX092822というデータで、実体はSRA045571.experiment.xmlですが、上のからすると、このデータが、PubMed の 1146689 をさしているので、まぁ、普通は、http://www.ncbi.nlm.nih.gov/pubmed?term=1146689Etiology of the mitral valve prolapse-click syndrome. - PubMed - NCBI)を指すだろうことは想像に難くないわけです。はい。しかしながら、この文献は1975年に出ているものでして、SRAデータのタイトルがMoorea Reef 16S rRNA gene surveyなのに、どうしてなんちゃらsyndromeが出てくんねんっちゅう話になるわけです。こんなこともあろうかと、SRAsの文献リストにはオリジナルのID、つまり、文献中の記述そのままが書いてあって、たとえば、文献中でGEOのIDで書いてあるのを変換するとこのSRA IDになるっちゅうのがわかるようにしたのですが、どうも今回はサンプル作成の論文ではないという感じがしたわけです。
で、これはおかしいとデータをじっと眺めてみると


...



pubmed
1146689


← ここまでは前掲
multiplexed libraries
protocol_description: a long description of the library
construction nucl_acid_amp: 10.1126/science.1146689 url:
http://amarallab.mbl.edu/mirada/mirada.html;
...
elongation:72degC_10 min;28 cycles

ん? ん? んんん???

10.1126/science.1146689

これはっ。
GoogleをDOIで検索 → Resolve a DOI Name 開く → 上のを入れる → ぽちっとな → Microbial Population Structures in the Deep Marine Biosphere | Science
おおおおおおおおおおおおおおおおおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅおぅ。
ちょっと今、立ちくらみがしました。
これはねー。
どうせぃっちゅうねん。
業務連絡:個々につぶします。気にしなくてよいです。