BioSampleを改めて眺めてみた
このブログも昨年は書いていなかったので、これは再開するのはいかがなものかと思ったのだけれども、よく見たら(自宅でブログを書いていたので)3年くらい書いていなかった時期があって、まぁいいか、と思い、また書いてみました。
次世代シーケンサーの公共データベースSRA(Sequence Read Archive)の検索エンジンを仕事で作ったりなどしています。もともとはSRAだけで閉じていたのですが、発現情報はもともとマイクロアレイのデータのレポジトリであるGEOにも入るようになり、つまり、発現情報はGEOとSRAの両方に入ることとなって、両方見ないといけなくなって、共通であるプロジェクト部分はBioProjectに、サンプル情報はBioSampleに外だしされることとなりました。
で、BioSampleのFTPサイトを改めて眺めてみたのですが、
DDBJの方
SAMD00000001
Bradyrhizobium sp. DOA9
MIGS Cultured Bacterial/Archaeal sample from Bradyrhizobium sp. DOA9
Bradyrhizobium sp. DOA9
NCBIの方は
SAMN00000002
19655
SRS000002
Alistipes putredinis DSM 17216
全然 違うじゃないですか。。。(NCBIの方はDDBJのを含んでいるようなのでこっちを見るか)
とりあえず、IDのprefix(ようするに頭の方)を調べてみました。とりあえず5文字分
27780 SAMD0
17 SAME5
480372 SAMEA
3628607 SAMN0
SAMと来て、DとかEとかNとか来て(DDBJ、EBI、NCBIなのは想像に難くない)で、なんちゃらだが、その後ろが数字かと言うとそうでもない、ということ。