BioSampleを改めて眺めてみた

このブログも昨年は書いていなかったので、これは再開するのはいかがなものかと思ったのだけれども、よく見たら(自宅でブログを書いていたので)3年くらい書いていなかった時期があって、まぁいいか、と思い、また書いてみました。
次世代シーケンサーの公共データベースSRA(Sequence Read Archive)の検索エンジンを仕事で作ったりなどしています。もともとはSRAだけで閉じていたのですが、発現情報はもともとマイクロアレイのデータのレポジトリであるGEOにも入るようになり、つまり、発現情報はGEOとSRAの両方に入ることとなって、両方見ないといけなくなって、共通であるプロジェクト部分はBioProjectに、サンプル情報はBioSampleに外だしされることとなりました。
で、BioSampleのFTPサイトを改めて眺めてみたのですが、
DDBJの方





SAMD00000001


Bradyrhizobium sp. DOA9
MIGS Cultured Bacterial/Archaeal sample from Bradyrhizobium sp. DOA9

Bradyrhizobium sp. DOA9

NCBIの方は





SAMN00000002
19655
SRS000002


Alistipes putredinis DSM 17216

全然 違うじゃないですか。。。(NCBIの方はDDBJのを含んでいるようなのでこっちを見るか)
とりあえず、IDのprefix(ようするに頭の方)を調べてみました。とりあえず5文字分

27780 SAMD0
17 SAME5
480372 SAMEA
3628607 SAMN0

SAMと来て、DとかEとかNとか来て(DDBJ、EBI、NCBIなのは想像に難くない)で、なんちゃらだが、その後ろが数字かと言うとそうでもない、ということ。