short read archiveのデータってeutilsで取れるんかな
NCBI SRA (Short Read Archive)のデータをeutilsとかで取れると、それを使ってちゃらちゃらーという流れなのだが、そもそもどうなのか。
まぁ、各シーケンスのデータは巨大なので、そういうのは、FTPサイトからとればよいと思うのだが。ここでやろうというのは、Submission とか、Experiment とか、Sampleとか、Runとか、そういう情報。
定番は、esearch → efetchの流れ。とりあえず、web経由で手入力してみたのを参考にesearch。http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=sra&term=all[sb]&retmax=30&usehistory=y
6373 30 0 1 0r5F8fTHugVqVVuRl9LwYHTusRZ46CCFAFsWqjPcEuAnEdIXG1c3_K0Xfv@CE8F500AA78EF0C1_0032SID 7419 7418 7417 ...7319 7318 all[sb] sb 6373 Y GROUP all[sb]
とれましたねぇ。
これを元にefetch。でも、efetchのヘルプのページに飛ばされるなぁ。
そもそもIdがSRX007153とかでなくて、7419とかいうのがわからん。というわけで、ブラウザで。なるほど。このSRX007153というアクセッション番号の ID (GenBankとかでいうところの gi number)が7419なのね。http://www.ncbi.nlm.nih.gov/sites/entrez?Db=sra&Cmd=DetailsSearch&Term=7419[uid]
午後もぼちぼちもう少し調べてみるか。