IT
DDBJ Searchですが、トップページにある統計情報(こんなシーケンサーでいくつのプロジェクトがあるよーなど)は毎日更新しています。 まぁ、元情報をDDBJから落としてくるのは週1なんで、不要っちゃ不要なんですが、念のため。 で、この更新スクリプト、た…
今後、使っていくと思うので、これは、ってものをメモっとく。 http://developer.yahoo.com/yui/paginator/:前回 触れた、全体の件数を出すとかはここをよーく見ると書いてあった http://developer.yahoo.com/yui/examples/datatable/dt_colshowhide.html:…
例のDDBJ Searchで、http://sra.dbcls.jp/cgi-bin/publication.cgiっちゅうデータに対応する文献(もしくは文献のあるデータ)のリストがあるのだが、件数がほしい、という要望が。 Yahoo Developer NetworkをHackするのにえらい時間がかかったが、やっとこ…
実験医学 増刊 29―15―日本発のデータベース戦略から,ゲノム・疾患情報の有 使えるデータベース・ウェブツール (実験医学増刊 Vol. 29-15)作者: 有田正規出版社/メーカー: 羊土社発売日: 2011/09/01メディア: 単行本 クリック: 1回この商品を含むブログ (2件)…
なんか気がついたらこんな日になっていて、世の中、諸行無常というか生々流転というか。 そんなこんなで、DDBJ Searchってのをやっているが、この前(って7月)、次世代シーケンサ(通称:NGS)の基礎についてしゃべったときに即席でこさえた、データ数の伸…
まずはこちらをご覧ください。 Plasmodium falciparum 5966 ... これを見るに、taxonomy ID は5966ですが、NCBIで調べてもそんな登録はありませんでした。 さらに続きまして、こちらをご覧ください。 Plasmodium falciparum 5967 ... えーっと。COMMON_NAME…
まずはこちらをご覧ください。 SRP000031 1000Genomes Project Pilot 1 SRP000033 1000Genomes Project Pilot 3 こいつらは、データが多くなるから、分けとるんかなーとか思ったわけです。ということでプロジェクトとしては1つ。だからBioProjectだと同じID…
すっげー今さらなんだが、統合失調症 (Schizophrenia) とかは、疾患カテゴリ(いわゆるCカテゴリ)でなくて、精神/心理(Fカテゴリ)のMental Disorders (F03) の下に入ってんのな。
例のPublication Listを利用して、こんなことしてみた。 SRA009359 19881526 M:Leprosy SRA029797 21399634 M:Leukemia, Monocytic, Acute SRA009028 18987736 M:Leukemia, Myeloid, Acute SRA009391 19657110 M:Leukemia, Myeloid, Acute SRA026055 1965711…
用語集MeSHには、化合物のカテゴリがあって、それとは別にSubstancesという化合物の用語集みたいのがあったりする。 昔(2000年代前半? 会社員時代)、これらには重なりがあったのだが、今 見ると、ない(ように見える) そんなだったかなぁ。 まぁ、いいや。…
NCBIが金がないとかだと思うのだが、2月くらいから交渉していたのが決裂したらしく、Home - OMIM - NCBIはもうやらないとか NCBI is implementing changes to help you find current content in OMIM based on resources at NCBI, and then directing you to…
やってみた。 SRA038358 SRP007212 - ← 記述がないのはこれだけ SRA038201 SRP007206 60683 SRA038188 SRP007204 60707 SRA038187 SRP007203 60703 SRA038186 SRP007202 60701 SRA038185 SRP007201 60699 SRA038184 SRP007200 60705 SRA038179 SRP007198 0 ←…
GEOのデータをparseして、もろもろのペアつくり GSE10967 GPL9062 = SRP000551 18423832 GSE10968 GPL9062 = SRP000568 18423832 GSE11070 GPL1979|GPL9062|GPL10977 = SRP000622 18486559 GSE11094 GPL9062 = SRP000713 18542052 GSE11172 GPL9185 = SRP000…
1 Helicos (Mus musculus) 5 MIT Caenorhabditis elegans small RNA sequences (Illumina/Solexa) 1 Salk-Yeo-Solexa-ES,NP,NE cells 1 NHLBI-Mouse-Solexa-Tcell-Stat 1 NCI Human Solexa Platform 14814K 1 MPI_Chen_domestic_dog_Solexa_2007 1 MPI_Chen_…
13 AB SOLiD System 2.0 (Homo sapiens) 6 AB SOLiD System 3.0 (Mus musculus) 6 AB SOLiD System 3.0 (Homo sapiens) 6 AB SOLiD System 2.0 (Mus musculus) 5 AB SOLiD System (Mus musculus) 3 AB SOLiD System 3.0 (Arabidopsis thaliana) 3 AB SOLiD S…
6 454 GS FLX (Homo sapiens) 4 454 GS FLX (Caenorhabditis elegans) 3 454 GS 20 (Homo sapiens) 3 454 GS (Arabidopsis thaliana) 2 454 GS FLX (Rattus norvegicus) 2 454 GS FLX (Mus musculus) 2 454 GS FLX (Chlamydomonas reinhardtii) 2 454 GS FLX…
152 Illumina Genome Analyzer (Homo sapiens) 137 Illumina Genome Analyzer II (Homo sapiens) 133 Illumina Genome Analyzer (Drosophila melanogaster) 123 Illumina Genome Analyzer (Mus musculus) 100 Illumina Genome Analyzer II (Mus musculus) 69…
これまたぐちゃぐちゃなんだよねー。。。 同じシリーズの中で複数のプラットフォームとかあって、それぞれにサンプルが紐づいてて、うーん。。。(−_−; とりあえず上の方。 1792 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array 1626 [Mous…
アップデートしたらこんなんでた。 To make python 2.7 the default (i.e. the version you get when you run 'python'), please run: sudo port select --set python python27
!Series_geo_accession = GSE11389 ... !Series_summary = This SuperSeries is composed of the following subset Series: !Series_summary = GSE11335: Chip-chip from MEF cells with H3ac, H4ac, H4K20me1, !Series_summary = GSE11337: RNA-chip from M…
GEOも眺めています。フルのデータで641GB(圧縮済)、発現値をとったメタデータで2.6GB(非圧縮)って扱うのも一苦労だよ。 で、この中に、データのタイプってのがあったので、数えてみた。 17891 Expression profiling by array 1151 Genome binding/occupa…
ディスカッションをしているうちにそういう話になったので、調べてみた。あくまで、Gendoo - Gene, Disease Features Ontology-based Overview Systemで使っている論文だけですが。 多い順、top 10 文献数 GeneID 遺伝子名 5695 836 CASP3: caspase 3 5585 5…
そうこういいつつも、いろいろと手を出しちゃぁ、足をつっこんじゃぁ。 転写因子についても、ちょっと眺めてます。 前に文献から配列を抜くってのをあげましたが、そのアノテーション的な意味も込めて。 ふと、転写因子ってどのくらいあるのかなーと思い立ち…
断片としてはおもろいことをいろいろかかえているが、学会とかあるし、どうつないで、区切りをつけるか思案中。
そんなこんなでプログラムの方の掃除もしつつ、そういや、昔、こういうのをやってて、またやんなきゃだなーという感じになってきたので、とっちらかしたデータの方も、きれいにしてみることに。 そもそもマシンを乗り換える度に、前のはほったらかしで、必要…
5/11に書いたとおり、セキュリティのアップデートもあって、port -v upgrade outdated だかしたらば、手持ちのPMIDを食ってNCBIに聞きに行き、abst.のXMLを吐くスクリプト(Perl)が動かなくなった。 これって、BioPerlで書いてあって、だから素のPerlとかそ…
あまりにXMLが複雑怪奇すぎる上に、はやりの「節約」か異常に改行が少なくてみづらい。 そんなこんなで XML::Simple とかでは読み解くのがしんどいので、明日は別アプローチで読みほどくとする。 そもそも、拡張子がnxmlだしな。なんだそれ(をい
検索結果のPMIDを投げて、BioPerlで処理し、PMC IDをとって、もいちど投げ、とりあえず落ちてきたXMLから何も考えずに正規表現で抜く。 18267968 2367719 TTTTTTTTTTCATATGTCCCAGAGCAGGCACCGCGAGGCCa TTTTTTTTGCGGCCGCTTACTTTCTTTCTGCTATTATCTTTAAATA TTTTTT…
bioperlは、安定版が1.6.1かな。開発版は、1.6.9までいっているっぽい。 ちょうど、Perlも、5.10から5.12になるころの過渡期で、ある日、5.12でないと動かない日が来ると思っていたのだが、今日かもしれんと思いつつ、一からインストールなども試みかけたが…
各種DBの説明。 今日はしゃべりすぎた。 考えるところは一緒にがっつり考えて、やるところはおまかせで、というのが理想。