IT

SRAs: こっちか向こうか調子悪い

DDBJ Searchですが、トップページにある統計情報(こんなシーケンサーでいくつのプロジェクトがあるよーなど)は毎日更新しています。 まぁ、元情報をDDBJから落としてくるのは週1なんで、不要っちゃ不要なんですが、念のため。 で、この更新スクリプト、た…

YUI!使い倒し

IT

今後、使っていくと思うので、これは、ってものをメモっとく。 http://developer.yahoo.com/yui/paginator/:前回 触れた、全体の件数を出すとかはここをよーく見ると書いてあった http://developer.yahoo.com/yui/examples/datatable/dt_colshowhide.html:…

文献リストで件数を出す

例のDDBJ Searchで、http://sra.dbcls.jp/cgi-bin/publication.cgiっちゅうデータに対応する文献(もしくは文献のあるデータ)のリストがあるのだが、件数がほしい、という要望が。 Yahoo Developer NetworkをHackするのにえらい時間がかかったが、やっとこ…

うちにもこの本が届いてた

実験医学 増刊 29―15―日本発のデータベース戦略から,ゲノム・疾患情報の有 使えるデータベース・ウェブツール (実験医学増刊 Vol. 29-15)作者: 有田正規出版社/メーカー: 羊土社発売日: 2011/09/01メディア: 単行本 クリック: 1回この商品を含むブログ (2件)…

Survey of Read Archives に伸びのグラフをつけてみた

なんか気がついたらこんな日になっていて、世の中、諸行無常というか生々流転というか。 そんなこんなで、DDBJ Searchってのをやっているが、この前(って7月)、次世代シーケンサ(通称:NGS)の基礎についてしゃべったときに即席でこさえた、データ数の伸…

データを前に途方に暮れている

まずはこちらをご覧ください。 Plasmodium falciparum 5966 ... これを見るに、taxonomy ID は5966ですが、NCBIで調べてもそんな登録はありませんでした。 さらに続きまして、こちらをご覧ください。 Plasmodium falciparum 5967 ... えーっと。COMMON_NAME…

SRAからIDたどってBioProjectを眺めてみたわけだが

まずはこちらをご覧ください。 SRP000031 1000Genomes Project Pilot 1 SRP000033 1000Genomes Project Pilot 3 こいつらは、データが多くなるから、分けとるんかなーとか思ったわけです。ということでプロジェクトとしては1つ。だからBioProjectだと同じID…

MeSHにもまだまだ知らんことが

すっげー今さらなんだが、統合失調症 (Schizophrenia) とかは、疾患カテゴリ(いわゆるCカテゴリ)でなくて、精神/心理(Fカテゴリ)のMental Disorders (F03) の下に入ってんのな。

目次の新たな切り口

例のPublication Listを利用して、こんなことしてみた。 SRA009359 19881526 M:Leprosy SRA029797 21399634 M:Leukemia, Monocytic, Acute SRA009028 18987736 M:Leukemia, Myeloid, Acute SRA009391 19657110 M:Leukemia, Myeloid, Acute SRA026055 1965711…

MeSH と Substances

用語集MeSHには、化合物のカテゴリがあって、それとは別にSubstancesという化合物の用語集みたいのがあったりする。 昔(2000年代前半? 会社員時代)、これらには重なりがあったのだが、今 見ると、ない(ように見える) そんなだったかなぁ。 まぁ、いいや。…

NCBI OMIM やめます

NCBIが金がないとかだと思うのだが、2月くらいから交渉していたのが決裂したらしく、Home - OMIM - NCBIはもうやらないとか NCBI is implementing changes to help you find current content in OMIM based on resources at NCBI, and then directing you to…

SRA→BioProject

やってみた。 SRA038358 SRP007212 - ← 記述がないのはこれだけ SRA038201 SRP007206 60683 SRA038188 SRP007204 60707 SRA038187 SRP007203 60703 SRA038186 SRP007202 60701 SRA038185 SRP007201 60699 SRA038184 SRP007200 60705 SRA038179 SRP007198 0 ←…

GEO→SRA→PMID

GEOのデータをparseして、もろもろのペアつくり GSE10967 GPL9062 = SRP000551 18423832 GSE10968 GPL9062 = SRP000568 18423832 GSE11070 GPL1979|GPL9062|GPL10977 = SRP000622 18486559 GSE11094 GPL9062 = SRP000713 18542052 GSE11172 GPL9185 = SRP000…

GEOの方の統計値(プラットフォーム別・追加)

1 Helicos (Mus musculus) 5 MIT Caenorhabditis elegans small RNA sequences (Illumina/Solexa) 1 Salk-Yeo-Solexa-ES,NP,NE cells 1 NHLBI-Mouse-Solexa-Tcell-Stat 1 NCI Human Solexa Platform 14814K 1 MPI_Chen_domestic_dog_Solexa_2007 1 MPI_Chen_…

GEOの方の統計値(プラットフォーム別・SOLiD編)

13 AB SOLiD System 2.0 (Homo sapiens) 6 AB SOLiD System 3.0 (Mus musculus) 6 AB SOLiD System 3.0 (Homo sapiens) 6 AB SOLiD System 2.0 (Mus musculus) 5 AB SOLiD System (Mus musculus) 3 AB SOLiD System 3.0 (Arabidopsis thaliana) 3 AB SOLiD S…

GEOの方の統計値(プラットフォーム別・454編)

6 454 GS FLX (Homo sapiens) 4 454 GS FLX (Caenorhabditis elegans) 3 454 GS 20 (Homo sapiens) 3 454 GS (Arabidopsis thaliana) 2 454 GS FLX (Rattus norvegicus) 2 454 GS FLX (Mus musculus) 2 454 GS FLX (Chlamydomonas reinhardtii) 2 454 GS FLX…

GEOの方の統計値(プラットフォーム別・Illumina編)

152 Illumina Genome Analyzer (Homo sapiens) 137 Illumina Genome Analyzer II (Homo sapiens) 133 Illumina Genome Analyzer (Drosophila melanogaster) 123 Illumina Genome Analyzer (Mus musculus) 100 Illumina Genome Analyzer II (Mus musculus) 69…

GEOの方の統計値(プラットフォーム別)

これまたぐちゃぐちゃなんだよねー。。。 同じシリーズの中で複数のプラットフォームとかあって、それぞれにサンプルが紐づいてて、うーん。。。(−_−; とりあえず上の方。 1792 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array 1626 [Mous…

単に備忘録的ログ

アップデートしたらこんなんでた。 To make python 2.7 the default (i.e. the version you get when you run 'python'), please run: sudo port select --set python python27

実際のデータを見ると、世の中、いかに困難かがわかる

!Series_geo_accession = GSE11389 ... !Series_summary = This SuperSeries is composed of the following subset Series: !Series_summary = GSE11335: Chip-chip from MEF cells with H3ac, H4ac, H4K20me1, !Series_summary = GSE11337: RNA-chip from M…

GEOの方の統計値(タイプ別)

GEOも眺めています。フルのデータで641GB(圧縮済)、発現値をとったメタデータで2.6GB(非圧縮)って扱うのも一苦労だよ。 で、この中に、データのタイプってのがあったので、数えてみた。 17891 Expression profiling by array 1151 Genome binding/occupa…

各遺伝子関連文献

ディスカッションをしているうちにそういう話になったので、調べてみた。あくまで、Gendoo - Gene, Disease Features Ontology-based Overview Systemで使っている論文だけですが。 多い順、top 10 文献数 GeneID 遺伝子名 5695 836 CASP3: caspase 3 5585 5…

転写因子ってどこまで

そうこういいつつも、いろいろと手を出しちゃぁ、足をつっこんじゃぁ。 転写因子についても、ちょっと眺めてます。 前に文献から配列を抜くってのをあげましたが、そのアノテーション的な意味も込めて。 ふと、転写因子ってどのくらいあるのかなーと思い立ち…

これからどうするかねー

断片としてはおもろいことをいろいろかかえているが、学会とかあるし、どうつないで、区切りをつけるか思案中。

データの発掘も

そんなこんなでプログラムの方の掃除もしつつ、そういや、昔、こういうのをやってて、またやんなきゃだなーという感じになってきたので、とっちらかしたデータの方も、きれいにしてみることに。 そもそもマシンを乗り換える度に、前のはほったらかしで、必要…

アップデートしたら急にスクリプトが動かなくなったりとかして

IT

5/11に書いたとおり、セキュリティのアップデートもあって、port -v upgrade outdated だかしたらば、手持ちのPMIDを食ってNCBIに聞きに行き、abst.のXMLを吐くスクリプト(Perl)が動かなくなった。 これって、BioPerlで書いてあって、だから素のPerlとかそ…

PubMed Central のデータを使いかける

あまりにXMLが複雑怪奇すぎる上に、はやりの「節約」か異常に改行が少なくてみづらい。 そんなこんなで XML::Simple とかでは読み解くのがしんどいので、明日は別アプローチで読みほどくとする。 そもそも、拡張子がnxmlだしな。なんだそれ(をい

例によって文献を落としてきて処理

検索結果のPMIDを投げて、BioPerlで処理し、PMC IDをとって、もいちど投げ、とりあえず落ちてきたXMLから何も考えずに正規表現で抜く。 18267968 2367719 TTTTTTTTTTCATATGTCCCAGAGCAGGCACCGCGAGGCCa TTTTTTTTGCGGCCGCTTACTTTCTTTCTGCTATTATCTTTAAATA TTTTTT…

スクリプトが動かなくなったが

bioperlは、安定版が1.6.1かな。開発版は、1.6.9までいっているっぽい。 ちょうど、Perlも、5.10から5.12になるころの過渡期で、ある日、5.12でないと動かない日が来ると思っていたのだが、今日かもしれんと思いつつ、一からインストールなども試みかけたが…

午後は説明

各種DBの説明。 今日はしゃべりすぎた。 考えるところは一緒にがっつり考えて、やるところはおまかせで、というのが理想。