bio

SRAからIDたどってBioProjectを眺めてみたわけだが

まずはこちらをご覧ください。 SRP000031 1000Genomes Project Pilot 1 SRP000033 1000Genomes Project Pilot 3 こいつらは、データが多くなるから、分けとるんかなーとか思ったわけです。ということでプロジェクトとしては1つ。だからBioProjectだと同じID…

MeSHにもまだまだ知らんことが

すっげー今さらなんだが、統合失調症 (Schizophrenia) とかは、疾患カテゴリ(いわゆるCカテゴリ)でなくて、精神/心理(Fカテゴリ)のMental Disorders (F03) の下に入ってんのな。

目次の新たな切り口

例のPublication Listを利用して、こんなことしてみた。 SRA009359 19881526 M:Leprosy SRA029797 21399634 M:Leukemia, Monocytic, Acute SRA009028 18987736 M:Leukemia, Myeloid, Acute SRA009391 19657110 M:Leukemia, Myeloid, Acute SRA026055 1965711…

MeSH と Substances

用語集MeSHには、化合物のカテゴリがあって、それとは別にSubstancesという化合物の用語集みたいのがあったりする。 昔(2000年代前半? 会社員時代)、これらには重なりがあったのだが、今 見ると、ない(ように見える) そんなだったかなぁ。 まぁ、いいや。…

NCBI OMIM やめます

NCBIが金がないとかだと思うのだが、2月くらいから交渉していたのが決裂したらしく、Home - OMIM - NCBIはもうやらないとか NCBI is implementing changes to help you find current content in OMIM based on resources at NCBI, and then directing you to…

SRA→BioProject

やってみた。 SRA038358 SRP007212 - ← 記述がないのはこれだけ SRA038201 SRP007206 60683 SRA038188 SRP007204 60707 SRA038187 SRP007203 60703 SRA038186 SRP007202 60701 SRA038185 SRP007201 60699 SRA038184 SRP007200 60705 SRA038179 SRP007198 0 ←…

GEO→SRA→PMID

GEOのデータをparseして、もろもろのペアつくり GSE10967 GPL9062 = SRP000551 18423832 GSE10968 GPL9062 = SRP000568 18423832 GSE11070 GPL1979|GPL9062|GPL10977 = SRP000622 18486559 GSE11094 GPL9062 = SRP000713 18542052 GSE11172 GPL9185 = SRP000…

GEOの方の統計値(プラットフォーム別・追加)

1 Helicos (Mus musculus) 5 MIT Caenorhabditis elegans small RNA sequences (Illumina/Solexa) 1 Salk-Yeo-Solexa-ES,NP,NE cells 1 NHLBI-Mouse-Solexa-Tcell-Stat 1 NCI Human Solexa Platform 14814K 1 MPI_Chen_domestic_dog_Solexa_2007 1 MPI_Chen_…

GEOの方の統計値(プラットフォーム別・SOLiD編)

13 AB SOLiD System 2.0 (Homo sapiens) 6 AB SOLiD System 3.0 (Mus musculus) 6 AB SOLiD System 3.0 (Homo sapiens) 6 AB SOLiD System 2.0 (Mus musculus) 5 AB SOLiD System (Mus musculus) 3 AB SOLiD System 3.0 (Arabidopsis thaliana) 3 AB SOLiD S…

GEOの方の統計値(プラットフォーム別・454編)

6 454 GS FLX (Homo sapiens) 4 454 GS FLX (Caenorhabditis elegans) 3 454 GS 20 (Homo sapiens) 3 454 GS (Arabidopsis thaliana) 2 454 GS FLX (Rattus norvegicus) 2 454 GS FLX (Mus musculus) 2 454 GS FLX (Chlamydomonas reinhardtii) 2 454 GS FLX…

GEOの方の統計値(プラットフォーム別・Illumina編)

152 Illumina Genome Analyzer (Homo sapiens) 137 Illumina Genome Analyzer II (Homo sapiens) 133 Illumina Genome Analyzer (Drosophila melanogaster) 123 Illumina Genome Analyzer (Mus musculus) 100 Illumina Genome Analyzer II (Mus musculus) 69…

GEOの方の統計値(プラットフォーム別)

これまたぐちゃぐちゃなんだよねー。。。 同じシリーズの中で複数のプラットフォームとかあって、それぞれにサンプルが紐づいてて、うーん。。。(−_−; とりあえず上の方。 1792 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array 1626 [Mous…

実際のデータを見ると、世の中、いかに困難かがわかる

!Series_geo_accession = GSE11389 ... !Series_summary = This SuperSeries is composed of the following subset Series: !Series_summary = GSE11335: Chip-chip from MEF cells with H3ac, H4ac, H4K20me1, !Series_summary = GSE11337: RNA-chip from M…

GEOの方の統計値(タイプ別)

GEOも眺めています。フルのデータで641GB(圧縮済)、発現値をとったメタデータで2.6GB(非圧縮)って扱うのも一苦労だよ。 で、この中に、データのタイプってのがあったので、数えてみた。 17891 Expression profiling by array 1151 Genome binding/occupa…

立ち読みしてきた

分子生物学に魅せられた人々作者: 日本分子生物学会出版社/メーカー: 東京化学同人発売日: 2011/06/02メディア: 単行本この商品を含むブログを見る↑いまだにAmazonへのリンクページがつくられません。どうなっているんだ? > はてな。とりあえず、リンクだけ…

分子生物学会が本を出したらしい

分子生物学に魅せられた人々という本らしい。分子生物学に魅せられた人々作者: 日本分子生物学会出版社/メーカー: 東京化学同人発売日: 2011/06/02メディア: 単行本この商品を含むブログを見る 下記14名の方々に,現在第一線で活躍中の研究者がインタビューを…

各遺伝子関連文献

ディスカッションをしているうちにそういう話になったので、調べてみた。あくまで、Gendoo - Gene, Disease Features Ontology-based Overview Systemで使っている論文だけですが。 多い順、top 10 文献数 GeneID 遺伝子名 5695 836 CASP3: caspase 3 5585 5…

転写因子ってどこまで

そうこういいつつも、いろいろと手を出しちゃぁ、足をつっこんじゃぁ。 転写因子についても、ちょっと眺めてます。 前に文献から配列を抜くってのをあげましたが、そのアノテーション的な意味も込めて。 ふと、転写因子ってどのくらいあるのかなーと思い立ち…

これからどうするかねー

断片としてはおもろいことをいろいろかかえているが、学会とかあるし、どうつないで、区切りをつけるか思案中。

(わかってんだけど)実際に眺めてみた

bio

ふと思うところあって、今月号(2011年6月号。Volume 43 Issue 6, June 2011)のNature Geneticsに登場する疾患名たちを列挙してみた。 嚢胞性繊維症 (cystic fibrosis) 前立腺がん (prostate cancer) 開放隅角緑内障 (open angle glaucoma) 広隅角緑内障 (ang…

データの発掘も

そんなこんなでプログラムの方の掃除もしつつ、そういや、昔、こういうのをやってて、またやんなきゃだなーという感じになってきたので、とっちらかしたデータの方も、きれいにしてみることに。 そもそもマシンを乗り換える度に、前のはほったらかしで、必要…

PubMed Central のデータを使いかける

あまりにXMLが複雑怪奇すぎる上に、はやりの「節約」か異常に改行が少なくてみづらい。 そんなこんなで XML::Simple とかでは読み解くのがしんどいので、明日は別アプローチで読みほどくとする。 そもそも、拡張子がnxmlだしな。なんだそれ(をい

GENOME INFORMATICS@Cold Spring Harbor Lab

404 | CSHL November 2 - 5, 2011で、Abstract Deadline: August 12, 2011と。 どうまとめるかが課題だね。

例によって文献を落としてきて処理

検索結果のPMIDを投げて、BioPerlで処理し、PMC IDをとって、もいちど投げ、とりあえず落ちてきたXMLから何も考えずに正規表現で抜く。 18267968 2367719 TTTTTTTTTTCATATGTCCCAGAGCAGGCACCGCGAGGCCa TTTTTTTTGCGGCCGCTTACTTTCTTTCTGCTATTATCTTTAAATA TTTTTT…

スクリプトが動かなくなったが

bioperlは、安定版が1.6.1かな。開発版は、1.6.9までいっているっぽい。 ちょうど、Perlも、5.10から5.12になるころの過渡期で、ある日、5.12でないと動かない日が来ると思っていたのだが、今日かもしれんと思いつつ、一からインストールなども試みかけたが…

午後は説明

各種DBの説明。 今日はしゃべりすぎた。 考えるところは一緒にがっつり考えて、やるところはおまかせで、というのが理想。

移行

担当していたアレですが、私の手を離れることに。 というわけで、ここのところ(担当の)移行作業をしていたのですが、うっかり自分のアカウントで作業してしまっていたので、それ用のアカウントに直してもらったり。rootのお世話になりました。 少しは後学…

アット・ザ・ベンチ バイオ実験室の統計学 -エクセルで学ぶ生物統計の基本-出たそうな

これを書くにあたり、前のをちらちら見てたりしてたのですが、2010-02-10 - chalk-less::weblog::theclaで言及しているやつの日本語版がこのごろ出たそうで。アット・ザ・ベンチ バイオ実験室の統計学 -エクセルで学ぶ生物統計の基本-作者: 打波守,野地澄晴…

PubMed Central (PMC)データをいじってみる

前に統合牧場で話に出ていたのだが、PMCのデータもFTPにあるのね。探すの苦労した。。。 File Validation Tools 直接的なリンクでないけれども、せっかくだから、他のツールのリンクもあるのでこっちを。 で、落としてきた。tar.gzで3GBくらい。ほどくと、雑…

カキモノ

ここのところしばらくは、ずぅーっとカキモノしとりました。 なんとか昨日、それなりに一段落を迎えました。今は、英文校閲中です。早く返ってこないかなー(って今回のは長いしな)