各遺伝子関連文献

ディスカッションをしているうちにそういう話になったので、調べてみた。あくまで、Gendoo - Gene, Disease Features Ontology-based Overview Systemで使っている論文だけですが。 多い順、top 10 文献数 GeneID 遺伝子名 5695 836 CASP3: caspase 3 5585 5…

転写因子ってどこまで

そうこういいつつも、いろいろと手を出しちゃぁ、足をつっこんじゃぁ。 転写因子についても、ちょっと眺めてます。 前に文献から配列を抜くってのをあげましたが、そのアノテーション的な意味も込めて。 ふと、転写因子ってどのくらいあるのかなーと思い立ち…

これからどうするかねー

断片としてはおもろいことをいろいろかかえているが、学会とかあるし、どうつないで、区切りをつけるか思案中。

(わかってんだけど)実際に眺めてみた

bio

ふと思うところあって、今月号(2011年6月号。Volume 43 Issue 6, June 2011)のNature Geneticsに登場する疾患名たちを列挙してみた。 嚢胞性繊維症 (cystic fibrosis) 前立腺がん (prostate cancer) 開放隅角緑内障 (open angle glaucoma) 広隅角緑内障 (ang…

データの発掘も

そんなこんなでプログラムの方の掃除もしつつ、そういや、昔、こういうのをやってて、またやんなきゃだなーという感じになってきたので、とっちらかしたデータの方も、きれいにしてみることに。 そもそもマシンを乗り換える度に、前のはほったらかしで、必要…

アップデートしたら急にスクリプトが動かなくなったりとかして

IT

5/11に書いたとおり、セキュリティのアップデートもあって、port -v upgrade outdated だかしたらば、手持ちのPMIDを食ってNCBIに聞きに行き、abst.のXMLを吐くスクリプト(Perl)が動かなくなった。 これって、BioPerlで書いてあって、だから素のPerlとかそ…

PubMed Central のデータを使いかける

あまりにXMLが複雑怪奇すぎる上に、はやりの「節約」か異常に改行が少なくてみづらい。 そんなこんなで XML::Simple とかでは読み解くのがしんどいので、明日は別アプローチで読みほどくとする。 そもそも、拡張子がnxmlだしな。なんだそれ(をい

単にキーワードに拾ってもらうためのつぶやき

DBCLS

GENOME INFORMATICS@Cold Spring Harbor Lab

404 | CSHL November 2 - 5, 2011で、Abstract Deadline: August 12, 2011と。 どうまとめるかが課題だね。

例によって文献を落としてきて処理

検索結果のPMIDを投げて、BioPerlで処理し、PMC IDをとって、もいちど投げ、とりあえず落ちてきたXMLから何も考えずに正規表現で抜く。 18267968 2367719 TTTTTTTTTTCATATGTCCCAGAGCAGGCACCGCGAGGCCa TTTTTTTTGCGGCCGCTTACTTTCTTTCTGCTATTATCTTTAAATA TTTTTT…

スクリプトが動かなくなったが

bioperlは、安定版が1.6.1かな。開発版は、1.6.9までいっているっぽい。 ちょうど、Perlも、5.10から5.12になるころの過渡期で、ある日、5.12でないと動かない日が来ると思っていたのだが、今日かもしれんと思いつつ、一からインストールなども試みかけたが…

午後は説明

各種DBの説明。 今日はしゃべりすぎた。 考えるところは一緒にがっつり考えて、やるところはおまかせで、というのが理想。

移行

担当していたアレですが、私の手を離れることに。 というわけで、ここのところ(担当の)移行作業をしていたのですが、うっかり自分のアカウントで作業してしまっていたので、それ用のアカウントに直してもらったり。rootのお世話になりました。 少しは後学…

アット・ザ・ベンチ バイオ実験室の統計学 -エクセルで学ぶ生物統計の基本-出たそうな

これを書くにあたり、前のをちらちら見てたりしてたのですが、2010-02-10 - chalk-less::weblog::theclaで言及しているやつの日本語版がこのごろ出たそうで。アット・ザ・ベンチ バイオ実験室の統計学 -エクセルで学ぶ生物統計の基本-作者: 打波守,野地澄晴…

PubMed Central (PMC)データをいじってみる

前に統合牧場で話に出ていたのだが、PMCのデータもFTPにあるのね。探すの苦労した。。。 File Validation Tools 直接的なリンクでないけれども、せっかくだから、他のツールのリンクもあるのでこっちを。 で、落としてきた。tar.gzで3GBくらい。ほどくと、雑…

これまでの流れ

日本の生命科学データベース政策 - ライフサイエンス統合データベースプロジェクト 地震で滞っていた(まぁ、その前から詰まり気味ではあったが)のを昨日、今日とカタした。 なんか、体裁上の本体が向こうに行ってしまって、立場が微妙ではあるのだが、いつ…

カキモノ

ここのところしばらくは、ずぅーっとカキモノしとりました。 なんとか昨日、それなりに一段落を迎えました。今は、英文校閲中です。早く返ってこないかなー(って今回のは長いしな)

つぶやき

ここに書くのも久しぶりであることよのぉ。(−_−; DBCLS にも新たなRAがやってきて、自分の仕事をいろいろ手伝ってくれるようになったが、今日はゼロ

Gendooのデータ更新 (allelic/non-allelic heterogeneity)

うっかり明日付けの日付でやってしまったが、まぁ、いいや。 疾患とその関連遺伝子(Allelic heterogeneity)というリストと、遺伝子とその関連疾患(Non-allelic heterogeneity)というリストを公開した。

更新用データのダウンロード(続き)

1/8は、データ更新の日でして、というか、毎年、この日の分のデータを落として、更新用のデータを作っている。ファイルの日付が1/8なんで、海の向こうのデータだから1/9に作業なのだが。 主要なデータは落としてあったのだけれども、そういえば、まだ落とし…

ついでに、BioConductorも

インストール。 (Rで)塩基配列解析とか試してみたいので。 と、そんな中、Rによるバイオインフォマティクスデータ解析 第2版 ?Bioconductorを用いたゲノムスケールのデータマイニング?の第2版が出るとの情報が。Rによるバイオインフォマティクスデータ解析 …

バイオ系テキストをマイニング

やっぱし、専門用語辞書だよね。 手でつくるのもいいけど、ある程度は自動化したいなぁ。。。(遠い目

MacOS 10.6 に RMeCab

IT

いまさらながら、できましたよ。 R 2.12.1 + mecab 0.98 + RMeCab 0.93 になります。はい。 インストールなどはRMeCab - RとLinuxと...に書いてあるとおり。 今までうまくいかなかった原因ですが、mecabを/opt/local以下にインストールしていたからでありま…

こんな本をみつけた(科学政策)

数日前に本屋に行ったらば、こんな本を。ライフサイエンス政策の現在作者: 菱山豊出版社/メーカー: 勁草書房発売日: 2010/10/17メディア: 単行本(ソフトカバー)購入: 1人 クリック: 15回この商品を含むブログ (6件) を見る前の文科省ライフ課長ですなぁ。 …

分子生物学会で見つけた本とかアレコレ

先週は、神戸で分子生物学会(っちゅうか、正確には生化学会と合同でBMB2010ってやつだったが)でして、ブースに本屋が出てたので眺めてきた。Building Bioinformatics Solutions: With Perl, R and Mysql作者: Conrad Bessant,Ian Shadforth,Darren Oakly出…

json→table

収載予稿集リスト − 医学・薬学予稿集全文データベース検索をupdateしてみました。 前のバージョンでは、つどつどその場でSQL呼んでこのテーブルをつくっていたのですが、件数とかいつからいつまでみたいのが欲しいよね、ということで、そうすると、つどつど…

デジタルと著作権についての本

デジタル時代の著作権 (ちくま新書)ってのが出たらしい。という案内が来た。creativecommons.jpの人で、このプロジェクト関連で著作権のことでワークショップとかするときに呼ぶ人でもあるので。新書だし、読みやすかろう。よりあえず今はメモだけ。デジタル…

Excel から タブ区切りに直す

Excelでつくられた表を処理しようと、タブ区切りに直してみた。 そうしたらば、セル内での改行がそのまま改行として認識され、改行されている(わかりにくい文章だ)。というわけで、タテに見ると、中がそろっていない。 よく見ると、セル内改行の部分は、" …

副作用

CGI (Perl) とPHPを別にしていたのを一緒にしたことで、件数の情報も使えることになった。というわけで、さっそく対応。 if 文で、クエリのある/なしによって、最新XX件と、検索結果:XX件を使い分けるということもできるように。

SRAまわりの統計情報 を更新するしくみ

データを落としてくる。rsyncするのだが、前に書いた2010-08-10 - chalk-less::weblog::thecla。10分くらいで終わると思われ(更新だけで)。 で、中間ファイルをつくる。(なんかこっちの話だが) $ ./mk.idTable.sra.3.pl ../../data/sra2/ > sra.idconv.1…