2010-02-01から1ヶ月間の記事一覧

また別の依頼

なんかここまで無視されると、なんかヘマったか、お呼びでないか、いずれにしてもへこむなぁ。 しかしながら、よく考えると、(自分らはそうではないが)普段はタカビーに出て当然な立場なワケで、一度、ぴしゃっと言った方がいいのかもしれんな。

某依頼

どうするか悩んだけど。 返事したら7分で返事来た。(w しかし、こういうの知らなかったなー。

維持活動

Gendoo - Gene, Disease Features Ontology-based Overview Systemの方で、Allelic heterogeneity (The list of genes and their related diseases) ってのと、Non-allelic heterogeneity (The list of diseases and their related genes) っていう統計値を…

臨時休業

結局、来られず。 まぁ、風邪気味だったから、降ってきたお休みみたいなもんだ、ということで。

mecab辞書作成のためのCSV作成ページ

MeCabの辞書は、用語とか品詞とか読みとかをCSV形式でつくっておいて、それを辞書化ツールでバイナリ化して設定ファイルに書くことにより使えるようになる。 このCSV形式、エディターとかで書いているとわけわからなくなるので、Excel(っちゅうか、Google D…

いくつかの用語のmecab辞書化

疾患名、解剖学用語(臓器名)、生物種名について検討してきました。 これまでのをふまえて、解剖学用語で足りないのを足しつつ、紛らわしいのを抜いて、解剖学用語でちょろっと抜いて、生物種名はノイズっぽいので、やめて、必要なものを適当に足す、という…

来襲の今日

昼に噂してたら、夕方、電話がかかってきて、3分後にやってきた。風貌は相変わらずだったが、やっていることは時代の波に翻弄されていろいろドラスティックに変わっているみたい。

他の用語もmecab辞書化

というわけで、100万行分を飛ばし飛ばし読んだのですが、埒があかんなー、というか、今、どこまで行ったんだろうとか不安になり、見てみたらば、全部で2400万行とかあって、まだ5%かよーとかへこんだのでした。 っちゅうわけで、飽きたので(をい、前エント…

病名辞書のmecab化 〜 実際にちゃんととれているか

とりあえず、病名辞書をmecabの辞書にしたので、実際にPNEとか他のとかを処理させてみた。 全体として、いい感じではある。 上から眺めて行って、すべての疾患名をレスキューするのはつらいので、疾患名とされたものがちゃんととれているか見る中で、とりこ…

某見学

bio

意外と平気だった。って、モノだから平気なんだけど。 机上の学問で、こういうの、とは知っていたけれども、実際に目の当たりにすると、なるほどな、と思う。 自然は美しい。魚とかなら、自分でつくるとかやってみたい気はする(また別の話だが)。

病名辞書のmecab化 〜 スコアどうしよう

ちゃんと登録されたかいねーと見たらば、アルツハイマー病が少ない。あぁ、そうか、元のファイルは以前のStep 3を使ったから少ないのだった。 スコアリングどうしよう。 直感的に、アルツハイマー病の例で言えば、0にした方がいい感じなので、全部0というの…

病名辞書のmecab化 〜 とりあえず入れてみよう

てなわけで、素のMeCabで処理してみて、で、そこに出てこない単語は病名辞書として登録してみよう、ということで。 登場あり: 263 登場なし:23,107 という結果に。意外とかぶっているのは少ない、と見るか、こんなもんか、と見るか。263くらいなら、目で見…

RAの引き継ぎ...

一度 顔を合わせて話をしたかったので、いきなりでびびりはしたけど、結果的によかった。 まぁ、リテラシレベルがわからないので(バイオ系の知識とか、IT系の知識とか、プログラミングとかコンピューターまわりのつかいこなしとか)、そのあたりを数回 推し…

病名辞書のmecab化 〜 他にも日本語リソースあるのだった

PNEの文章を素のmecabで処理し、その結果と比較してないやつは追加しようみたいな試みだったわけですが、そういえば、他にも日本語リソースをつくっていたのでした。。。そいつに対しても同様に。で、とりあえず sort | uniq して、そいつらと病名辞書を比較…

病名辞書のmecab辞書化 〜 レスキューできるものから

そもそも、なんで「よう」がいかんかったか、というと、他の一般的な「よう」とバッティングするからで、なら、そういうバッティングをしないものなら追加しても影響はないかも、ということで、そういう比較をやりはじめる。 とりあえず、PNEのデータすべて…

病名辞書のmecab辞書化 〜 使えるものだけでも使うか

昨日、コストについていろいろふってみて、コストふりだけでは使い物にならない、ということがわかったので、その線ではあきらめるものの、使えるところは使っていこう、ということで、どのあたりが精度がいいか確かめてみた。 アルツハイマーを例に、実際に…

病名辞書をMeCabの辞書として追加してみようとした

してみようとした、ってのがミソではありますが。 2010-01-29 - chalk-less::weblog::theclaで書いたとおり、ICD10対応標準病名マスター メインってのがあって、けっこうよさげだぞ、と。で、読みがなもあるし、MeCabの辞書としてちゃらっと追加して、…

雑用デイ

うっかりライセンスの厳しいデータを使ってしまったがために、やっていることを英語でA4×1枚作成。前の日の電車の中でわーっと書いたけど、仕上げて仲介をお願い。 午後は毎度の会議。

その他もろもろ作業

えてして、モチベーションがわかないときにはこういう細々した仕事から入っていって、みたいなところなんだろうが、いろいろとっくんでやろう、みたいな気分のときに、細々した仕事が山をなしていると、逆にモチベーションがわかないもんだね。

文献からID抜いてくるやつ

ゆるーくスクリーニングして、候補を568渡していたのだけれども、Eから始まるのが6と、Sから始まるのが23とれてきた。Gは43。 前に、別のスクリーニングでとってきたのがあるので、そういうのとマージしてみないと、その効果っちゅうのははかれないけれども…

IN/OUT

前のエントリに関連して。 前々から思っていたのだけれども、ライフサイエンス分野なりのサイエンス領域で、デジタル化に伴う権利関係の諸問題があって解決すべきなら、もっと効果的な方法で発信するべきなのではないか。 先日のnatureで、Back to books | N…

デジタル化に伴う諸問題について言及した書籍

なんかカタいタイトルだ。 数日前に読み終わったので、メモしておく。情報社会の倫理と法―41のケースで学ぶ作者: リチャード A.スピネロ,林紘一郎,中西輝夫出版社/メーカー: エヌティティ出版発売日: 2007/10/05メディア: 単行本(ソフトカバー)この商品を…

そしてみぞれ模様

電車に乗って窓の外を見ながら、そういえば、4年前のこの日も東海道線で西に向かっていた外を雪が舞っていたのを思い出した。

本日休業

飛石連休。 今の仕事は楽しい仕事ではあるが、こういう休みを楽しみにしないと、つきあってられない部分も否めない。 ← 語彙の少ない表現だ。

宣伝メール from Cold Spring Harbor Laboratory Press

Statistics at the Bench: A Step-by-Step Handbook for Biologists作者: Rebecca W. Doerge,Martina Bremer出版社/メーカー: Cold Spring Harbor Laboratory Pr発売日: 2009/12/15メディア: Hardcover-spiralこの商品を含むブログ (1件) を見る出版社のペー…

この時期のアレ

なんか忙しそうな人からメールが来た。ちゃらっとやってメールしておく。

やってもらったPubMed Centralつっついて云々の手直し

昨日 調べた、BioPerlでPubMed Centralをつっつく方法を使って、ちょっとあやしげなやつをつつきに行って、データを眺めてみるってのをやってみた。っちゅうか、やりかけ? まわしてみると(というか、ファイルに吐こうとすると)なんかやたら時間がかかると…

PubMed CentralのデータをBioPerlで取得する

せっかくなので調べてみました。 $ perl -MBio::Biblio -le 'print Bio::Biblio->new(-access => "eutils", db => "pmc")->get_by_id("1913784")' ワンライナーで、ですが。 比較のために、PubMedの場合の例を示すと $ perl -MBio::Biblio -le 'print Bio::B…

PubMed Central 中に登場するPMID

対応するPMID(PMC IDにて指し示されている論文を指し示すPMID)と、referenceとしてciteしている論文の2系統。 前者:17634102 後者:10592173

テキストデータ関連でeutils

PubMedとか、PubMed Centralとか。 前にも書いたが、esearch → efetch の流れ(これは一般的)。 自分の場合は、えてして、IDがわかっていることが多いが、その場合は、いきなり efetch。そのときは、EFetch Utility for Entrez Literature DatabasesのExamp…