2010-01-01から1ヶ月間の記事一覧

病名辞書

その会議の中でも出てきたのだが、病名の辞書として、ICD10対応標準病名マスター メイン(通称:標準病名マスター)を使っていた。元々、医療事務(ようするに、どれがなんぼかかるかの計算用。レセプト [つまりレシート]とかレセとか関連)とか、そこ…

会議出席

最近、日本語処理まわりについてやっているわけだが、その道の先生が、プロジェクト関連の会議でこっちに来るというので、せっかくやってきたことの発表もあるし、出席してみた。先日、id:syou6162のデータとかを向こうにお送りしていたのだが、向こうのシス…

ドキュメントからOMIMのIDを取ってくる時

IT

たまにOMIMでなくて、MIM(もともと本だったし)と書かれているので、grep MIM。 OMIMのIDは、数字6ケタだから、egrep [0-9]{6}。

日本語ドキュメント+(また別系統の)IDとってくる方

気分良く、せっかくつくった日本語ドキュメントから、前から自分がやっている方のID、ばらすとOMIMのIDですが、をとってくる、っちゅうのをやってみました。 姉妹の方の日本語ドキュメントは、32件。全部、姉妹のひとりからでありました。 本誌の方は、3件っ…

コマンドでは消せないが、Finderでは消せる

IT

年_号_ページ.txt みたいなファイルをこさえたのですが、元ファイルからとれないときに"-"で埋めてたらば、ようするに、極端なことでは、-_-_-.txt みたいなファイルができるわけだが、このファイルが rm で消せないという現象にぶちあたった。先頭の - がオ…

PNE以外の日本語文書を使いやすくしてみよう・さらにつづき

著者とかも要るよね、とか思ったので、書き換えて回してみた。やっといい感じになった気がする。

各種ブラウザでの表示チェックサービス by Adobe

Adobe が、各種ブラウザ(IE、Firefox、Safari、Chrome)でウェブページがどう見えるのかチェック、比較できるウェブサービスをやっているらしい。場所:https://browserlab.adobe.com/index.html。解説:http://www.adobe.com/jp/newsletters/edge/january2…

PNE以外の日本語文書を使いやすくしてみよう・さらにつづき

やっぱし、PNEとフォーマットをそろえた方がいいよななどと思いつつ、PNEのデータを眺めていたらば、著者と所属が書いてあって、やっぱしこれもあった方がいいよなぁ、などと思い立つ。 さらに、検索さす、ということを考えると、とれるときにリンク先を見と…

公開しているとかいう辞書を使ってみる

そもそも [辞書] ライフサイエンス統合データベースプロジェクト-統合ホームページ-LSDBっちゅうページがありまして、学術用語集を出典元を明記して、著者をリスペクト(しているふりを?)しつつ、デジタル化して公開しております。「しているふりを」っちゅ…

PNE以外の日本語文書を使いやすくしてみよう・つづき

来たら一区切り、終わってました。で、続きをダウンロード、とその前に、ソフトウェアアップデート。 昨日、ちょっとスクリプトを直したから、かけてみるか。

PNE以外の日本語文書を使いやすくしてみよう

そのものは文字化けがひどいので周辺をとってきてます。 一応、英語の情報もあるので、それも落としてきてマージ、PNEと同様の体裁に整える準備を整えてみました。まだ一部しかダウンロードが終わってないので、作業は終わってませんが。しかし、スクリプト…

PNE以外の日本語文書にはどんなことが書いてあるか

タイトルにカテゴリがついているものがあるので、カテゴリ別にカウントしてみました。上から適当に。文字化けとかあるので、まだ完全ではないです。 752 細胞 481 生理 444 宇宙 407 地球 393 進化 347 生化学 336 物理 329 生態 328 医学 312 発生 250 神経…

RMeCabでまた別の文章も処理してみた

2010-01-21 - chalk-less::weblog::theclaの続きで、PNE以外に別の文章も。 "[LESS-THAN-2]" 33264 "[特異-的]" 194 "[可能-性]" 165 "[生物-学]" 149 "[学-的]" 149 "[相互-作用]" 118 "[組-換え]" 118 "[幹-細胞]" 111 "[in-vivo]" 107 "[遺伝子-発現]" 10…

RMeCabでPNE文章を処理してみた

Rによるテキストマイニング入門作者: 石田基広出版社/メーカー: 森北出版発売日: 2008/12/16メディア: 単行本(ソフトカバー)購入: 26人 クリック: 342回この商品を含むブログ (34件) を見るRによるテキストマイニング入門の74ページ。Ngram関数。対象は、…

IDとってくる方

そのもののをきっちりとってこれればいいのだが、けっこうそれは難しそうなので、候補をいかにうまくとってくるかかなぁ、と。 今、とりあえず、568、集めてみた。 前に200あまり集めた気がするので、それとの重なりを調べないといけないかな。 このくらいあ…

日本語ドキュメント

割と順調。まだちくちくやっている。自分のイメージした完成形にはもう一歩だが、そのためにはもう少しのえいやー力が必要。

衝撃か笑劇か

「以前、説明しましたけど、(略)」 の返答として、 「この話、聞いたことあったっけか?」 には、思わずひっくり返りそうになってしまい、 「さんざんののしったじゃないですかぁ」 と言ってしまった。 すでに解けた呪縛が、さらに解けた感じ。

文中に出てくるilluminaなんちゃら

本家の他に、 illumination illuminance illuminating illuminator を確認。

某仕込み・続きの続き

最近 始まった方は、urf-8だし、文字化けもなさそうだし、けっこう楽にデータ作れそう。こっちから先にやるか。

これまた単なるつぶやき〜今 生きている

単なる戯言です。たまに見て奮うため、かも。 なんか、Dは重いよ、なんて話になったけれども、自分としては、Dを取る研究が研究人生のMaxではなく、常に右肩上がりでありたい、と自分でそう律したいだけです。芥川賞をとったけれども、次の作品はそれを越え…

単なるつぶやき

なんか今日は、自分がやろうとしたことに対して、すでに塞がれている、ということが多いなぁ。 (って単にトイレ行ったら掃除中だったとか、流しにマグを洗いに行ったら誰かいたとかなんだけど)

もう一個の方 〜 文献からリンクされている外部DBのIDリスト

そういや、昨日、そのあと放っておいてあったので、眺めてみたが、ぶっちゃけ目的のためには使えない。リンクがないんで。 1926426 GENBANK 37861 PDB 6855 RefSeq 5944 ClinicalTrials.gov 5717 SWISSPROT 5422 OMIM 4379 PubChem-Substance 3649 GEO 2857 …

某仕込み・続き

ちょっとPerlの仕様を勘違いしていて、デバッグを思いついたので試してみてそれに気づき、直して先に進む。 いい感じっぽいので、とりあえずわしわしデータを落としてみる。 そういや、昨日、にやにやと「何やっとるんや」と言われたので、事情を説明したの…

家 Mac Mini が数日前からぶんぶん言う

IT

枕元にあるので、ちょくちょくぶんぶん言って、ちょっと気になるんよね。それでも最近は疲れてさっさと寝るけど。 調べると、なんかスクリプトが走ってぶんぶん言っているっぽいので、さらに調べると、spamをはじくためのフィルタ見直しスクリプトであった。…

打合せ

放っておくと、発散していくらでも話すだろうから、一生懸命にラインを引いて、早めに着地さそうと思ったが、平行線でないのに話が平行線をたどる。結局 数ミリしか近づかないから、最後はあきらめた。ここまで1時間以上。 事業仕分けしてやる。

片手間にバックアップ

IT

新しいデータを落としてきたから、去年のデータは使わなくなるでしょう、ということで。 2カ所くらいにバックアップしておけば、なんとかなるでしょう。

また別の仕込み

昨晩 仕掛けたが、まだ終わっていなかった。 直感として、真正面から行っても、あまりいい結果は得られない気がするので、知恵っちゅうか工夫っちゅうか、そんなんが必要。

某仕込み

例の、著作権法が変わって、で、とりあえず始めたものは、98年からで、途中、文字化けがあったりしてそれを直すのがしんどそうなので、とりあえず、その系列で、別口の比較的 最近 始まったものについて、こっちは簡単にとれるか、ということで、調べてみた…

夜の長話

話をしていたので、東武のデンジコにもろに巻き込まれてしまい、どえりゃー遠回りして帰ったので、最速30分(平均42分)で帰れるのが、1時間半かかってしまった。 この場でこれについてこれ以上 書くのをこらえつつ、これは、夜に長話をするな、という思し召…

事務仕事

少し書き換えるだけなんだけどもね。こういうとき、えいやー力が必要になる。