Re:ノンコーディングというかmRNAというかなんとなく

この程度のエントリにはてなスター頂くなんてありえへん、とか思いつつ、せっかく頂いたので書ける情報を書いてみる。

Uniprot/{swissprot/tremble}の転写物情報

genbankなmRNAに対して、どのaccessionがnoncodingかとかどれが端読みか、というのをごそっと調べてくる方法、ないのかねえ。

タイトルに書いたとおり、Uniprotの転写物情報を使う、という手があるにはあるのだが、そうしないのにもわけがある。
1.網羅性
id:Yunokawa氏も述べているの表でまとめられているとおり、uniprotの転写物情報はかなり限定される。
2.スキーマ
というか要は、RDBで扱いやすいかどうか。
3.整合性
コレが大問題。

何をどこまで信用するか

手元でRTPS*1というデータセットを使っている。このデータセット中では、uniprotはマッピング+クラスタリングには用いられず、マッピングされた転写物にリンクされていた。
このリンクをたどって使っていると、驚くべきことが起こってしまった。
別々の染色体にマッピングされる転写物から、単一のuniprot entoryに落ちていたのだ。
そして、転写物に関してマッピングエラーはなさ気だった。

結局

最初のエントリーは、coding/non-codingの区別とか端読みcloneの愚痴だった。
その後逃げ逃げな手段を使って逃げ切って、さらに別のタスクに移った。
で。再度。みんなどうしてんだろう。

*1:RTPSについては、[title:http://www.bio-linux.org/~kasukawa/d/?date=20051025]、書籍[活かせ本|http://www.amazon.co.jp/dp/4897064856/]他、およびそのリファレンスを。