キュレーション小ネタ

マニアックなtogetterまとめ

いくつか某idでtogetterまとめを作っているのだけど、マニアックなネタでコンスタントにpv稼げてたりとか、もっとマニアックと思いきや2000pv以上行って焦ったりとか。

目利き?

http://business.nikkeibp.co.jp/article/tech/20101006/216522/ から、

 このウェブサイトの面白い点は何か。それは、「Japan Coolとは何か」という、根幹の部分を思いっきり人間に頼っている点だ。

まあマニュアルキュレーションだよね...

ミジンコの遺伝子数が人より多い

ふぁぼった元ネタが出てこない><
ペーパーを辿るかどうかは別として。
ゲノムサイズが小さくて、protein coding geneの数が多いとの事。ふむ、調節領域はどうなんでしょうね。
そして。
ここでも思い出したのはキュレーションの話。
RefSeqでも、ヒトのprotein coding geneはしっかりキュレーションされてるけど、ncRNAだとマウスの方が圧倒的に多い。そして、モデル生物を外れると、RefSeqでもそんなに正確ではないような感じ、というかアセンブリがそんなに良くなくて、遺伝子予測結果をキュレーションしても元が良くないと、って事が起きてるような感じがする。そして、数年前から「できちゃったゲノム」って話すらしばしば聞く。一つ前の小ネタと併せて、マニュアルキュレーションの未来はどっちだ、とか思わないでもないw

キュレーション

日経web版に出てた記事をみて「あれっ」と思ったので; 記事そのものでなく、その中で使われてる用語の誤解なのだけど。
テクノロジー : 日経電子版から、

キュレーションに明確な定義はないが、「情報をあるテーマに基づいて収集し、それ自体にコンテンツとしての価値を持たせて共有すること」。いわゆる、関連する情報へのリンクを集めた「まとめサイト」がそれにあたる。語源は英単語の「Curator(キュレーター)」。もともとは博物館や美術館などで、展覧会を企画し、展示物を整理し見やすく展示する専門職を指す。転じてネット上では、情報をまとめる人のことをキュレーター、まとめることをキュレーションと言うようになった。

えー、確かに展示の企画をする人をキュレーターと呼んでたりしますが、そちらはむしろ派生的と行ったらいい過ぎなのですが、少し違うのです。
はてなキーワードを編集してみました。編集部分を引用すると、

膨大な資料の収集、整理を通して資料の真偽などを同定・鑑定・判定し、その中から何らかの体系を見いだす専門職。しばしば展示展覧の責任者と理解されているが、キュレーターの中の第一人者が、資料から見いだした体系に基づいて展示企画を行うことから生じた、派生的な任務である。

...少し書き過ぎかもしれませんが、資料と資料の関係性(美術の場合は前後の作品との影響、昆虫の場合だと同種・亜種の判定、他...)や、この資料がこの場所から得られるのが正しいか、など、収集・整理に当たって判断する事は非常に多く、その判断から資料の重要性がわかるのです。
元記事の、

。少なくとも一度は人間の目を通して取捨選択されているため、ロボットを使い画一的なルールで情報を収集する従来の検索サービスに比べてノイズが少ないと、人気が高まっている。

そのものは正しいです。為念。
p.s. タイトル少し変えました。

最近起こった事(そしてentryがない事のいい訳)

  • 9/3に、渋谷で行われたライフサイエンスバーへ。いろいろ議論。
  • 9/11から一週間ほど北海道へバイクでツーリング。久しぶりに自然を見た気がするorz 自然科学に携わってるものの端くれとして情けない... この後しばらくは写真の整理してたけど、終わらないうちに...
  • 9/30にBioJapanに出店したブースに立つ。同じブースのマウスがかわいかったり。
  • 10/29にIzu.Rという温泉の会に。.Rの名に反してpythonなGalaxyインストール会に。
  • 11/1 Dr. Boris N. Kholodenko のマルチオミックス解析のセミナーを聞く。面白い事をやっているw 洋書買ってしまおうかw
  • 11/3 科博の「空と宇宙展」行ってきた。はやぶさたん...!
  • 11/ 12-13 「細胞を創る」研究会 3.0、に参加。オーラルセッションのうち8割ぐらいはスライドタイトルをメモれたのだけど、研究会であって公開シンポジウムではないのでupしない。ということで、残念ながらコレのエントリは単なる感想に...今更かよ><
  • 11/ 22-23 職場ミーティングを風邪でお休み。薬で少し楽になった11/23午後、ustreamされたargカフェ横浜をみる。その翌日から図書館総合展の参加者が泊まりに。
  • 12/ 7-8 分生/生化合同大会へ。上で気になったマルチオミックスな解析はあまり広く行われていないようで、ヲレ的な来年のバズワードはコレにするw (職場どうするんだヲレw

分岐予測?

http://www.ne.jp/asahi/comp/tarusan/index.html」を久しぶりに見て*1、最新記事「http://www.ne.jp/asahi/comp/tarusan/main230.htm」にちょっと思うところが。
intelhyper threading(以下HT)を復活させたけど、HTをonにしたら、トータルでの性能が落ちるのも知られている。
とりあえず脚注部分を引用。

ただ、単純に分岐予測のヒット率を上げることだけではなく、ミスヒットした場合のデメリットが少ない分岐予測機構(やや矛盾した表現だけど)に秘密がありそうだ。たとえば、ループ中で分岐命令を予測ミスしてトレースから外れたときに、どの分岐命令でミスする可能性が一番高いかが事前にわかっていれば、次のトレースを事前にデコードしてμOPキャッシュ投入し予備調整しておくことでリカバリータイムを最小限に抑える事ができるはずだ。そんな分岐予測ミス対応プリフェッチみたいなメカニズムとかは考えられないだろうか?

ぢつはHTオフの時に、投機実行してるんぢゃまいか。HTをオンにすると、実行ユニットも遊んでないところに、投機実行できなくて、トータルの性能が全然でない。...ありそうでないシナリオかwww

*1:最近家でなんもしてないから、更新頻度の高いところはろくに見れないww

ucsc genome browserのrefGeneテーブル

職場内製のtranscriptomeなデータを某生物種のゲノムにマッピングして、refGeneでアノテーション付けてみる。と。全然アノテーションがつかない。あれっと思ってrefGeneテーブルの中身を見てみると、1000行そこそこしかない感じ。
ひょとして、キュレーションの済んでないXM_アクセッションを全部捨ててる感じ。旧聞?