マルチマップの扱い雑感(続ゲノムの重複と次世代シーケンサー雑感)

昨日のエントリで

結構シーケンシングエラーが多いのよね...
(中略)
一方でSNPがどんどん探されてきてるので、マルチマップの扱いが以前より難しくなってきてるのだなという感想を持っています。

というあたりをもう少し。マルチマップということはmappingされてるのだけど、それ以前にシーケンシングエラーとのかかわりを見なきゃならない。ある程度の数が観測されるシーケンスだと、タグ自体を比較することによってざっくりエラーを同定できて、そこからマルチマップを絞れるはず。
ところが。
basecallからmappingまででコレだけCPUパワーを喰われてる状況で、間違いなく組み合わせ爆発の起こるアセンブリなんて処理を入れた日にゃ、10PFマシン*1でも必要になるんじゃないかとdkdkしてしまう。
しかも、エラーを同定したとしてもsingle mapになるわけでもないし、シーケンシング結果自体から見たらゲノムへのbest hitでもなくなるんだろう。
頭が痛い今日この頃。

*1:そういえばNもHも撤退したね...><、と、「なかのひと」で付いてるF社の足跡見ながら呟いてみるw