2011年2月21日月曜日

この配列ひどいよぉ!!

さすがアピコの(ry

三月の藻類学会で発表する予定のテーマについて、それ用の解析のためのアライメントの作成を行った。

以前にも何遺伝子かについてアライメントを行ったが、まあぐちゃぐちゃですわな。アミノ酸頻度もかなり偏っているし、「どこをどう取れと・・・?」と思わざるを得ない遺伝子もある。そもそもMissing Dataも多いし。

こんなハチャメチャな配列データで、今までPublishされた研究では「自動アライメントやってGBLOCKSでポジション選んでもらいました」だし、Missing Dataがあるからだろうが単一モデルしか使ってないし。

そんなんでちょろっと解析したぐらいじゃ、そりゃあLBAに見事にトラップされますがな(´・ω・` )


Gene sampling, Taxon sampling, Alignment, Position選択、これらを人の手でちゃんとやらないと(”ちゃんと”ってのが難しいのだけれど)、どれだけ複雑なモデルや画期的なアルゴリズムを使ったって意味がない。


「系統解析はアライメントでほぼ決まる」はうちの大ボスの金言だ。


今対象にしているテーマはそこらへんがちゃんとしてないために、分子系統解析の結果が他の分子生物学的な結果の”足を引っ張っている”好例だろう。


データの作り方、解析方法を詳細に検討して、更に新しく出た生物のデータを加えて、最終的にどのような結果が得られるか。それを検証したい。あわよくば「僕らのConsensusに矛盾しない強固な」結果が得られるといいのだけれども。ただ、結果ありきの工夫をしないように十分留意もしないといけない。




N村のデータの解析(これは自分が勝手にやってることだが)もあるので、CPUの使い方を少し考える必要がある。

0 件のコメント: