2011年5月6日金曜日

塩基でやってはどうか?

配列組成の不均一性は分子系統樹を再構築する上で最重要な問題の一つですが、この問題を解決し、アーティファクトの誘導を出来るだけ抑えたい場合、塩基配列を使った方がいいのか、アミノ酸配列を使った方がいいのか、ということが、最近疑問になってきています。

Protist関連の系統解析では、超divergentな配列を取り扱うことが多いため、たんぱく質コーディング遺伝子に関してはアミノ酸配列にtranslateしてから解析に用いることが多いです。
置換速度が極めて大きい配列を含む系統解析では、アミノ酸配列を用いた方が塩基配列を用いた時よりも、配列の置換が飽和状態になりにくいということから、LBAの影響を防ぐことが出来るということが先行研究でも言われています。


しかし、置換速度が大きいことに糅てて加えて、配列の組成が非常に偏っている場合には、単純にアミノ酸配列に翻訳するだけでアーティファクトの誘導を防げるかは怪しい所があります。


そこで、そのようなケースにおいては配列組成の不均一性を許容するようなモデルを使って尤度の計算を行うのが解決策の一つとして挙げられますが、このモデルを使用する際に塩基配列を使った方がいいのか、アミノ酸配列を使った方がいいのか、ということに疑問があるのです。

組成の不均一性を許容するモデルを一番実用的なレベルで実装しているソフトウェアならばnh-PhyloBayes(nhpb)でしょうが、アミノ酸配列を使ってnhpbで解析するとなると、以下の問題に悩まされます。


1、解析にもの凄い時間がかかる(計算科学的な問題。nhpbはMT非対応なのでなおさら)
2、解析がいつまで経っても収束しない(MCMCのアルゴリズムの問題?)


この二つの根本的な原因は、アミノ酸配列を用いてCAT+BPモデルを使う場合には、パラメータ数がバカみたいに大きくなってしまうことだと思います。


だったら塩基配列を使えば(収束しやすくなるかどうかは別問題として)時間の短縮は出来るのではないだろうか?というのが現時点での単純な意見。


塩基配列を用いることで、上述のとおり配列の置換が飽和状態に陥りやすくなる危険性もありますが、例えばコドンの3rd positionを削除することなどによってある程度ならその影響を防ぐことが出来るのではないか?
アミノ酸頻度がもの凄く偏っている場合には1st,2nd positionでも塩基組成が偏っていることが見受けられますから、その場合nhpbなどのソフトを使えば、実用的な計算時間で、組成の問題を解決した上で系統樹を得られることが可能かと思います。


その場合、アミノ酸配列を用いた方がいいのか、塩基を用いた方がいいのかを直接に比較することはできませんが、試してみる価値はあるでしょう。


また、nhpbでは塩基配列に対してCAT+F81+BPとGTR+BPの二つのモデルが試せますので、両者の違いをみることも可能。


ということで早速自分のデータで検証してみる。


面倒くさいのはアライメントの用意か。た んぱく質コーディングの遺伝子であるからコドン配列を取ってくるとして、アライメントはアミノ酸のアライメントを参考にするのがいいでしょう。 PAL2NALでも使ってアミノ酸のアライメントを反映させるとして、ポジションの選択は自分でスクリプトを書いてもそこまで苦にはならないと思う。


JSEPまでには間に合わせたいなあ。

0 件のコメント: