2010年7月21日水曜日

データ取り

論文の方は現在大ボス(入院中)が検査の合間でチェックしてくれている。有難いけど申し訳ない。もう少し早めに書いて渡すべきだった。

チェックが帰ってくる合間に、アピコのPhylogenyとアミノ酸シミュレーションのデータ取りをやっている。

アピコの方は、土曜日にUBCのJJから解析方法についての質問のメールが来た。
彼らは多分クロメラなどを入れてglobalなdatasetで系統解析をやりたいのだと思う。

僕の興味はApico phylogenyで問題になる(と思われる)アミノ酸組成のバイアスをTaxon Sampling以外の解析方法の改善で解決できるかというところにあるので、方向性は少し違うと思うが、どちらにしろデータは早めに取っておいた方がいいだろう。


現状自分の中で有効であると思われるのは、配列データのRecodingとNHモデルの組み合わせである。Recodingのみではアミノ酸組成のバイアスを克服することはできないが、配列データに含まれる様々なノイズ(シグナルもある程度消えるが)を減らすことができるし、組成のバイアスをアミノ酸のグルーピングにより単純化できる。何よりnhPhyloBayesのように複雑なモデルを使った場合の計算時間の短縮になると考えられる。

こういった予想を確かめるため、現在手持ちのデータセットで試しに解析を行っている。

やっぱコーディングすると速いが、どこまででChainが収束するかは分からない。まあ気長に待つとする。

ちなみにICCの無料の評価版をインストールしてみたが、コンパイルでよく分からないエラーが出て止まる。どこの何が問題なのかまったく分からないため、今までで一番ムズい。ICCでコンパイル出来たら速度がまた格段に上がると思うんだが・・・


アミノ酸シミュレーションも平行してやっている。BppSeqGenよりはIndelibleを使った方が簡単な気がする。

コドンの組成はデータベースから取ってきたが、終始コドンの割合も計算に入れられていたため、こいつを除いて再計算しないといけない。めんどくせ。


こっちの方は今週中にはコードを書き上げたい。

0 件のコメント: