2010年8月17日火曜日

アピコとラーメン

最前線の原稿の資料として、2009のBabesiaの論文を読んだ。

以前にもちょろっと目を通して「とりあえずショボそう」とは思っていたが、改めてみるとやっぱりショボかった。

一言で言えば「ベイズおいしいです」といったところか(別にベイズ法ディスってるわけじゃなく、使い方の問題ね)


とりあえずアライメントの精度がアヤシイ。
モデル選択の基準がアヤシイ。(covarion modelがAT含量のバイアスに効くって? う~ん、全く寄与しないとは言わんけどさ)

あと蛇足としてはppは歩合で示そうぜ。僕のような素人目でも理解度を疑われてしまう故。

系統解析とは計算科学であるので、配列データ、taxon、解析方法とモデル、これらの要因についてきちんとselectionを行わなければ、いくらデータを集めようとも「チリが積もってゴミの山」くらいの影響しかない。むしろ「山の頂上に向かって登っていたらいつの間にか谷底へ転落していた。何を言ってるか(ry」という状況になる可能性が高い。

が、 アピコの解析に関しては(すべての解析についても言えるけど)その選択の基準となるものが分からんというところが問題である。何が問題なのか、何を避ければよいのか、解決すればよいのかがまずもって分からない。

なので結局は何でもありになってしまうか、何もなしになってしまうかのどちらかにしか帰着しない気もする。

これを解決するにはどうすればいいだろうか?

自分の数少ない(というか唯一の)経験から言えば、問題を仮想的に単純化、明確化して、その上で有効な解決方法を探すというものである。
この例で言えば、アピコにある遺伝子がgene transferの影響を受けていないとした上で、ハチャメチャな速度で置換をしていったという「純粋に垂直な進化」をモデリングし、それによって生成された「きれいなデータ」に対し現状使えうるすべての方法を試し、「このケースではどんな方法が有効か」を調査することである。どんな原因をモデリングするか、網羅的にやるのは不可能であるが、その数を増やせば絶対的ではないにしろ現実の解析に対して何らかの指標にはなるだろう。



この場合、今までやってきたシミュレーションよりもっと複雑な設定が必要となるだろう。
そういうのもまた、おもしろいかもしれない。



真面目な話はここまでにして、これからいつものごとく博多に出陣して食い倒れをしてくる。
今日は昼夜ラーメンと酒祭りだぜうはは。


四年生の二人は、お土産を楽しみにしつつ試験頑張ってください。
まあ大学院の入試なんて軽いもんですよ。
むしろ今日の面接練習の方がハイパー尋問タイムにならないかと心ぱi(ピチューン

0 件のコメント: