2011年8月16日火曜日

種間(配列データ間)のアミノ酸頻度の類似性の検証

要はある種とある種(あるOTUとあるOTU)のアミノ酸配列データについて、そのアミノ酸頻度のパターン(20種のアミノ酸頻度の大小関係)に類似性があるか否かを調べるにはどうすればいいかということである。

Tree-Puzzleとかでやられるχ二乗検定は、データ全体から推定された期待値と、各配列データにおける各アミノ酸頻度の値とにどれだけズレがあるかをもとに統計量を計算するため、「明らかに期待値と異なるアミノ酸頻度パターンをもつ種」を検出することは出来るが、どの種とどの種のアミノ酸頻度パターンがどれだけ似ているかということは当然のことながら検証できない。

この、「ある種とある種でアミノ酸頻度パターンが似ているかどうかを検証する」必要が出てきたため、大ボスにも相談して考えてみた。

とりあえず、各アミノ酸の頻度を確率変数としてみた場合、これらの変数はまず正規分布に従わないし、連続的な値でもないため、ピアソンの相関係数は適用できない。


それで(途中あった議論云々をすっとばすと)、結論としては、スピアマンの順位相関係数あるいはケンドールの順位相関係数を適応すればいいのではなかろうかという結論に至った。

この二つはノンパラメトリックな指標であるため、変数の確率分布を想定する必要はない。また、変数を数値的に取る必要がなく、順位だけあればいいので、離散的な値であるアミノ酸頻度を扱っても問題はない。

ただ、この方法を試した場合、「順位に強い相関がある」種同士で、「アミノ酸頻度そのものの値に相関があるかどうか」までは分からない。対象となっているのはあくまで順位であるため。しかしながら、今回自分が行う検証についてはその点を考慮する必要はないため、ここではまだ考えない。


ちなみに、順位相関係数を計算したいなら、Rのパッケージとしてもあるし、web上で計算できるものもある。(以下参照)

http://aoki2.si.gunma-u.ac.jp/R/rank-cor.html
http://www.gen-info.osaka-u.ac.jp/MEPHAS/spea.html

0 件のコメント: