2011年6月7日火曜日

ベイズ法における事後確率の過大評価の原因

今日のゼミ(皆様お疲れ様でした)で少し論点になったベイズ法による分子系統解析におけるPP(事後確率)の過大評価の点について、触れておきます。

最尤法におけるブートストラップ値と比べ、ベイズ法のPPが(correct,incorrectな枝問わず)過大評価された支持値を出力するのは、一言でいえば現状ベイズ法に実装されているMCMCMCアルゴリズムのせいです。あとは事前分布としてどのような確率分布を設定するかも影響しますが、今回は前者について。

そして、MCMCMCがなぜPPの過大評価に繋がるのかというと、各世代においてheat chainから提案された状態(置換モデルのパラメータ、トポロジー、枝長、尤度全て含む)をcold chainの状態と交換する際の採択率の設定の難しさがあるからです。

Metropolis-Hastingsのルールに従うと、状態の交換は、

1、提案された状態の尤度がもとの状態の尤度より大きければ確実に採択する。
2、提案された状態の尤度がもとの状態の尤度より小さくても、ある採択率αで採択する。

というルールで行われます。

上記の採択率の設定の難しさは、すなわちαの値の設定の難しさに直結するわけです。

α=0がなぜいけないかというと、分子系統解析において尤度の分布は多峰的になっているからです。つまり、今の状態がある尤度の山にあるとして、その山よりもさらに高い尤度をもつ山が存在する可能性がある。なので、提案されたある状態が、今いる状態よりも尤度が低いとしても、その状態を採択することによって最終的には最も尤度の高い山の頂上に到達できるかもしれません。

ただし、αをかなり大きめに設定して、何でもかんでも採択するようにすると、今度はMCMCMC自体がいつまで経っても収束しないという事態に陥ってしまいます(あの山に登ろうかな?それともこっちかな?というような優柔不断な状態)。

従って、MCMCMCが収束する範囲で、かつ広域な探索(により提案される状態の交換)が行えるよう、採択率αを調整する必要がありますが、その調整方法が難しいのです。

採択率αの調整には、MCMCMCで提案される状態がどのような確率分布(提案分布)に従うかということを推定する必要があります。これについては一様提案分布や正規提案分布、多変量提案分布、比例縮小・拡大法などの方法がありますが、そのいずれについても、上述したMCMCMCの収束と尤度の多峰的な分布がネックになっているようです。

今日議論にあった、「MrBayesの探索方法であるTBRを考慮した提案分布が想定されていない」というのもこの問題に含まれますね。TBRのやり方を考慮した提案分布を想定すれば、広い探索領域において状態交換を行えますが、そうするとMCMCMCの収束に難が出るのでしょう。

結果的に、現状では、計算科学的な資源のリミットから、MCMCMCの収束を優先した採択率の設定に寄らざるを得ず、それが結局広域な探索を邪魔してしまい。「近隣の樹形空間からの提案しか採択されない」という状況を引き起こし、PPの過大評価の原因となっているのだと思います。

(参考:分子系統学への統計的アプローチ 5.4章)

話は変わりますが、ベイズの定理って以外に知られていないのね。生物学では進化とか生態とか学ぶときには一回くらいは出てくるもんだとばかり思ってましたが。あとは薬学の分野とかでも。

まあ実際にはそんなに使われないのかもしれないですけどね。

0 件のコメント: