Słowa kluczowe: teoria ewolucji, ewolucjonizm, systematyka organizmow
Metoda największej wiarygodności - ucieczka ze strefy Felsensteina
Krzysztof Spalik
1.II.2004
Tekst na podstawie kursu przeprowadzonego w Instytucie Zoologicznym Uniwersytetu Wrocławskiego we Wrocławiu w dniu 11 maja 2002.
Strefa Felsensteina, czyli kiedy parsymonia może zawodzić
Kiedy triumf metod kladystycznych w taksonomii i filogenetyce wydawał się niewątpliwy, pojawił się niemiły zgrzyt. Jego autorem był Joe Felsenstein (1978), który zadał fundamentalne pytanie o spójność metody opartej na parsymonii. Metoda filogenetyczna jest uważana za spójną wtedy, kiedy wraz z napływem nowych danych otrzymujemy drzewa coraz bliższe prawdziwej filogenezie. Felsenstein wykazał, że w pewnych warunkach metody kladystyczne są niespójne. Co gorsza, są pozytywnie mylące: im więcej danych zbieramy, tym silniej wsparte jest określone drzewo filogenetyczne, ale jest to drzewo błędne!
Ryc. 1. Przykładowa filogeneza czterech gatunków (A; przedstawione są różne możliwości zmian w liniach 1 i 4) i jej dwie rekonstrukcje (prawdziwa B i fałszywa C). Rekonstrukcje są drzewami niezakorzenionymi (Swofford i in. 1996).
Rozważmy przypadek drzewa czterech taksonów (ryc. 1 A). Na drzewie tym zaznaczono długości gałęzi, które odzwierciedlają liczbę podstawień w sekwencji, a także - przykładowo - zmiany jednego nukleotydu. U wspólnego przodka była to adenina. Po rozdzieleniu jego linii na dwie potomne bardzo szybko nastąpiły kolejne dywergencje. Na pierwszych gałęziach nie zaszły żadne zmiany i w rozważanej pozycji u obu potomków pozostała adenina. U dalszych potomków wystąpiło silne zróżnicowanie tempa podstawień nukleotydów. Dwie gałęzie są bardzo krótkie - nie zaszły tam prawie żadne zmiany - natomiast dwie są długie, tzn. sekwencje DNA tych taksonów są silnie zmienione. Rozpatrzmy, jakie będą możliwe stany analizowanej cechy (czyli pojedynczej pozycji w sekwencji) u tych taksonów i jakie będą tego konsekwencje dla oszacowania filogenezy metodą parsymonii.
1) Nukleotyd w danej pozycji nie zmieni się - pozostanie adenina. Pozycja ta jest zatem stała, czyli nieinformacyjna filogenetycznie.
2) Jeśli nukleotyd ulegnie podstawieniu na jednej gałęzi, to taka pozycja będzie również nieinformacyjna filogenetycznie. Według zasady parsymonii ważna jest bowiem tylko wspólnota posiadania tej samej cechy zaawansowanej ewolucyjnie.
3) Jeśli na obu gałęziach adenina będzie podstawiona przez różne nukleotydy, np. przez cytozynę i guaninę, to także ta pozycja będzie nieinformacyjna.
4) Z punktu widzenia parsymonii informacyjny filogenetycznie będzie jedynie przypadek, w którym adenina zmieni się na guaninę (albo inną zasadę) równocześnie na obu gałęziach. Ale właśnie ten przypadek jest mylący. Wskazuje bowiem na bliskie pokrewieństwo taksonów (1) i (4), czyli na drzewo C. W gałęziach ewolucyjnych 1 i 4 zmian było wiele (są "długie"), takich przypadków przypadkowej zbieżności jest więc w nich z pewnością więcej, niż w "krótkich" gałęziach 2 i 3. Im więcej danych zbierzemy, tym bardziej możemy być utwierdzeni, że to właśnie drzewo C jest prawdziwe, podczas gdy będzie to artefakt - jesteśmy po prostu w tzw. strefie Felsensteina. Tą nazwą określa się zbiór topologii rzeczywistego drzewa filogenetycznego (strefę w przestrzeni możliwych topologii), w którym jego odtworzenie jest bardzo trudne.
Można próbować podważyć te rozważania, wskazując, że założenie o tak dużych różnicach w tempie ewolucji poszczególnych gałęzi jest nierealistyczne. Niestety, Hendy i Penny (1989) wykazali, że nawet w wypadku zegara molekularnego, czyli stosunkowo wyrównanego tempa ewolucji na poziomie molekularnym, taki efekt występuje. Nazwali go long branch attraction, czyli przyciąganiem się długich gałęzi. Efekt ten spotykamy, kiedy w próbie taksonów pewne gałęzie ewolucyjne są lepiej reprezentowane niż inne (próba jest niereprezentatywna). Odpowiedni wybór taksonów nie zawsze jednak zależy od badacza. Na przykład nie uzyskamy bardziej reprezentatywnej próby miłorzębowych, ponieważ miłorząb dwuklapowy jest jedynym współcześnie żyjącym przedstawicielem tej licznej kiedyś grupy.
Na ile powszechnie spotyka się efekt przyciągania się długich gałęzi? Prawdopodobnie dość często. Istnieją uzasadnione obawy, że taką sytuację mamy w wypadku roślin lądowych - do tej pory nie wiemy na przykład, która grupa mszaków jest grupą siostrzaną roślin naczyniowych, różne sekwencje DNA dają bowiem odmienne oszacowania.
Istnieją metody ucieczki ze strefy Felsensteina. Przyjmują one pewne założenia co do ewolucji na poziomie molekularnym i biorą pod uwagę nie tylko obserwowane zmiany nukleotydów, ale także szacują liczbę wielokrotnych podstawień, które są jedną z przyczyn szumu filogenetycznego. Taką metodą jest m.in. maximum likelihood, czyli metoda największej wiarygodności.
|