Słowa kluczowe: teoria ewolucji, ewolucjonizm, systematyka organizmow
Metoda największej wiarygodności - ucieczka ze strefy Felsensteina
Krzysztof Spalik
1.II.2004
2
Parsymonia nie uwzględnia tempa ewolucji
Zacznijmy od pokazania, jaka jest różnica między parsymonią a metodą największej wiarygodności (ryc. 2). Drzewo A pokazuje filogenezę sekwencji DNA kilku gatunków. Jak w poprzednio analizowanym przykładzie, zaznaczono zmiany nukleotydów w jednym miejscu sekwencji. Aczkolwiek to drzewo jest narysowane ze strzałką czasu, z formalnego punktu widzenia nie jest zakorzenione. Innymi słowy, nie jest rozłamana gałąź zaznaczonej literą ?. Dla tych rozważań nie jest ważne, w której części tej gałęzi - dolnej czy górnej - zaszły zmiany.
Ryc. 2. Przykład ilustrujący różnice w podejściu do rekonstrukcji filogenezy między metodami opartymi na parsymonii a największej wiarygodności (Swofford i in. 1996). Jeśli do zbioru taksonów z ryciny (A) dołączymy obiekt z cytozyną w analizowanej pozycji sekwencji, to według kryterium parsymonii wszystkie drzewa (B)-(D) są równocenne, natomiast funkcja wiarygodności wskazuje na drzewo (C).
Cyframi 1 i 2 zaznaczono węzły wspólnych przodków dwu grup gatunków. Spróbujmy dociec, jaki nukleotyd występował w rozważanej pozycji u tych przodków. W wypadku przodka 2 sprawa jest oczywista - zgodnie z zasadą parsymonii powinna tam być adenina. Ale co z przodkiem 1? Ponieważ na każdej z trzech gałęzi wychodzących z tego węzła znajduje się inny stan (A, C lub G), wszystkie trzy rekonstrukcje są możliwe. Każda z nich wymaga tylko dwóch podstawień.
Zastanówmy się, gdzie dodana byłaby sekwencja, która ma cytozynę w analizowanej pozycji (ryc. 1, drzewa B, C i D). Pod względem parsymonii równie dobre jest dołączenie tej sekwencji do gałęzi ?, ß, lub ?. Nie wymaga to żadnej dodatkowej zmiany. Podobnie byłoby, gdyby ta sekwencja miała guaninę. Gdzie natomiast najlepiej byłoby dołączyć sekwencję, która miałaby tyminę w tej pozycji? Ją również można dodać do każdej gałęzi tego drzewa, w każdym przypadku bowiem wymaga to jednej dodatkowej zmiany. Podobnie jest z sekwencją, która ma w tej pozycji adeninę - ona także może być dołączona wszędzie. Wpłynie to jednak na rekonstrukcję wspólnego przodka. Jeśli sekwencję z adeniną dołączymy do gałęzi ß lub ?, to musimy założyć, że przodek nr 1 miał także adeninę w tej pozycji. A zatem analizowane miejsce jest informacyjne filogenetycznie jedynie w stosunku do sekwencji z cytozyną i guaniną, natomiast nic nie mówi o przypuszczalnym położeniu sekwencji z tyminą i adeniną.
Zauważmy, że w naszych rozważaniach dotyczących parsymonii ani razu nie pojawił się czas. Metoda parsymonii go zupełnie nie uwzględnia. Ważna jest tylko liczba zmian na całym drzewie.
Metoda największej wiarygodności przyjmuje model podstawiania nukleotydów
Inną perspektywę przyjmuje metoda największej wiarygodności. Stosuje ona odmienne kryterium oceny drzewa. Wybieramy takie drzewo, dla którego prawdopodobieństwo osiągnięcia obserwowanego rozkładu wartości cech na wierzchołkach gałęzi jest najwyższe. Aby oszacować to prawdopodobieństwo, musimy dokonać założeń o przebiegu zmian ewolucyjnych - modelu substytucji nukleotydów w sekwencji. Przyjmijmy model najprostszy:
(1) tempo podstawiania (substytucji) jest jednakowe dla wszystkich par nukleotydów,
(2) wszystkie typy podstawień są jednakowo prawdopodobne,
(3) spodziewana liczba podstawień na dowolnej gałęzi jest funkcją tempa substytucji i długości tej gałęzi (czasu od rozejścia się linii ewolucyjnych).
Te założenia to w zasadzie uproszczony model Jukesa-Cantora. Na razie zakładamy także, iż tempo substytucji jest jednakowe w całym drzewie.
Ryc. 3. Obliczanie funkcji wiarygodności (Swofford i in. 1996).
(A) - macierz przyrównanych sekwencji
(B) - jedno z możliwych niezakorzenionych drzew
(C) - drzewo zakorzenione
(D) - suma prawdopodobieństw dla danej pozycji sekwencji
(E) - wartość funkcji wiarygodności to iloczyn wartości z wszystkich pozycji sekwencji
(F) - ponieważ jest to bardzo mały ułamek, przedstawia się go w postaci logarytmu naturalnego.
Miarą jakości drzewa jest suma prawdopodobieństw zliczona po wszystkich cechach (ryc. 3). Na przykład liczymy prawdopodobieństwo osiągnięcia obserwowanego rozkładu nukleotydów na gałęziach drzewa przy założeniu, że przodek nr 2 miał adeninę, a następnie, że miał tyminę, cytozynę lub guaninę. Sumujemy te prawdopodobieństwa - to jest właśnie funkcja wiarygodności. Należy pamiętać, że funkcja ta nie określa prawdopodobieństwa prawdziwości drzewa, ale jest miarą prawdopodobieństwa osiągnięcia obserwowanego rozkładu stanów cech przy założeniu, że dane drzewo jest prawdziwe.
Zmiany ewolucyjne są rzadkie, a zatem historie ewolucyjne, w których zaszło mniej zmian są bardziej prawdopodobne niż takie, w których tych zmian zaszło więcej. U przodka nr 2 z ryc. 2, bardziej prawdopodobne jest występowanie adeniny niż innego nukleotydu i ono najwięcej wnosi do funkcji wiarygodności. W tym wypadku metoda największej wiarygodności nie odbiega od parsymonii.
Rozważmy teraz węzeł nr 1 (ryc. 2). Wychodzą z niego trzy gałęzie, na każdej z nich występuje inny nukleotyd: A, C i G. Zastanówmy się najpierw, który stan - A czy C - jest bardziej prawdopodobny. Jeśli przodek nr 1 miał adeninę, jak przypuszczamy, to pomiędzy tym węzłem a wierzchołkiem drzewa z cytozyną musiała zajść jakaś zmiana. Ta zmiana mogła zajść albo na gałęzi ?, albo na gałęzi ß. Na której z nich jest bardziej prawdopodobna? Gałąź ? jest stosunkowo krótka, natomiast gałąź ß jest znacznie dłuższa. Długość gałęzi odzwierciedla liczbę podstawień, a zatem jest bardziej prawdopodobne, że rzeczona zmiana zaszła na gałęzi ß niż na gałęzi ?. Pamiętajmy jednak, że wciąż mówimy o prawdopodobieństwie. Metoda największej wiarygodności nie określa, że ta zmiana zaszła na gałęzi ß, ponieważ jest to bardziej prawdopodobne. Jedynie przy liczeniu funkcji wiarygodności dla danego drzewa, taka hipoteza wniesie najwięcej do obliczanej sumy prawdopodobieństw.
W podobny sposób rozważamy, na której gałęzi zaszła zmiana prowadząca do guaniny - na gałęzi ß czy ?. Jest bardziej prawdopodobne, że na gałęzi ?, ponieważ jest ona dłuższa od gałęzi ß. A zatem wartość funkcji daje nam porządek najbardziej prawdopodobnych rozwiązań. Najbardziej prawdopodobny stan u przodka 1 to adenina, potem cytozyna, a na końcu guanina. Jakie to ma znaczenie? Wróćmy do naszego oryginalnego problemu - w którym miejscu będzie dołączona sekwencja z cytozyną w określonej pozycji sekwencji? Przypominam, że w świetle parsymonii drzewa A, B i C są równoprawne. Natomiast w świetle metody największej wiarygodności nie są. Drzewo B wymagałoby rozcięcia gałęzi ? i umiejscowienia zmiany na tej krótkiej gałęzi, co jest mało prawdopodobne. Drzewo D nie wymagałoby rozcięcia tej gałęzi, ale wymagałoby zmiany na niej. Oczywiście możnaby uniknąć podstawienia na gałęzi ?, jeśli założymy dodatkową, niezależną zmianę na tej dołączonej gałęzi. Jest to jednak jeszcze mniej prawdopodobne. A zatem, najbardziej prawdopodobne będzie drzewo C. Zauważmy, że przewaga drzewa C znika, jeśli wydłużamy gałąź ?, np. jeśli przyjmiemy, że tempo ewolucji na tym odcinku jest szybsze.
Podsumowując, metoda największej wiarygodności, w odróżnieniu od metody opartej na parsymonii, uwzględnia długość gałęzi drzewa filogenetycznego. Dlatego też jest spójna. Taki układ bowiem, jaki pojawia się na drzewie w wypadku strefy Felsensteina, jest bardzo prawdopodobny, a zatem będzie wychwycony. Swofford i in. (1996) uważają, że metoda największej wiarygodności jest najlepszą metodą szacowania filogenezy nie tylko z uwagi na spójność. Ma niższą wariancję od innych metod, co znaczy, że jest najmniej wrażliwa na błąd pobierania próby, a także jest bardziej odporna na odstępstwa od założeń o modelu ewolucji.
|