I metodi della massima parsimonia , o più semplicemente i metodi della parsimonia o anche la parsimonia di Wagner , sono un metodo statistico non parametrico molto diffuso, in particolare per l' inferenza filogenetica . Questo metodo consente di costruire alberi di classificazione gerarchica dopo il rooting, che consentono di ottenere informazioni sulla struttura di parentela di un insieme di taxa. Nell'ipotesi della massima parsimonia, l'albero filogenetico “preferito” è quello che richiede il minor numero di cambiamenti evolutivi. Questo metodo di raggruppamento è utilizzato anche in ecologia su materiale reale o fossile , così come in sinecologia tra gli altri .
La parsimonia appartiene a un insieme di metodi filogenetici basati sull'uso di una matrice di caratteri discreti che rende possibile inferire uno o più alberi ottimali per un insieme di dati , un insieme di dati taxa (tradizionalmente un insieme di specie o popolazioni riproduttivamente isolate , all'interno della stessa specie). Questi metodi mirano a dedurre topologie filogenetiche, sulla base di un criterio di ottimalità esplicito . Viene calcolato un punteggio per ogni albero e l'albero o gli alberi con i punteggi migliori vengono selezionati come quelli che forniscono la stima migliore e più parsimoniosa delle relazioni filogenetiche tra i taxa inclusi nell'analisi. Viene utilizzata la massima parsimonia o può essere utilizzata nella maggior parte delle analisi filogenetiche. Fino a poco tempo, questo era l'unico metodo utilizzato per la stima filogenetica dei dati morfologici .
La stima filogenetica non è un problema semplice. Aumentando il numero di taxa inclusi nell'analisi si ottiene un numero esponenziale di alberi con differenti topologie. Ad esempio, più di tre milioni di alberi senza radici possono essere ottenuti da dieci specie (10 ! = 3.628.800). Secondo il criterio di ottimalità della parsimonia, vale a dire cercando di minimizzare il numero di cambiamenti evolutivi, vengono cercati l'albero o gli alberi che meglio si adattano ai dati. Tuttavia, i dati in sé non seguono una regola evolutiva semplice, aritmetica. Il metodo della massima parsimonia mira solo a ottenere una topologia che minimizzi il numero di passaggi evolutivi per un dato insieme di dati. Idealmente, dovremmo sperare che questi caratteri (tratti fenotipici , alleli, ecc.) Corrispondano a un dato modello evolutivo. In questo caso, potremmo dire se due organismi, o due dati taxa, hanno un carattere condiviso, e quindi se sono più vicini a due a due, di un terzo taxon che non ha questo carattere (se questo carattere è presente nel comune antenato, quindi si parla di symplesiomorphy ).
Ad esempio, usando il criterio della parsimonia possiamo dire che pipistrelli e scimmie sono filogeneticamente più vicini ai pesci poiché entrambi hanno il pelo , peli caratteristiche della classe dei Mammiferi (è una sinapomorfia ). Tuttavia, non si può dire che pipistrelli e scimmie siano più strettamente imparentati da due a due di quanto non siano balene perché l'ipotetico antenato comune di questi tre gruppi possiede anche il carattere peloso .
Tuttavia, i ben noti fenomeni di convergenza evolutiva , evoluzione parallela e reversioni evolutive - chiamati collettivamente omoplasie - aggiungono un delicato problema per l'inferenza filogenetica. Per un gran numero di ragioni, un tratto può benissimo non essere presente nell'antenato comune: se prendiamo la presenza di un tratto particolare come prova di una relazione evolutiva, ricostruiremo un albero non corretto. I dati filogenetici effettivi includono una proporzione sostanziale di omoplasia e diverse partizioni del set di dati spesso suggeriscono topologie abbastanza diverse e quindi relazioni filogenetiche. I metodi utilizzati nell'inferenza filogenetica tendono esplicitamente a risolvere questi conflitti nel segnale filogenetico trattenendo solo gli alberi filogenetici che globalmente si adattano (si adattano ) alla totalità dei dati, accettando che alcuni componenti del set di dati non si adattano. semplicemente non alle relazioni, cioè alle topologie filogenetiche inferite.
Il dato che non si adatta perfettamente all'albero filogenetico ottenuto può contenere qualcosa di diverso da un semplice rumore nel senso statistico del termine. Nel precedente esempio di balene l'assenza di pelo è omoplastica: ciò riflette un ritorno alle condizioni “ancestrali” degli amnioti, che non avevano pelo. Questa somiglianza è condivisa con l'antenato degli amnioti, comprendente i mammiferi, ed è in conflitto con l'albero che dobbiamo ottenere (cioè quello che fa dei Cetacei una famiglia di Mammiferi), poiché in base a questo unico criterio, dovremmo costituire un gruppo evolutivo che esclude i Cetacei dal gruppo dei mammiferi pelosi. Tuttavia, tra i cetacei, questo ritorno al carattere "glabro" è condiviso tra i diversi membri dei cetacei (ad esempio i delfini).
Determinare l'albero "corretto" e soprattutto con questo tipo di dati in conflitto è un processo complesso. Il massimo della parsimonia è uno dei metodi sviluppati per questo.
I set di dati di massima parsimonia sono in forma di caratteri per un dato insieme di taxa. Non c'è consenso generale su cosa sia un tratto filogenetico, ma, in pratica, un tratto può essere un attributo, un asse in cui variano i taxa osservati. Questi attributi possono essere morfologici, molecolari / genetici, fisiologici, comportamentali, ecc. L'unico consenso è considerare le variazioni nei caratteri ereditabili, perché lo scopo è inferire modelli evolutivi tra le unità operative considerate. La questione se questa ereditabilità debba essere diretta (un allele per esempio) o indiretta (un comportamento appreso o culturale) non è né consensuale né risolta.
Ogni carattere è suddiviso in categorie distinte o stati di carattere , in cui è possibile classificare le variazioni osservate. Gli stati caratteriali sono spesso descrittivi del substrato considerato per il tratto. Ad esempio, il carattere "colore degli occhi" può avere gli stati blu, marrone, nero e così via. I caratteri considerati possono avere uno o più stati (possono averne uno solo, ma in questo caso preciso non essendo osservabile nessuna variazione, nessuna informazione può essere estratta da essa, e per questo sono generalmente esclusi dall'analisi).
I tratti in un'analisi filogenetica non sono una scienza esatta e spesso esistono più modi per trattare lo stesso insieme di dati. Ad esempio, due taxa possono mostrare lo stesso stato di carattere se sono estremamente vicini l'uno all'altro di quanto non lo siano agli altri taxa nel loro insieme. È problematico codificare determinati stati di carattere, la cui attribuzione a questa o quella classe è ambigua, persino soggettiva (ad esempio gli occhi verdi, nell'esempio precedente). Spesso una codifica diversa, ma appropriata nel contesto dello studio, può risolvere in modo univoco questo problema, per stati di carattere come il colore degli occhi. Ad esempio gli occhi verdi possono essere classificati in una nuova categoria occhi chiari , includendo anche gli occhi azzurri; e creeremo anche una nuova categoria di occhi scuri , che includerà nero , marrone , ecc.
Questi tipi di ambiguità per i dati morfologici o continui sono spesso una delle principali fonti di contesa, confusione ed errore nell'elaborazione del set di dati. Per superare questo tipo di attribuzione si può definire un nuovo stato di carattere, notiamolo “? ". L'algoritmo che elaborerà il set di dati non considererà questo stato del carattere, per questo individuo, e l'eventuale errore, ma non sistematico, potrà essere evitato. Il "?" assumerà il valore che diminuirà il numero di passaggi sull'albero quando viene elaborato nell'analisi.
I dati molecolari o genetici sono particolarmente adatti per analisi filogenetiche, con la massima parsimonia. Infatti gli stati di una sequenza di caratteri nucleotidica sono discreti: 4 basi e opzionalmente un 5 ° stato di carattere: un inserimento / cancellazione. Pertanto, i quattro stati caratteristici trovati saranno le 4 basi nucleotidiche, vale a dire adenina , timina (o uracile per una sequenza di RNA ), guanina e citosina . La cancellazione dell'inserimento può essere osservata nell'allineamento della sequenza , in questo caso è codificato con uno stato di 5 ° carattere, generalmente indicato con "-". Questo stato di carattere non deve essere confuso con il ? che indica un'incertezza o un dato mancante, o un'aberrazione, ecc. Qui, un indel è un dato evolutivo a sé stante, che può essere ereditato, condiviso con altre specie derivate, ecc. Non c'è consenso su quanto rigorosamente codificare indel , tuttavia, vediamo l'assegnazione per ogni carattere (ogni posizione nella sequenza di DNA o RNA , uno stato, è raramente ambigua).
Gli stati dei caratteri possono essere elaborati ordinando o meno. Per un carattere binario, di tipo presenza vs. assenza , non fa differenza. D'altra parte, se si considera un carattere multi-stato e se si ha un contesto in termini di numero di passaggi evolutivi, è possibile codificarlo. Ad esempio, in un gruppo di piante, se sappiamo che la sequenza bianco → viola per la corolla passa necessariamente per lo stato del carattere rosa , allora possiamo derivare un segnale filogenetico sostanziale considerando la transizione bianco → rosa come non scalabile, come per la transizione rosa → viola . La transizione bianco → viola sarà quindi più costosa in termini evolutivi e costerà due passaggi qui. Per alcuni personaggi, è difficile sapere se è meglio ordinare o meno e come ordinare. Al contrario, per i caratteri che rappresentano la discretizzazione di una variabile continua (forma, dimensione, rapporti), l'ordinamento lineare ha senso e le simulazioni hanno dimostrato che questo aumenta la capacità di trovare i cladi giusti, mentre diminuisce il numero di cladi.
Il tempo macchina richiesto per un'analisi di massima parsimonia (come per gli altri metodi) è proporzionale al numero di taxa e caratteri inclusi nell'analisi. Pertanto, poiché più taxa richiedono più rami e topologie da stimare, ci si dovrebbe aspettare una maggiore incertezza nelle analisi su larga scala. Il campionamento dei taxa (e il loro sequenziamento a maggior ragione ) è costoso in termini di tempo e denaro, la maggior parte delle analisi filogenetiche include solo una frazione dei taxa che avrebbero potuto essere campionati.
Studi empirici, teorici e di simulazione hanno dimostrato l'importanza capitale di un campionamento rigoroso e adeguato. Questo può essere riassunto nella seguente affermazione: una matrice filogenetica ha il numero di dimensione di taxa x numero di caratteri . Raddoppiando il numero di taxa, raddoppia la quantità di informazioni presenti nella matrice, ad esempio raddoppia il numero di caratteri. Ogni taxon rappresenta un nuovo campione per ciascuno dei caratteri, ma, cosa più importante, rappresenta una nuova combinazione degli stati dei caratteri. Questi tratti possono non solo determinare dove sull'albero filogenetico si dirama il nuovo campione, ma possono influenzare l'analisi nel suo complesso, potenzialmente causando cambiamenti nelle relazioni evolutive precedentemente ottenute su altri taxa, ad esempio cambiando i modelli di stima dei cambiamenti di carattere .
La debolezza più evidente delle analisi in massima parsimonia è quella dell'attrazione dei rami lunghi (vedi sotto), particolarmente forte nel caso di un campionamento non molto robusto (il caso estremo è il caso di un dataset di 4 taxa, minimo a ottenere un albero senza radici che abbia un senso). Questa attrazione dei rami lunghi rappresenta il classico caso in cui l'aggiunta di caratteri aggiuntivi non migliora la qualità del preventivo. Quando si aggiungono taxa, i rami lunghi vengono "spezzati", migliorando la stima dei cambiamenti negli stati caratteriali lungo questi rami filogenetici. In altre parole, è possibile in alcuni casi ottenere un'inferenza filogenetica soddisfacente, con centinaia di taxa, utilizzando solo poche centinaia di caratteri.
Sebbene sia stato condotto un gran numero di studi su questo argomento, vi sono ancora progressi significativi da compiere nell'area della strategia di campionamento. Con l'aumento della capacità di calcolo e la diminuzione dei costi (in tempo e denaro, grazie all'automazione dei processi di sequenziamento ) per ottenere ed elaborare un ampio dataset, gli studi che trattano centinaia di taxa e diverse migliaia di paia di basi (kB) vengono diventando comune. Le osservazioni empiriche raddoppiano i progressi compiuti nella modellazione / simulazione e le strategie di campionamento e analisi vengono affinate di anno in anno (non solo per la massima parsimonia).
È anche possibile applicare pesi diversi ai tratti individuali il più con parsimonia possibile. Tradizionalmente, questi pesi vengono applicati rispetto a un "costo evolutivo" unitario. Alcuni caratteri saranno quindi considerati come un migliore riflesso delle relazioni evolutive "reali" tra i taxa , e saranno quindi pesati di 2 o più. Le modifiche a questi personaggi verranno conteggiate come 2, anziché solo una, quando si calcola il punteggio (vedi sopra). La ponderazione dei personaggi è stata fonte di molti dibattiti. Il caso più comunemente osservato è la stessa ponderazione per tutti i caratteri, sebbene le eccezioni siano comuni. Ad esempio, la terza posizione di un codone è nota per essere particolarmente labile (a causa dell'importante sinonimia del codice genetico , rispetto a questa posizione) e può essere sottopeso a causa di questa considerazione (a causa della potenziale forte omoplasia di queste 3 ° posizioni) . In alcuni casi, sebbene vi si possa vedere un ragionamento circolare, le analisi possono essere effettuate riponderando i caratteri secondo i gradi di omoplasia che si riscontrano in una prima analisi.
I cambiamenti di carattere possono anche essere ponderati individualmente. Questo è spesso il caso dei dati di sequenza nucleotidica. Empiricamente, è stato dimostrato che alcune occorrenze di cambiamenti di base sono più frequenti di altre. Questa realtà trova le sue basi nella natura biochimica delle basi e nelle loro reazioni ai mutageni , siano essi trascrizionali, fisici o chimici. È noto, ad esempio, che le transizioni tra purina e pirimidina sono più frequenti delle transizioni , vale a dire un cambiamento di basi accompagnato da un cambiamento di famiglia chimica.
Benefici:
Svantaggi: