Il codice genetico è l'insieme di regole che consentono di tradurre le informazioni contenute nel genoma delle cellule viventi per sintetizzare le proteine . In senso lato, stabilisce la corrispondenza tra il genotipo e il fenotipo di un organismo . Questo codice si basa in particolare sulla corrispondenza tra, da un lato, triplette di nucleotidi , chiamate codoni , sull'RNA messaggero e, dall'altro, gli amminoacidi proteinogenici incorporati nelle proteine sintetizzate durante la fase di traduzione dell'RNA messaggero dai ribosomi .
Con poche eccezioni, ogni codone corrisponde a un singolo amminoacido proteinogenico. Poiché l'informazione genetica è codificata esattamente allo stesso modo nei geni della stragrande maggioranza delle diverse specie viventi , questo codice genetico specifico è generalmente indicato come codice genetico standard, o canonico, o anche semplicemente come "Il". Codice genetico ; esistono tuttavia un certo numero di varianti a questo codice genetico, ma generalmente limitate a pochi codoni. Tali varianti esistono, ad esempio, all'interno delle stesse cellule umane, tra il loro citosol e i loro mitocondri .
La corrispondenza tra codoni dell'RNA messaggero e amminoacidi proteinogenici è generalmente presentata sotto forma di tabelle che associano ciascuno dei 64 codoni, o triplette di quattro possibili basi nucleiche ( 4 3 = 64 ), con uno dei 22 amminoacidi proteinogenici.
Per estensione, e impropriamente, il grande pubblico a volte chiama "codice genetico" quello che è in realtà il genotipo di una cellula, vale a dire tutti i suoi geni .
Durante l'espressione delle proteine dal genoma , segmenti di DNA genomico vengono trascritti nell'RNA messaggero . Questo RNA messaggero (o mRNA) contiene regioni non codificanti, che non vengono tradotte in proteine, e una o più regioni codificanti, che vengono tradotte dai ribosomi per produrre una o più proteine . L'MRNA è costituito dalla sequenza di quattro tipi di basi nucleiche , A , C , G e U , che costituiscono le " lettere " con cui è scritto il codice genetico. Quest'ultimo è costituito da " parole " di 3 lettere (nucleotidi) chiamate codoni . Nelle regioni codificanti dell'RNA messaggero, ogni codone viene tradotto in uno dei 22 amminoacidi proteinogenici nella proteina da sintetizzare.
Il numero di parole di tre lettere prese da un alfabeto di quattro lettere è 4 3 , il codice genetico comprende 64 codoni diversi, che codificano direttamente 20 cosiddetti amminoacidi "standard", nonché il segnale di fine traduzione, quest'ultimo essendo codificato da uno dei 3 codoni di stop o codoni di terminazione. Due rari amminoacidi, selenocisteina e pirrolisina , vengono inseriti a livello di determinati codoni di stop, la cui ricodificazione in codoni amminoacidici avviene in presenza di particolari strutture del tipo stelo-loop o tornante, indotte da specifiche sequenze di inserzione sul messaggero RNA.
Un codone è definito dal primo nucleotide da cui inizia la traduzione . Pertanto la catena GGGAAACCC può essere letta secondo i codoni GGG · AAA · CCC, GGA · AAC e GAA · ACC a seconda che la lettura del codone sia iniziata rispettivamente dal primo, secondo o terzo nucleotide. Qualsiasi sequenza nucleotidica può quindi essere letta secondo tre distinti frame di lettura, che si traducono in traduzioni in amminoacidi completamente differenti: nel nostro esempio avremmo rispettivamente gli amminoacidi Gly - Lys - Pro , Gly - Asn e Glu - Thr .
Nei geni, il quadro di lettura inizia generalmente con un codone AUG che codifica per la metionina , o N- formilmetionina nei batteri e nei mitocondri e nei cloroplasti degli eucarioti .
La traduzione genetica da parte del ribosoma inizia con un codone di inizio , a volte chiamato codone di inizio. A differenza dei codoni di stop , il codone di inizio da solo non è sufficiente per avviare la traduzione. Il sito di legame del ribosoma ( RBS ) nei procarioti e i fattori di inizio nei procarioti e negli eucarioti sono essenziali per l'inizio della traduzione. Il codone di iniziazione più comune è AUG, corrispondente alla metionina o, nei batteri , alla N- formilmetionina . GUG e UUG, che corrispondono rispettivamente a valina e leucina nel codice genetico standard, possono anche essere codoni di inizio in alcuni organismi, essendo in questo caso interpretati come codoni per metionina o N- formilmetionina .
I tre codoni di stop UAG, UGA e UAA, hanno ricevuto nomi durante la loro scoperta, rispettivamente ambra , opale e ocra . Sono anche chiamati codoni di arresto o codoni di terminazione. Causano l'arresto del ribosoma e il rilascio della catena polipeptidica neoformata per l'assenza di RNA di trasferimento avente anticodoni adatti (non c'è amminoacido corrispondente alle triplette UAG, UGA e UAA), che causa il legame di un fattore di terminazione .
Dopo la replicazione del DNA , possono verificarsi errori di trascrizione durante la polimerizzazione del secondo filamento di DNA da parte della DNA polimerasi . Questi errori, chiamati mutazioni , possono avere conseguenze sul fenotipo di un essere vivente , soprattutto se si verificano nelle regioni codificanti di un gene . Il tasso di errore è generalmente molto basso, dell'ordine di un errore di replicazione in diecimila milioni di basi replicate attraverso la funzione di correzione e correzione di bozze ( correzione di bozze ) DNA polimerasi.
Missenso mutazioni e nonsenso mutazioni sono esempi di mutazioni puntiformi , che possono causare malattie genetiche quali l'anemia falciforme e talassemia, rispettivamente . Mutazioni missenso che hanno un impatto fisiologico importante sono quelle che portano a modificare la natura fisico-chimica - ad esempio l' impedimento sterico , la natura idrofila o idrofobica , la carica elettrica , la natura acida o basica - di un residuo di amminoacido importante per la funzione della proteina modificata. Le mutazioni non senso portano alla prematura introduzione di un codone di stop nella sequenza della proteina da trascrivere, che viene così troncata e quindi la funzione fisiologica nei tessuti è generalmente alterata.
Le mutazioni che influenzano la trascrizione per indel - inserzioni e delezioni - di un numero di nucleotidi non multiplo di 3 corrispondono ad uno spostamento del frame di lettura . Tali mutazioni generalmente danno luogo ad un polipeptide totalmente diverso dall'originale, sia nella sequenza dei residui amminoacidici tradotti che nella lunghezza della catena polipeptidica prodotta, poiché la posizione dei codoni di stop è generalmente alterata durante tale mutazione. È probabile che queste mutazioni rendano inoperative le proteine risultanti, rendendole molto rare nelle sequenze codificanti proteine perché spesso sono incompatibili con la sopravvivenza dell'organismo colpito. Quando si verificano, possono causare gravi malattie genetiche come la malattia di Tay-Sachs .
Sebbene la stragrande maggioranza delle mutazioni che influiscono sulla sequenza proteica siano deleterie o irrilevanti, alcune possono avere effetti benefici. Alcune di queste mutazioni possono, ad esempio, consentire agli organismi in cui si verificano di resistere a condizioni di stress ambientale meglio della forma selvatica o di moltiplicarsi più rapidamente. Queste mutazioni sono quindi favorite dalla selezione naturale . I virus a RNA hanno un alto tasso di mutazione, il che è un vantaggio per loro che consente loro di evolversi continuamente ed eludere il sistema immunitario del loro ospite . In vaste popolazioni di organismi che si riproducono asessualmente, ad esempio in E. coli , possono verificarsi contemporaneamente diverse mutazioni benefiche; questo fenomeno si chiama interferenza clonale e si manifesta nella competizione tra queste diverse mutazioni, portando spesso alla generalizzazione di una di esse a scapito delle altre.
Il fatto che i 64 codoni codificano solo 22 aminoacidi proteinogenici , più i codoni di terminazione, porta a moltissime ridondanze. Ciò fa sì che un amminoacido standard venga codificato in media da tre codoni distinti, fino a sei codoni diversi. Stiamo parlando anche di codoni. Dei 20 amminoacidi standard, solo la metionina e il triptofano sono codificati da un solo codone, mentre l' asparagina , l' aspartato , la cisteina , il glutammato , la glutammina , l' istidina , la lisina , la fenilalanina e la tirosina sono codificati da due codoni distinti, l' isoleucina e la terminazione della traduzione sono codificati da tre codoni distinti, la treonina , la prolina , l' alanina , una glicina e la valina sono codificati da quattro codoni differenti e l' arginina , la leucina e la serina sono codificati da sei codoni. Ci sono quindi spesso diversi RNA di trasferimento associati allo stesso amminoacido, in grado di legarsi alle diverse triplette degenerate di nucleotidi sull'RNA. Si parla quindi di isoaccettori del tRNA, perché accettano lo stesso amminoacido.
L'uso da parte di un dato organismo dei diversi codoni sinonimi per un amminoacido non è casuale. Generalmente osserviamo ciò che viene chiamato bias di utilizzo del codice . La cellula generalmente esprime preferenze piuttosto marcate nella scelta dei codoni sinonimi, quindi per esempio, il codone AUA che codifica per l' isoleucina è ampiamente evitato negli esseri umani come in Escherichia coli , rispetto agli altri due codoni sinonimi AUU e AUC. Questa preferenza per l'uso del codone varia notevolmente a seconda dell'organismo e dipende, all'interno dello stesso genoma , dalla frazione considerata ( nucleare , mitocondriale , cloroplastica ). D'altra parte, è abbastanza generale per tutti i geni portati dalla stessa frazione del genoma.
Se il codice genetico è degenere, però, non è ambiguo: ogni codone normalmente specifica un solo amminoacido e uno. Ogni amminoacido standard è codificato in media da tre differenti codoni, così che, statisticamente, una mutazione su tre non porta ad alcuna modifica della proteina tradotta: tale mutazione si dice quindi silente. Una conseguenza pratica di questa degenerazione è che una mutazione sul terzo nucleotide di un codone causa generalmente solo una mutazione silente o la sostituzione di un residuo con un altro avente le stesse proprietà idrofile o idrofobiche , acide o basiche , e allo stesso modo ostacolo sterico .
Ci si aspetterebbe che le frequenze sinonime del codone per un dato amminoacido sarebbero equivalenti, ma al contrario gli studi trovano una prevalenza di codoni (in inglese: codon bias) che tende ad influenzare la struttura finale delle proteine. Questa prevalenza sperimenterebbe anche una certa variabilità tra le linee.
È sul codice genetico che si basa la biosintesi delle proteine . Il DNA viene trascritto in RNA messaggero (RNA m ). Questo è tradotto dai ribosomi che assemblano gli amminoacidi presenti sull'RNA di trasferimento (RNA t ). L'RNA t contiene un " anti-codone ", complementare a un codone, e trasporta il corrispondente codone dell'amminoacido. L'esterificazione specifica dell'amminoacido corrispondente a un dato tRNA viene effettuata dalle aminoacil-tRNA sintetasi , una famiglia di enzimi ciascuno specifico per un dato amminoacido. Durante la traduzione, il ribosoma RNA letto codone m per codone, collega un codone RNA m con l'anti-codone di un RNA t e aggiunge l'amminoacido trasportato da quest'ultimo alla proteina che viene sintetizzata.
La tabella seguente riporta il significato standard di ciascuna codone di tre basi azotate di RNA messaggero . Le principali codifiche alternative sono indicate dopo una barra :
1 ° Base |
2 ° Base |
3 rd Base |
|||||||
---|---|---|---|---|---|---|---|---|---|
U | VS | A | G | ||||||
U | UUU | F Phe | UCU | S Ser | UAU | Y Tyr | UGU | C Cys | U |
UUC | F Phe | UCC | S Ser | UAC | Y Tyr | UGC | C Cys | VS | |
UUA | L Leu | UCA | S Ser | UAA | Stop ocra | UGA | Stop opale /U Sec /W Trp | A | |
UUG | L Leu / iniziazione | UCG | S Ser | UAG | Stop ambra /O Pyl | UGG | W Trp | G | |
VS | CUU | L Leu | CCU | P Pro | CAU | H Il suo | CGU | R Arg | U |
CUC | L Leu | CCC | P Pro | CAC | H Il suo | CGC | R Arg | VS | |
AUC | L Leu | CCA | P Pro | CAA | Q Gln | CGA | R Arg | A | |
CUG | L Leu / iniziazione | CCG | P Pro | CAG | Q Gln | CGG | R Arg | G | |
A | AUU | I Isola | ACU | T Thr | AAU | N Asn | AGU | S Ser | U |
AUC | I Isola | ACC | T Thr | AAC | N Asn | AGC | S Ser | VS | |
AUA | I Isola | A TALE | T Thr | AAA | K Gigli | AGM | R Arg | A | |
AUG | M Incontrato e iniziazione | ACG | T Thr | AAG | K Gigli | AGG | R Arg | G | |
G | GUU | V Val | GCU | A Al | GAU | D Asp | GGU | G Gly | U |
GUC | V Val | GCC | A Al | GAC | D Asp | GGC | G Gly | VS | |
GUA | V Val | GCA | A Al | GAA | E Colla | GGA | G Gly | A | |
GUG | V Val | GCG | A Al | BAVAGLIO | E Colla | GGG | G Gly | G |
Un modo compatto di rappresentare le stesse informazioni utilizza i simboli degli amminoacidi di una lettera:
Acide aminé : FFLLSSSSYY**CC*WLLLLPPPPHHQQRRRRIIIMTTTTNNKKSSRRVVVVAAAADDEEGGGG Initiation : ···M···············M···············M···························· 1re base : UUUUUUUUUUUUUUUUCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG 2e base : UUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGG 3e base : UCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAG Tabella inversaPoiché ogni amminoacido di una proteina è codificato da uno o più codoni, a volte è utile fare riferimento alla tabella seguente; le principali codifiche alternative sono indicate in piccoli caratteri tra parentesi.
Amminoacido | Codoni | Compatto | |||
---|---|---|---|---|---|
Alanina | A | Al | GCU, GCC, GCA, GCG. | GCN | |
Arginina | R | Arg | CGU, CGC, CGA, CGG; AGA, AGG. | CGN, MGR | |
Asparagina | NON | Asn | AAU, AAC. | AAY | |
Acido aspartico | D | Asp | GAU, GAC. | GAY | |
Cisteina | VS | Cys | UGU, UGC. | UGY | |
Glutammina | Q | Gln | CAA, CAG. | PERCHÉ | |
Acido glutammico | E | Colla | GAA, GAG. | GAR | |
Glicine | G | Gly | GGU, GGC, GGA, GGG. | GGN | |
Istidina | H | Il suo | CAU, CAC. | CAY | |
Isoleucina | io | Isola | AUU, AUC, AUA. | AUH | |
Leucina | L | Leu | UUA, UUG; CUU, CUC, CUA, CUG. | YUR, CUN | |
Lisina | K | Gigli | AAA, AAG. | AAR | |
Metionina | M | Incontrato | AUG. | ||
Fenilalanina | F | Phe | UUU, UUC. | UUY | |
Proline | P | Pro | CCU, CCC, CCA, CCG. | CCN | |
Pirrolisina | O | Pyl | UAG, prima dell'elemento PYLIS . | ||
Selenocisteina | U | Asciutto | UGA, con sequenza SECIS . | ||
Serina | S | Ser | UCU, UCC, UCA, UCG; AGU, AGC. | UCN, AGY | |
Treonina | T | Thr | ACU, ACC, ACA, ACG. | ACN | |
Triptofano | W | Trp | UGG. (UGA) | ||
Tirosina | Y | Tyr | UAU, UAC. | UAY | |
Valina | V | Val | GUU, GUC, GUA, GUG. | PISTOLA | |
Iniziazione | AUG. (UUG, CUG) | ||||
Risoluzione | * | UAG, UAA; UGA. | UAR, URA |
La regione codificante di un mRNA termina con un codone di stop . Esistono tre codoni di arresto (UAG, UAA e UGA) che attivano l'arresto della traduzione da parte del ribosoma e il rilascio della proteina completata.
L'esistenza di varianti al codice genetico è stata dimostrata nel 1979 con il codice genetico dei mitocondri umani , e più in generale quello dei mitocondri vertebrati :
Acide aminé : FFLLSSSSYY**CCWWLLLLPPPPHHQQRRRRIIMMTTTTNNKKSS**VVVVAAAADDEEGGGG Initiation : ································MMMM···············M············ 1re base : UUUUUUUUUUUUUUUUCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG 2e base : UUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGG 3e base : UCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGDa allora sono state osservate molte altre varianti del codice genetico, comprese diverse varianti mitocondriali e lievi varianti come la traduzione del codone UGA da parte del triptofano piuttosto che un codone di stop in Mycoplasma e la traduzione del codone CUG da parte della serina invece che della leucina in alcuni lieviti come la Candida albicans . La tabella sottostante riassume alcune importanti varianti del codice genetico:
Codoni di RNA messaggero | UGA | CUU | CUC | AUC | CUG | GUG | CGA | CGC | AUU | AUC | AUA | AGM | AGG |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Codice genetico standard | Termine | Leu | Leu | Leu | Leu | Val | Arg | Arg | Isola | Isola | Isola | Arg | Arg |
Mitocondri dei vertebrati | Trp | Dentro | Dentro | Dentro | Termine | Termine | |||||||
Mitocondri delle ascidie | Trp | Dentro | Dentro | Dentro | Gly | Gly | |||||||
Mitocondri di lievito | Trp | Thr | Thr | Thr | Thr | Addominali | Addominali | Dentro | |||||
Mitocondri degli invertebrati | Trp | Dentro | Dentro | Dentro | Ser | Ser | |||||||
Batteri , archei e plastidi delle piante | Dentro | Dentro | Dentro | Dentro |
Nella misura in cui i virus si riproducono utilizzando le risorse metaboliche - e quindi il codice genetico - dei loro ospiti , è probabile che una variazione del codice genetico influenzi le proteine sintetizzate e quindi la loro capacità di riprodursi; alcuni virus, come quelli del genere Totivirus (en) , si sono così adattati alle variazioni del codice genetico del loro ospite. In batteri e archaea , GUG e UUG sono codoni di iniziazione comuni, ma in alcuni rari casi alcune proteine utilizzano codoni di iniziazione che normalmente non sono quelli di queste specie.
Alcune proteine utilizzano amminoacidi non standard codificati da codoni di stop in presenza di particolari sequenze sull'RNA messaggero . Pertanto, il codone di stop UGA può essere ricodificato in selenocisteina in presenza di un elemento SECIS mentre il codone di stop UAG può essere ricodificato in pirrolisina in presenza di un elemento PYLIS . A differenza della selenocisteina, la pirrolisina è collegata al suo RNA di trasferimento da un'amminoacil-tRNA sintetasi dedicata. Questi due amminoacidi non standard possono essere presenti nello stesso organismo ma utilizzano modalità di espressione differenti. Un archea come l' Acetohalobium arabaticum è in grado, a seconda delle condizioni del suo ambiente, di estendere il proprio codice genetico da 20 a 21 amminoacidi includendo la pirrolisina.
Tutte queste differenze rimangono marginali nonostante tutto, ei codici genetici di tutti gli organismi rimangono sostanzialmente molto simile: si basano su codoni adiacenti di tre RNA messaggero nucleotidi, leggere sempre nella stessa direzione dai ribosomi che assemblano le proteine da ' ammino proteinogenici acidi in una sequenza determinata facendo corrispondere l' anticodone del tRNA ai codoni dell'mRNA.
Ci sono non meno di 1,5 × 10 84 possibilità di codificare 21 informazioni (i 20 amminoacidi standard + la fine della traduzione) per 64 codoni , un numero che corrisponde al numero di combinazioni possibili permettendo di associare 64 codoni a 21 elementi di informazione tali che qualsiasi codone e qualsiasi elemento di informazione sia associato ad almeno una combinazione. Nonostante questo numero astronomicamente elevato, tutti i codici genetici di tutte le forme di vita conosciute sono quasi identici, essendo limitati a un piccolo numero di variazioni minori. Le ragioni di tale omogeneità universalmente osservata rimangono fondamentalmente sconosciute, sebbene siano state formulate varie ipotesi per spiegare questa situazione. Sono essenzialmente di quattro tipi:
Inoltre, la distribuzione dei codoni assegnati agli amminoacidi non è casuale. Ciò è visto dal raggruppamento di amminoacidi in codoni adiacenti. Inoltre, gli aminoacidi che condividono una via metabolica di biosintesi comune tendono anche ad avere la stessa prima base di acido nucleico nei loro codoni, mentre quelli la cui catena laterale ha proprietà fisico-chimiche simili tendono ad avere anche codoni simili, che hanno l'effetto di limitare le conseguenze di mutazioni puntiformi ed errori di traduzione . Infine, una teoria che spieghi l'origine del codice genetico dovrebbe riflettere anche le seguenti osservazioni: