La memorizzazione dei dati digitali del DNA si riferisce al processo di codifica e decodifica di dati binari da e verso filamenti di DNA sintetici.
Sebbene il DNA abbia un enorme potenziale come supporto di memorizzazione a causa della sua elevata densità di memorizzazione, il suo uso pratico è attualmente fortemente limitato a causa del suo costo elevato e delle velocità di lettura e scrittura molto lente.
Nel giugno 2019, Gli scienziati riferiscono che 16 GB di testo della versione inglese di Wikipedia sono stati codificati con successo nella sintesi del DNA (in) .
Attualmente , La tecnologia di sequenziamento del DNA più utilizzata è quella sviluppata da Illumina , che prevede l'immobilizzazione di un singolo filamento di DNA su un supporto solido, la reazione a catena della polimerasi delle sequenze e l'etichettatura di singole basi azotate con complementari basi azotate stesse marcate da sonde fluorescenti . Il pattern di fluorescenza (un colore diverso per ciascuna delle quattro basi azotate) può quindi essere catturato in un'immagine ed elaborato per determinare la sequenza del DNA. Un'alternativa recentemente sviluppata è la tecnologia dei nanopori in cui le molecole di DNA vengono fatte passare attraverso un poro su scala nanometrica sotto il controllo di un enzima a cricchetto. Il passaggio delle molecole di DNA provoca un piccolo cambiamento nella corrente elettrica che può essere misurata. Il vantaggio principale di questa tecnologia è che può essere letta in tempo reale. Tuttavia, la precisione di lettura di questa tecnologia è attualmente Insufficiente per l'archiviazione dei dati.
La sintesi viene eseguita da diversi processi, la via chimica è dominante nel 2020.
È possibile incapsulare il DNA in nanosfere di silice. Conservandoli in capsule di acciaio inossidabile, si stima che si possa raggiungere una durata di 50.000 anni.
Il codice genetico degli organismi viventi può essere potenzialmente cooptato per memorizzare informazioni. Inoltre, la biologia sintetica può essere utilizzata per progettare cellule con "registratori molecolari" per consentire l'archiviazione e il recupero delle informazioni memorizzate nel materiale genetico della cellula. CRISPR-Cas9 può essere utilizzato anche per inserire sequenze di DNA artificiale nel genoma della cellula.
L'idea di immagazzinare informazioni digitali sul DNA risale al 1959, quando il fisico Richard P. Feynman , nella sua conferenza " There's Plenty of Room at the Bottom (en) ", descrive le prospettive generali dell'evoluzione riguardante la creazione di oggetti artificiali simili a oggetti nel dominio microscopico (incluso quello biologico) e aventi capacità simili o anche più estese. Nel 1964-65, Mikhail Samoilovich Neiman (en) , fisico sovietico, pubblicò 3 articoli sulla microminiaturizzazione in elettronica su scala atomico-molecolare, dove presentava indipendentemente considerazioni generali e alcuni calcoli riguardanti la possibilità di registrare, immagazzinare e recuperare informazioni su Molecole di DNA e RNA. Dopo la pubblicazione del primo articolo di Neiman e dopo aver ricevuto dall'editore il manoscritto del suo secondo articolo (il8 gennaio 1964, come si nota in questo articolo), viene pubblicata l'intervista a Norbert Wiener , padre della cibernetica. Wiener esprime idee sulla miniaturizzazione della memoria del computer, vicino alle idee proposte da Neiman, in modo indipendente. Idee da Wiener che Neiman ha citato nel terzo dei suoi articoli.
Uno dei primi utilizzi dell'archiviazione dei dati del DNA è avvenuto nel 1988 grazie alla collaborazione tra l'artista Joe Davis ei ricercatori di Harvard . L'immagine, registrata in una sequenza di DNA di un batterio E. coli , è formata come una matrice di 5 righe per 7 colonne che, una volta decodificata, forma l'immagine di un'antica runa germanica che rappresenta la vita e la Terra femminile. Nella matrice, gli 1 corrispondono ai pixel scuri mentre gli 0 corrispondono ai pixel chiari.
Nel 2007, presso l' Università dell'Arizona è stato creato un dispositivo che utilizza molecole mirate per codificare i siti di mancata corrispondenza in un filamento di DNA . Queste discrepanze possono quindi essere lette eseguendo la digestione con enzimi di restrizione , consentendo così il recupero dei dati.
Nel 2011, George Church , Sri Kosuri e Yuan Gao hanno condotto un esperimento nel tentativo di codificare un libro di 659 KB co-autore di Church. Per fare ciò, il team di ricerca ha creato una corrispondenza due a uno in cui uno 0 binario era rappresentato da un'adenina o una citosina e un 1 binario era rappresentato da una guanina o una timina. All'esame, sono stati trovati 22 errori nel DNA.
Nel 2012, George Church e i suoi colleghi della Harvard University codificano il DNA con informazioni digitali che comprendono una versione HTML di un libro di 53.400 parole scritto dal ricercatore principale, undici immagini in formato JPEG e un programma JavaScript . Più copie vengono aggiunte per ridondanza e 5,5 petabit possono essere memorizzati in ogni millimetro cubo di DNA. Viene utilizzato un codice semplice in cui i bit sono mappati uno ad uno con le basi, che ha lo svantaggio di portare a lunghe esecuzioni della stessa base, la cui sequenza è soggetta a errori. Questo risultato ha mostrato che oltre alle sue altre funzioni, il DNA può anche essere un tipo di supporto di memorizzazione come dischi rigidi e nastri magnetici .
Nel 2013, i ricercatori dell'Istituto europeo di bioinformatica (EBI) hanno presentato un articolo all'incirca nello stesso periodo dell'articolo di Church e colleghi che riportava l'archiviazione, il recupero e la riproduzione di oltre cinque milioni di bit di dati con una fedeltà tra il 99,99% e il 100 %. Le principali innovazioni in questo lavoro di ricerca sono state l'uso di un meccanismo di correzione degli errori per garantire un tasso di perdita di informazioni estremamente basso, nonché l'idea di codificare i dati in una serie di brevi oligonucleotidi se sovrapposti, e identificabili grazie a un meccanismo di indicizzazione dalle sequenze. Inoltre, le sequenze dei singoli filamenti di DNA si sovrapponevano in modo tale che ogni porzione di dati fosse ripetuta quattro volte per evitare errori (ridondanza). Due di questi quattro fili sono stati costruiti capovolti, anche allo scopo di eliminare gli errori. I costi per megabyte sono stati stimati in $ 12.400 per la codifica dei dati e $ 220 per il recupero. Tuttavia, è stato notato che la diminuzione esponenziale della sintesi del DNA e dei costi di sequenziamento, se continuata in futuro, dovrebbe rendere la tecnologia praticabile per l'archiviazione dei dati a lungo termine entro il 2023.
Nel 2013, il software chiamato "DNACloud" è stato sviluppato da Manish K. Gupta e dai suoi colleghi per codificare i file del computer nel DNA. Questa è una versione meno impegnativa per la memoria dell'algoritmo proposto da Goldman et al. per codificare (e decodificare) i dati del DNA (file .dnac).
Un articolo sulla stabilità a lungo termine dei dati codificati nel DNA, scritto da ricercatori del Politecnico federale di Zurigo , appare infebbraio 2015. Il team aggiunge ridondanza tramite il codice Reed-Solomon e incapsulando il DNA in sfere di vetro di silice tramite il processo Sol-gel .
Nel 2016, Church e Technicolor Research and Innovation hanno pubblicato un articolo in cui 22 megabyte di filmati video compressi in formato MPEG vengono archiviati e recuperati tramite DNA. Si è riscontrato che la sequenza recuperata non conteneva errori.
Nel marzo 2017, Yaniv Erlich (in) e Dina Zielinski della Columbia University e del New York Genome Center (en) hanno pubblicato un metodo chiamato "DNA Fontaine" che memorizza i dati a una densità di 215 petabyte per grammo di DNA. La tecnica si avvicina alla capacità del canale di immagazzinamento del DNA, raggiungendo l'85% del limite teorico. Il metodo non è quindi pronto per l'uso su larga scala, in quanto costa $ 7000 per sintetizzare 2 megabyte di dati e $ 2000 per leggerlo.
Nel marzo 2018, l' Università di Washington e Microsoft pubblicano risultati che dimostrano l'archiviazione e il recupero di circa 200 megabyte di dati. Questi risultati propongono e valutano anche un metodo di accesso diretto ai dati memorizzati nel DNA. Nelmarzo 2019, lo stesso team annuncia di aver dimostrato un sistema completamente automatizzato per codificare e decodificare i dati nel DNA.
Nel gennaio 2019, un articolo pubblicato dai ricercatori dell'Eurecom e dell'Imperial College di Londra dimostra la possibilità di archiviare dati strutturati nel DNA sintetico. L'articolo mostra come codificare dati strutturati, o più precisamente relazionali, in DNA sintetico e mostra come eseguire operazioni di elaborazione dati (simili a SQL ) direttamente sul DNA attraverso processi chimici.
Nel giugno 2019, gli scienziati riferiscono che i 16 GB di Wikipedia sono stati codificati in DNA sintetico.
Il primo articolo che descrive l'archiviazione dei dati sulle sequenze di DNA nativo tramite tacche enzimatiche è stato pubblicato in aprile 2020. Nell'articolo, gli scienziati dimostrano un nuovo metodo di registrazione delle informazioni nello scheletro del DNA che consente l'accesso diretto bit per bit e il calcolo in memoria.
Il 21 gennaio 2015, Nick Goldman (in) l' European Bioinformatics Institute (EBI), uno degli autori originali dell'articolo Nature 2013 annuncia la Bitcoin Challenge Davos all'incontro annuale del World Economic Forum di Davos. Durante la sua presentazione, vengono distribuiti al pubblico tubi di DNA, ciascuno dei quali contiene la chiave privata codificata nel DNA di esattamente un bitcoin . La sfida è sequenziare e decodificare il DNA, il primo a farlo può rivendicare il bitcoin. La durata della sfida è fissata in tre anni e deve concludersi se nessuno reclama il premio prima del21 gennaio 2018.
Nel gennaio 2020, l' Intelligence Advanced Research Projects Activity (IARPA) finanzia due consorzi pubblici privati con l'obiettivo, in 4 anni, di poter immagazzinare 1 terabyte di dati in 24 ore ad un costo inferiore a 1000 dollari. Un consorzio è guidato dal Broad Institute (in) e coinvolge in particolare la società francese DNA Script , mentre l'altro coinvolge anche l' Università di Washington e Twist Bioscience .
Il concetto di DNA oggetto è stato presentato nel 2019 da un team di ricercatori israeliani e svizzeri. Si riferisce alla codifica dei dati digitali in molecole di DNA, che vengono poi integrate negli oggetti. A differenza dell'Internet of Things , che è un sistema di dispositivi informatici interdipendenti, il DNA of Things crea oggetti che sono oggetti di archiviazione indipendenti e completamente off-grid .