I database biologici sono biblioteche che elencano le informazioni sulle scienze della vita raccolte attraverso esperimenti scientifici alla letteratura pubblicata, alle tecnologie sperimentali a banda larga e all'analisi del computer. Contengono informazioni provenienti da vari campi di ricerca come genomica , proteomica , metabolomica , filogenetica e DNA microarrays . Tra i contenuti dei database vi sono le informazioni sulla funzione, la struttura, la localizzazione ( cellulare e cromosomica ) dei geni e gli effetti clinici delle loro mutazioni , nonché le loro somiglianze in sequenza e struttura.
Questi database sono strumenti importanti per gli scienziati perché consentono loro di comprendere e spiegare molti fenomeni biologici che vanno dalla struttura delle biomolecole e le loro interazioni all'intero metabolismo degli organismi e persino all'evoluzione delle specie . Questa conoscenza facilita la gestione delle patologie, consente la creazione di nuovi farmaci e consente la scoperta di relazioni interspecie nel corso della storia della vita.
La conoscenza della biologia è oggetto di tutti i tipi di banche dati specializzate o generali. Di conseguenza, a volte è difficile garantire la coerenza delle informazioni. La Bioinformatica Integrativa mira a risolvere questo problema fornendo un accesso unificato. La nozione di numero di accesso in bioinformatica consente di collegare tra loro i contenuti delle varie banche dati.
I concetti di database relazionale (proveniente dal informatica ) e recupero delle informazioni (sulle biblioteche elettroniche ) sono importanti per comprendere banche dati biologiche. La loro progettazione, sviluppo e manutenzione a lungo termine è un'area chiave della bioinformatica . Sono spesso descritti come dati semi- strutturati e possono assumere la forma di tabelle , strutture XML , ecc.
La rivista Nucleic Acids Research (NAR) pubblica ogni anno un'edizione speciale chiamata The Database Issue of NAR , che è disponibile gratuitamente. Classifica gran parte dei database online disponibili al pubblico relativi alla biologia e alla bioinformatica . Questa edizione è accompagnata da The Online Molecular Biology Database Collection , un elenco di 1.380 database. Esistono altre raccolte di database, come MetaBase o Bioinformatics Links Collection .
La maggior parte dei database biologici è accessibile sui siti Web in cui gli utenti possono consultare le informazioni. In generale, è anche possibile scaricare i dati in vari formati: testo, dati di sequenziamento, strutture proteiche o collegamenti. Per esempio :
Per alcune specie, soprattutto quelle che vengono spesso utilizzate per la ricerca, esistono banche dati specializzate. Colibase è ad esempio dedicato a E. coli . Troviamo anche FlyBase per Drosophila , WormBase per i nematodi C. elegans e C. briggsae , EuPathDB per patogeni eucariotici .