Teorema di Codd

Nella teoria dei database , il teorema di Codd afferma l'equivalenza tra algebra relazionale e calcolo relazionale (limitato a query indipendenti dal dominio). Questo teorema è importante per i database relazionali , perché assicura che qualsiasi query "naturale" (cioè calcolo relazionale) possa essere tradotta in algebra relazionale, e quindi in un linguaggio di query intelligibile da un computer (in particolare SQL ). Questo teorema è stato dimostrato da Edgar Frank Codd nel 1971.

introduzione

Nel modello di database relazionale , una tabella (o relazione) contiene più attributi o campi (colonne) e più righe, chiamate tuple . Una tabella è vista come un insieme (o multinsieme nella maggior parte delle implementazioni) di tuple . Ad esempio, una tabella con due campi (Titolo e Direttore) e tre tuple.

Film

Titolo	Direttore
Colpo di frusta	Damien Chazelle
Lalaland	Damien Chazelle
Didier	Alain Chabat

Esistono due modelli matematici di query.

Nel calcolo relazionale , le query sono dichiarative . Ad esempio, la query "Dai tutti i titoli dei film diretti da Damien Chazelle" è scritta {<x> | Film (x, 'Damien Chazelle')} nel calcolo relazionale. Sono basati su insiemi, quantificatori e variabili e quindi vicini alla logica del primo ordine.
In algebra relazionale , le query sono di importanza fondamentale , cioè, viene descritto come costruire il risultato. Ad esempio, "Mantieni solo le righe della tabella in cui la seconda colonna è" Damien Chazelle "".

Calcolo relazionale

Il calcolo relazionale corrisponde alla logica del primo ordine senza un simbolo di funzione , ma con adattamenti specifici per i database relazionali. Secondo Serge Abiteboul et al., La sua introduzione risale a una relazione tecnica di JL Kuhns del 1969 in cui utilizzava formule logiche per effettuare query. Ma l'importanza del calcolo relazionale è cresciuta con Codd.

Alcune query dipendono dal dominio. Ad esempio, "dai tutti i titoli dei film che non sono nella relazione Film" è una richiesta per la quale è necessario specificare il dominio. Ad esempio, con il dominio {Whiplash, Lalaland, Didier, Damien Chazelle, Alain, Chabat}, la risposta è vuota. Ma, con il dominio {Whiplash, Lalaland, Didier, Damien Chazelle, Alain, Chabat, Star Wars}, la risposta è {Star Wars}. Estendiamo la semantica di una formula spiegando precisamente il dominio in cui stiamo lavorando. Parliamo di interpretazione relativizzata: una query viene valutata in un database provvisto di dominio.

Il dominio attivo di un database è l'insieme di elementi che appaiono nel database. Nell'esempio sopra, è {Whiplash, Lalaland, Didier, Damien Chazelle, Alain, Chabat}.

Una query è indipendente dal dominio se la sua soluzione è indipendente dal dominio e dipende solo dal database. Ad esempio, "Dai tutti i titoli dei film diretti da Damien Chazelle" è indipendente dal dominio. D'altra parte, "dare tutti i titoli dei film che non sono nella relazione Film", dipende dal dominio.

Per le query indipendenti dal dominio, è quindi sufficiente eseguire la query su un database utilizzando il dominio attivo.

Algebra relazionale

L'algebra relazionale descrive le operazioni sulle relazioni. In questo articolo, siamo interessati alle seguenti operazioni:

Prendi una relazione R
Prendete m tuple della stessa arità
Selezione (mantieni solo le tuple che verificano una determinata proprietà)
Proiezione (dimentica i campi)
Prodotto cartesiano di due relazioni
Unione di due relazioni
Differenza di due relazioni

Dichiarazioni

Una prima versione del teorema di Codd afferma l'equivalenza tra calcolo connettivo (solo le congiunzioni sono usate nelle query di calcolo relazionale) e l'algebra SPC (prendi una relazione R, prendi m tuple, selezioni, proiezioni, prodotti cartesiani) soddisfacente.

Una seconda versione del teorema di Codd afferma l'equivalenza tra algebra relazionale (intera) e calcolo relazionale limitato a query indipendenti dal dominio.

Dimostrazione

Algebra relazionale al calcolo relazionale

La tabella seguente mostra come trasformare una query di algebra relazionale senza nome in una query di calcolo relazionale equivalente, indipendente dal dominio. La costruzione avviene per induzione su richiesta dell'algebra relazionale. Ricordiamo che il simbolo ∨ designa la disgiunzione (o), il simbolo ∧ designa la congiunzione (e), il simbolo ¬ designa la negazione (no).

Query di algebra relazionale	Query corrispondente nel calcolo relazionale, indipendente dal dominio
Una relazione R	R (x 1 , ... x arità (R) ) Costruiamo la formula con il simbolo del predicato R e usiamo le variabili x 1 , ... x arity (R) per parlare di tutte le tuple della relazione R.
{u 1 , ..., u m } dove u i sono tuple con la stessa arità α	(x 1 = u 1 (1) ∧ ... ∧ x α = u 1 (α)) ∨ .... (x 1 = u m (1) ∧ ... ∧ x α = u m (α) ) Diciamo che le variabili x 1 , ... x α denotano una delle tuple di {u 1 , ..., u m }
Una selezione di E con una formula F: σ F (E)	φ E ∧ F 'dove F' è la formula ottenuta sostituendo l'identificatore della coordinata i con x i Esprimiamo che stiamo parlando di una tupla di E ma che in più soddisfa F '
Proiezione di E su {i 1 , ... i n }: π i1, ... in (E)	∃y i1 ... ∃y in (x 1 = y i1 ∧ ... x n = y in ) ∧ ∃y j1 ... ∃y jl φ E (y 1 , ... y arity (E) ) dove j 1 , ..., j l = [1, arity (E)] \ {i 1 , ... i n } Le variabili libere x 1 , ... x n denotano le coordinate degli elementi di coordinate i 1 , ... i n di una tupla di E. Le altre coordinate vengono dimenticate e quantificate con ∃y j1 ... ∃y jl .
Prodotto cartesiano: E 1 × E 2	φ E1 ∧ φ E2 (x arità (E1) +1 , ... x arità (E1) + arità (E2) ) Il prodotto cartesiano è simulato da una congiunzione e uno spostamento degli indici di arità (E 1 ).
Unione: E 1 ∪ E 2	φ E1 ∨ φ E2 L'unione corrisponde a una disgiunzione.
Differenza: E 1 - E 2	φ E1 ∧ ¬φ E2 Essere nella differenza E 1 - E 2 deve essere in E 1 ma non in E 2 .

Calcolo relazionale all'algebra relazionale

Qualsiasi query nel calcolo relazionale, c'è una query in algebra relazionale che è equivalente ad essa sotto dominio attivo (e quindi in particolare qualsiasi query di calcolo relazionale che è indipendente dal dominio è scritta in algebra relazionale).

Note e riferimenti

EF Codd , " Completezza relazionale dei sottolinguaggi del database ", Database Systems , Prentice-Hall,1972, p. 65-98 ( letto online , accesso 28 maggio 2019 )
JL Kuhns , "Aspetti logici della risposta alle domande tramite computer", in SEN Report Series Software Engineering , vol. 2, Elsevier, coll. "Informatica e scienze dell'informazione - 1969",1 ° gennaio 1971( leggi in linea ) , p. 89–104
EF Codd , " A Relational Model of Data for Large Shared Data Banks ", Commun. ACM , vol. 13, n o 6,Giugno 1970, p. 377-387 ( ISSN 0001-0782 , DOI 10.1145 / 362384.362685 , letto online , accesso 28 maggio 2019 )
EF Codd , " A Data Base Sublanguage Founded on the Relational Calculus ", Atti del Workshop ACM SIGFIDET (Now SIGMOD) del 1971 sulla descrizione, accesso e controllo dei dati , ACM, sIGFIDET '71,1971, p. 35-68 ( DOI 10.1145 / 1734714.1734718 , letto online , accesso 28 maggio 2019 )
(in) Fondamenti di database: The Logical Level , Addison-Wesley Longman Publishing Co., Inc.1995, 685 p. ( ISBN 978-0-201-53771-0 , leggi online ) , p. 77 Paragrafo "Interpretazioni relativizzate"
Fondamenti di database: il livello logico , Addison-Wesley Longman Publishing Co., Inc.,1995, 685 p. ( ISBN 978-0-201-53771-0 , leggi online ) , p. 60 mila 4.4.8
(in) Fondamenti di database: The Logical Level , Addison-Wesley Longman Publishing Co., Inc.1995, 685 p. ( ISBN 978-0-201-53771-0 , leggi online ) , p. 80 (Lemma 5.3.11)
(in) Fondamenti di database: The Logical Level , Addison-Wesley Longman Publishing Co., Inc.1995, 685 p. ( ISBN 978-0-201-53771-0 , leggi online ) , p. 80, (Lemma (5.3.12)

Bibliografia

(en) Edgard Frank Codd , " A Relational Model of Data for Large Shared Data Banks " , CACM ,Giugno 1970