Albero B

Albero B Esempio di 3-5 B-tree

Scopritori o inventori	Rudolf Bayer , Edward M. McCreight
Data di scoperta	1972
Problema correlato	Struttura dati
Struttura dati	Albero radicato

Complessità temporale

Nel peggiore dei casi	$O (\ log n)$ , , $O (\ log n)$ $O (\ log n)$
Media	$O (\ log n)$ , , $O (\ log n)$ $O (\ log n)$

Complessità spaziale

Nel peggiore dei casi	$non$
Media	$non$

In informatica , un albero B (chiamato anche B-tree per analogia al termine inglese " B-tree ") è una struttura di dati in un albero bilanciato . Gli alberi B sono implementati principalmente nei meccanismi di gestione del database e del file system . Memorizzano i dati in una forma ordinata e consentono l'esecuzione di operazioni di inserimento ed eliminazione in tempo sempre logaritmico.

Il principio è di consentire ai nodi padre di avere più di due nodi figli: è una generalizzazione dell'albero di ricerca binario . Questo principio minimizza le dimensioni dell'albero e riduce il numero di operazioni di equilibratura. Inoltre, un albero B cresce dalla radice, a differenza di un albero binario di ricerca che cresce dalle foglie.

Il creatore degli alberi B, Rudolf Bayer , non ha spiegato il significato della "B". La spiegazione più frequente è che la B corrisponde al termine inglese " Balance " (in francese: "Balance"). Tuttavia, potrebbe anche derivare da "Bayer", dal nome del creatore, oppure da "Boeing", dal nome dell'azienda per la quale il creatore ha lavorato ( Boeing Scientific Research Labs ).

Origine

Gli alberi B furono inventati nel 1970 da Rudolf Bayer e Edward M. McCreight nei laboratori di ricerca della Boeing . L'obiettivo era quello di poter gestire le pagine indice dei file di dati, tenendo conto che il volume degli indici poteva essere così grande che solo una frazione delle pagine poteva essere caricata nella RAM. Il primo articolo che descrive il meccanismo degli alberi B è stato scritto a luglio e pubblicato inNovembre 1970.

Struttura

Struttura generale

Un albero etichettato è un albero (nel senso informatico del termine) tale che ogni nodo è associato a un'etichetta o una chiave (oppure più etichette o chiavi nel caso degli alberi B) presi da un dato insieme. Quindi formalmente un albero etichettato è una coppia formata da un grafo diretto, aciclico e connesso e da una funzione di etichettatura dell'albero che attribuisce a ciascun nodo un'etichetta o una chiave. Tra gli alberi etichettati, un albero B ha alcune proprietà specifiche aggiuntive.

Siano L e U due interi naturali diversi da zero tali che L ≤ U. In generale, definiamo un albero LU B come segue: ogni nodo, eccetto la radice, ha un minimo di L - 1 chiavi (chiamate anche elementi), un massimo di U - 1 chiavi e al massimo U bambini. Per ogni nodo interno - nodo che non è una foglia - il numero di figli è sempre uguale al numero di chiavi aumentate di uno. Se n è il numero di figli, allora parliamo di n- nodo. Un albero LU contiene solo n nodi con L ≤ n ≤ U. Spesso scegliamo la configurazione L = te U = 2 × t: t è chiamato il grado minimo dell'albero B.

Inoltre, la costruzione degli alberi B assicura che un albero B sia sempre bilanciato . Ogni chiave di un nodo interno è infatti un limite che distingue i sottoalberi di questo nodo. Ad esempio, se un nodo ha 3 figli - che costituiscono le rispettive radici di tre sottostrutture: sottoalbero sinistro, sottostruttura centrale e sottoalbero destro - allora ha 2 tasti indicati c 1 e c 2 che delimitano le chiavi di ciascun sottostruttura: la le chiavi del sottoalbero di sinistra saranno inferiori a c 1 ; le chiavi della sottostruttura centrale saranno comprese tra c 1 e c 2 ; le chiavi della sottostruttura destra saranno maggiori di c 2 .

Implementazione

Un albero B è implementato da un albero radicato. Un nodo è etichettato da: $X$

Un numero intero che corrisponde al numero di chiavi contenute nel nodo . $non$ $X$
$non$ tasti annotati . ${\ displaystyle c_ {1}, \ ldots, c_ {n}}$
Un valore booleano che indica se è una foglia o meno. $X$
${\ displaystyle n + 1}$ puntatori denotati associati ai figli di . Un foglio non contiene puntatori. ${\ displaystyle p_ {1}, \ ldots, p_ {n + 1}}$ ${\ displaystyle f_ {1}, \ ldots, f_ {n + 1}}$ $X$

Inoltre, un albero B soddisfa queste proprietà:

Tutte le foglie hanno la stessa profondità, che è l'altezza dell'albero. $h$
Se non è una foglia: X{\ displaystyle x} $X$
- Per , per un qualsiasi tasto del figlio : . ${\ displaystyle 2 \ leq i \ leq n}$ $K$ ${\ displaystyle f_ {i}}$ ${\ displaystyle c_ {i-1} \ leq k \ leq c_ {i}}$
- per un qualsiasi tasto del figlio : . $K$ ${\ displaystyle f_ {1}}$ ${\ Displaystyle k \ leq c_ {1}}$
- per un qualsiasi tasto del figlio : . $K$ ${\ displaystyle f_ {n + 1}}$ ${\ displaystyle c_ {n} \ leq k}$
Se non è né una foglia né una radice, è compreso tra L-1 e U-1. $X$ $non$

Nodo di esempio in C ++ template<typename T, size_t L> struct Noeud { size_t n; // nombre de clés utilisées bool feuille; // si ce nœud est une feuille Noeud<T, L>* parent = nullptr; // connaître le parent peut être nécessaire dans certains algorithmes T cles[L]; // tableau des clés Noeud<T, L>* branches[L + 1]; // tableau des branches, si ce n'est pas une feuille };

In pratica

Il più delle volte, la configurazione è tale che U = 2 L. Parliamo quindi di un albero B di ordine L.

Un albero B di ordine t è quindi definito più semplicemente da un albero che soddisfa le seguenti proprietà:

Ogni nodo ha al massimo le chiavi. ${\ displaystyle 2t-1}$
Ogni nodo che non è né radice né foglia ha almeno chiavi. $t-1$
Se l'albero non è vuoto, anche la radice non è vuota.
Un nodo che ha k figli contiene k - 1 chiavi.
Tutte le foglie sono alla stessa altezza.

Operazioni

Come vedremo più avanti, l'altezza di un albero B è logaritmica nel numero di elementi. Pertanto, le operazioni di ricerca, inserimento e cancellazione possono essere implementate in O (log n) nel caso peggiore, dove n è il numero di elementi.

Ricerca

La ricerca viene eseguita come in un albero di ricerca binario . Partendo dalla radice, si attraversa l'albero in modo ricorsivo; ad ogni nodo scegliamo il sottoalbero figlio le cui chiavi sono comprese tra gli stessi limiti di quelle della chiave ricercata mediante una ricerca dicotomica.

Pseudo-codice fonction Rechercher(noeud, x): i = 0 tant que i < noeud.taille et x > noeud.cles[i]: i += 1 si noeud.feuille: retourner x == noeud.cles[i] sinon: si x == noeud.cles[i]: retourner Vrai sinon si i == noeud.taille et x > noeud.cles[noeud.taille - 1]: retourner Rechercher(noeud.branches[noeud.taille], x) sinon: retourner Rechercher(noeud.branches[i], x)

In molte implementazioni, l'uguaglianza ( ) tra gli elementi è sostituita da equivalence ( ). Occorre quindi prestare attenzione a utilizzare tipi di dati in cui due elementi equivalenti sono considerati uguali. ${\ displaystyle a == b}$ ${\ Displaystyle \ neg (a <b) \ wedge \ neg (b <a)}$

Inserimento

L'inserimento richiede innanzitutto di trovare il nodo in cui inserire la nuova chiave e di inserirlo. Il resto avviene in modo ricorsivo, a seconda che un nodo abbia o meno troppe chiavi: se ha un numero accettabile di chiavi, non si fa nulla; altrimenti lo trasformiamo in due nodi, ognuno avente un numero minimo di chiavi, quindi facciamo “salire” il tasto centrale che viene poi inserito nel nodo genitore. Quest'ultimo può improvvisamente finire con un numero eccessivo di thread; il processo continua in questo modo fino a quando non viene raggiunta la radice. Se questa deve essere divisa, si fa “salire” la chiave di mezzo in una nuova radice, che genererà come nodi figli i due nodi creati a partire dalla vecchia radice, come nel passaggio precedente. Affinché l'operazione sia possibile, notiamo che U ≥ 2 L; altrimenti i nuovi nodi non avranno abbastanza chiavi.

Una variante consiste nell'esplodere preventivamente ogni nodo “pieno” (avente il numero massimo di chiavi) incontrato durante la ricerca del nodo dove avverrà l'inserimento. In questo modo evitiamo di risalire l'albero, poiché ci assicuriamo che il padre di un nodo da dividere in due possa ospitare una chiave aggiuntiva. La controparte è un leggero aumento dell'altezza media dell'albero.

Pseudo-codice fonction Inserer(x,c) n = nombre de clefs du noeud x Soit i tel que x.clef[i] > c ou i >= n Si x est une feuille : Inserer c dans x.clef a la i-ieme place Sinon: Si x.fils[i] est complet: Scinder x.fils[i] Si c > x.clef[i]: i := i+1 FinSi FinSi Inserer(x.fils[i],c) FinSi FinFonction

Cancellazione

Dobbiamo prima trovare la chiave per eliminarla ed eliminarla dal nodo che la contiene.

Se il nodo è interno, si procede in modo simile agli alberi di ricerca binari cercando la chiave più a sinistra k nella sottostruttura a destra della chiave da eliminare o quella più a destra nella sottostruttura a sinistra. Questa chiave k appartiene a una foglia. Puoi scambiarlo con il tasto per eliminare, che poi elimini. Poiché appartiene a una foglia, torniamo al caso seguente.
Se il nodo è una foglia, o ha ancora abbastanza chiavi e l'algoritmo termina, oppure ha meno di L - 1 chiavi e ci troviamo in una delle seguenti due situazioni:
- uno dei suoi fratelli a destra oa sinistra ha abbastanza chiavi per poter "passare" una all'anta in questione: in questo caso questa chiave sostituisce la chiave che separa i due sottoalberi dell'albero genitore, che si inserisce nel foglio in questione;
- oppure nessuno dei suoi fratelli ha abbastanza chiavi: in questo caso, il padre passa una delle sue chiavi a uno dei due (o gli unici) fratelli per permettere alla foglia di fondersi con essa. Tuttavia, questo può portare il padre a non avere più abbastanza chiavi. Ribadiamo quindi l'algoritmo: se il nodo ha un fratello con abbastanza chiavi, la chiave più vicina verrà scambiata con la chiave del padre, quindi la chiave del padre ed i suoi nuovi discendenti vengono riportati al nodo che necessita 'di una chiave; altrimenti eseguiamo una fusione utilizzando una chiave del padre e così via. Se arriviamo alla radice e ha meno di elementi L, uniamo i suoi due figli per dare una nuova radice.

Bilanciamento

In particolare dopo la rimozione, l'albero può essere riequilibrato. Questa operazione consiste nel distribuire equamente i valori nei vari nodi dell'albero e nel ripristinare le proprietà minime di riempimento dei nodi.

Il riequilibrio inizia a livello delle foglie e procede verso la radice, fino a quest'ultima. La ridistribuzione implica il trasferimento di un elemento da un nodo adiacente che ha valori sufficienti al nodo che ne è privo. Questa ridistribuzione è chiamata rotazione . Se nessun vicino può fornire un valore senza essere esso stesso al di sotto del limite, il nodo difettoso deve essere unito a un vicino. Questa operazione provoca la perdita di un separatore nel nodo genitore, questo potrebbe quindi essere in deficit e necessita di essere bilanciato. La fusione e la ridistribuzione si diffonde alla radice, unico elemento dove viene tollerata la carenza di valori.

Un semplice algoritmo di bilanciamento è costituito da:

Se il nodo adiacente sinistro esiste e ha valori sufficienti per poterne offrire uno, eseguire una rotazione a sinistra.
Altrimenti, se il nodo adiacente destro esiste e ha abbastanza elementi, eseguire una rotazione destra.
Altrimenti, il nodo difettoso deve essere unito a uno dei suoi vicini in modo che la somma del numero delle loro chiavi più 1 sia minore o uguale alla capacità massima ( ). Il valore aggiuntivo corrisponde al separatore presente nella madre. Questa operazione è sempre possibile se con e o il contrario, sia un nodo immediatamente al di sotto del limite di chiave e un nodo esattamente al limite. taiollegauvshe+taiolledroiote+1≤U-1{\ displaystyle size_ {left} + size_ {right} +1 \ leq U-1} ${\ displaystyle size_ {left} + size_ {right} +1 \ leq U-1}$ U-1≥2×L{\ displaystyle U-1 \ geq 2 \ times L} ${\ displaystyle U-1 \ geq 2 \ times L}$ taiollegauvshe=L-2{\ displaystyle size_ {left} = L-2} ${\ displaystyle size_ {left} = L-2}$ taiolledroiote=L-1{\ displaystyle size_ {right} = L-1} ${\ displaystyle size_ {right} = L-1}$ L-1{\ displaystyle L-1} ${\ displaystyle L-1}$
1. copia il separatore alla fine del nodo sinistro
2. aggiungi tutti gli elementi del nodo destro alla fine del nodo sinistro
3. eliminare il nodo destro ed eliminare il separatore genitore, quindi verificare che contenga elementi sufficienti. In caso contrario, riequilibrare il genitore con i suoi vicini.

Rotazione a sinistra

La rotazione sinistra di una tacca tra due nodi vicini viene eseguita in

spostando il separatore, presente nel genitore, alla fine del nodo sinistro
spostando il primo elemento del nodo destro come separatore nel genitore

Questo tipo di operazione può essere utilizzato anche per comprimere l'albero: un albero destinato alla sola lettura può essere svuotato di un massimo di slot di memoria inutilizzati riempiendo il più possibile un minimo di nodi.

Peggiore altezza del case

Sia il numero di chiavi contenute nell'albero B. L'altezza dell'albero soddisfa la disuguaglianza: $NON$ $h$

{\ Displaystyle h \ leq \ log _ {L} \ left ({\ frac {N + 1} {2}} \ right)}

Dimostrazione

La radice dell'albero contiene almeno 1 nodo, quindi ha almeno 2 figli. I nodi di profondità almeno 1 contengono almeno chiavi L-1 e figli L. Per induzione, infatti , mostriamo che il livello dell'albero, cioè l'insieme dei nodi di profondità , contiene almeno nodi e quindi almeno chiavi. Pertanto, il numero totale di chiavi nell'albero controlla: ${\ displaystyle 1 \ leq i \ leq h}$ $io$ $io$ ${\ displaystyle 2L ^ {i-1}}$ ${\ displaystyle 2L ^ {i-1} (L-1)}$

{\ displaystyle N \ geq 1+ \ sum _ {i = 0} ^ {h-1} 2L ^ {i} (L-1) = 1 + 2 (L-1) {\ frac {L ^ {h} -1} {L-1}} = 2L ^ {h} -1}

Quindi e . ${\ displaystyle N + 1 \ geq 2L ^ {h}}$ ${\ Displaystyle h \ leq \ log _ {L} \ left ({\ frac {N + 1} {2}} \ right)}$

Osservazioni

Gli alberi 2-3-4 sono strutture dati ad albero utilizzate più B: corrispondono infatti a 2-4 alberi B o alberi B di ordine 2.
Gli alberi B hanno il vantaggio di essere bilanciati (tutte le foglie sono alla stessa altezza), il che consente di ottenere un aumento dell'altezza e quindi migliori complessità (in O (log n) ) per la base delle operazioni (ricerca, inserimento, cancellazione) rispetto ad un albero classico (dove l'inserimento è in O (h) , con h l'altezza dell'albero, quindi potenzialmente in O (n) a seconda dell'implementazione scelta).

Varianti

L'albero B + Albero (en) differisce leggermente dall'albero B, in quanto tutti i dati sono memorizzati solo in foglia, e questi sono collegati tra loro.

Esistono anche altre varianti, come l' albero B * (en) .

Appendici

(en) Rudolf Bayer , Binary B-Trees for Virtual Memory , ACM-SIGFIDET Workshop 1971 , San Diego, California, Session 5B, pp. 219-235 .
(en) Rudolf Bayer e McCreight, EM Organization and Maintenance of Large Ordered Indexes . Acta Informatica 1, 173-189, 1972 .

Riferimenti

R. Bayer e E. McCreight , " Organizzazione e manutenzione di indici ordinati di grandi dimensioni ", SIGFIDET '70: Atti del Workshop ACM SIGFIDET del 1970 (ora SIGMOD) sulla descrizione dei dati, accesso e controllo , Association for Computing Machinery ,Novembre 1970, p. 107-141 ( DOI 10.1145 / 1734663.1734671 )
(in) R. Bayer e E. McCreight , " Organizzazione e manutenzione di indici generali ordinati " , Atti del 1970 ACM SIGFIDET (ora SIGMOD) Workshop on Data Description, Access and Control - SIGFIDET '70 , ACM Press,1970, p. 107 ( DOI 10.1145 / 1734663.1734671 , letto online , accesso 21 settembre 2019 )
LU albero B dovrebbe leggere "LU albero B", perché LU rappresenta un'espressione composta , non la sottrazione di due numeri.
"L - 1" e "U - 1" sono qui usati come espressioni di sottrazione.
(in) H. Formen Thomas, Introduzione agli algoritmi 1989, pp.485-504.

Vedi anche

link esterno

(it) cs.usfca.edu : animazione che consente di inserire ed eliminare visivamente elementi in un albero B
(it) (en) B-tree GUI : Spataro Fabrizio e Todaro Michelangelo - Emulatore Java BTree - BTree Java Emulator .
(it) Slady.net : animazione sotto forma di applet Java che consente di costruire visivamente alberi B.