Alta disponibilità

L' elevata disponibilità o alta disponibilità ( HA ) è un termine spesso utilizzato nel computer , sull'architettura del sistema o sul servizio per denotare il fatto che questa architettura o servizio ha un tasso di disponibilità adeguato.

La disponibilità è oggi una questione importante per le infrastrutture IT. Uno studio del 2007 stima che la mancata disponibilità dei servizi IT può avere un costo di 440.000 euro l'ora, costi che ammontano a miliardi di euro a livello nazionale. L'indisponibilità dei servizi IT è particolarmente critica nell'industria, soprattutto in caso di interruzione della linea di produzione.

Due mezzi complementari vengono utilizzati per migliorare la disponibilità:

Misurazione del tasso di disponibilità

La disponibilità viene spesso misurata come percentuale:

Disponibilità in% Indisponibilità all'anno Indisponibilità mensile Indisponibilità a settimana
90% ("un nuovo") 36,5 giorni 72 ore 16,8 ore
95% 18.25 giorni 36 ore 8.4 ore
98% 7.30 giorni 14,4 ore 3,36 ore
99% ("due nove") 3,65 giorni 7.20 ore 1,68 ore
99,5% 1,83 giorni 3.60 ore 50,4 minuti
99,8% Ore 17.52 86.23 minuti 20.16 minuti
99,9% ("tre nove") 8,76 ore 43,2 minuti 10.1 minuti
99,95% 4,38 ore 21.56 minuti 5,04 minuti
99,99% ("quattro nove") 52.56 minuti 4,32 minuti 1.01 minuti
99,999% ("cinque nove") 5,26 minuti 25,9 secondi 6,05 secondi
99,9999% ("sei nove") 31,5 secondi 2,59 secondi 0.605 secondi

La disponibilità elevata viene spesso erroneamente confusa con il piano di ripristino di emergenza . Si tratta di due attività diverse e complementari per ottenere una disponibilità continua .

Tecniche per migliorare la disponibilità

Molte tecniche vengono utilizzate per migliorare la disponibilità:

L'alta disponibilità molto spesso richiede una stanza adatta: alimentazione stabilizzata, aria condizionata a pavimento, con filtro antiparticolato, servizio di manutenzione, servizio di sicurezza e sicurezza contro intenti dolosi e furti. Prestare attenzione anche al rischio di incendi e danni causati dall'acqua. I cavi di alimentazione e di comunicazione devono essere multipli e interrati. Non dovrebbero sporgere nel parcheggio sotterraneo dell'edificio, troppo spesso visto negli edifici parigini. Questi criteri sono i primi da prendere in considerazione nella scelta di un fornitore di alloggio (caso di affitto di una camera ad alta disponibilità).

Per ogni livello dell'architettura, per ogni componente, ogni collegamento tra componenti, è necessario stabilire:

Dipendenza da altre applicazioni

Per un'applicazione che utilizza altre applicazioni con middleware in modalità sincrona ( servizio web in http , Tuxedo , Corba , EJB ) il tasso di disponibilità dell'applicazione sarà fortemente legato alla disponibilità delle applicazioni da cui dipende. La sensibilità delle applicazioni da cui dipendiamo deve quindi essere equivalente o superiore alla sensibilità dell'applicazione stessa.

Altrimenti, considera

Per questo motivo, privilegeremo l'uso di middleware asincrono per favorire una buona disponibilità quando possibile.

Distribuzione e sensibilità del carico

La sensibilità è spesso gestita da elementi ridondanti con un meccanismo di bilanciamento del carico. (ad esempio un cluster Websphere con bilanciamento del carico Alteon). Affinché questo sistema fornisca un reale guadagno in termini di affidabilità, è necessario verificare che se uno degli elementi è difettoso, gli elementi rimanenti abbiano potenza sufficiente per garantire il servizio.

In altre parole, nel caso di due server attivi con bilanciamento del carico, la potenza di un singolo server deve essere in grado di garantire la totalità del carico. Con tre server, la potenza di un singolo server dovrebbe essere in grado di gestire il 50% del carico (supponendo che la probabilità di avere un arresto anomalo su due server contemporaneamente sia trascurabile).

Per garantire una buona disponibilità, non è necessario mettere un gran numero di server che si aiutano a vicenda. Ad esempio, un elemento disponibile al 99% che è ridondante una volta fornisce una disponibilità del 99,99% (probabilità che entrambi gli elementi falliscano contemporaneamente = 1 / 100x1 / 100 = 1/10000).

Ridondanza differenziale

La ridondanza di un elemento viene generalmente effettuata scegliendo di ridondare con più componenti identici. Ciò presuppone, per essere efficace, che un guasto di uno dei componenti sia casuale e indipendente da un guasto di uno degli altri componenti. Questo è ad esempio il caso di guasti hardware.

Non è così per tutti i guasti: ad esempio, può verificarsi un guasto nel sistema operativo o un'anomalia in un componente software, quando le condizioni sono favorevoli, su tutti i componenti contemporaneamente. Per questo motivo, quando l'applicazione è estremamente sensibile, prenderemo in considerazione elementi ridondanti con componenti di natura diversa ma che forniscono le stesse funzioni. Questo può portare a:

Ridondanza con sistema di voto

In questa modalità, diversi componenti elaborano gli stessi input e quindi (in linea di principio) producono gli stessi output.

I risultati prodotti da tutti i componenti vengono raccolti e quindi viene implementato un algoritmo per produrre il risultato finale. L'algoritmo può essere semplice (voto maggioritario) o complesso (media, media ponderata , mediana, ecc.), L'obiettivo è eliminare i risultati errati attribuibili ad un malfunzionamento di uno dei componenti e / o rendere più affidabile un componente. risultato combinando diversi risultati leggermente diversi.

Questo processo :

Questo processo viene generalmente utilizzato nei seguenti casi

"Operazioni ombra"

Quando un componente ridondante non funziona correttamente e dopo averlo riparato, si potrebbe desiderare di reintrodurlo in servizio attivo, verificare che funzioni effettivamente correttamente, ma senza utilizzare i risultati. In questo caso gli input vengono elaborati da una (o più) componenti ritenute affidabili. Questi producono il risultato sfruttato dal resto del sistema. Le stesse voci vengono elaborate anche dal componente reintrodotto che si dice essere in modalità "ombra". Il corretto funzionamento del componente può essere verificato confrontando i risultati prodotti con quelli di componenti affidabili. Questo processo è spesso utilizzato nei sistemi basati sul voto perché è sufficiente escludere il componente in modalità "ombra" dalla votazione finale.

Processi che aiutano a migliorare il tempo di attività

Possiamo distinguere due ruoli in questi processi.

Processi che riducono il numero di interruzioni

Partendo dal presupposto che prevenire è meglio che curare , mettere in atto processi di controllo che ridurranno il numero di incidenti sul sistema migliora la disponibilità. Due processi consentono di svolgere questo ruolo:

Implementando questi due processi, è possibile evitare molti incidenti.

Processi che riducono la durata delle interruzioni

I guasti si verificano sempre. A questo punto, il processo di ripristino in caso di errore è fondamentale per garantire che il servizio venga ripristinato il più rapidamente possibile. Questo processo deve avere un obiettivo: consentire all'utente di utilizzare un servizio il più rapidamente possibile. La riparazione finale dovrebbe quindi essere evitata perché richiede molto più tempo. Questo processo dovrebbe quindi mettere in atto una soluzione al problema.

Cluster ad alta disponibilità

Un cluster ad alta disponibilità (al contrario di un cluster di elaborazione) è un cluster di computer il cui obiettivo è fornire un servizio evitando il più possibile i tempi di inattività.

Di seguito è riportato un elenco non esaustivo di applicazioni di clustering per UNIX (in esecuzione su AIX , HP-UX , Linux o Solaris):

Certificazione

Esistono organismi di certificazione, come l' Uptime Institute (a volte chiamato "The Global Data Center Authority" ) che hanno definito classificazioni nel campo dei Datacenter , distinguendo quattro tipologie di "Terze Parti", nonché criteri di resilienza .

Vedi anche

Articoli Correlati

link esterno

Note e riferimenti

  1. "  silicon.fr  " (visitato il 9 dicembre 2010 )
  2. "  Journaldunet  " (consultato il 9 dicembre 2010 ).
  3. Per questo calcolo viene utilizzato un periodo di 30 giorni.
  4. (it) Alteon WebSystems
  5. http://www.uptimeinstitute.com/professional-services/professional-services-tier-certification "Archived copy" (versione del 23 luglio 2018 su Internet Archive )