Patroon voor disaster recovery/uitwijk

Uit NORA Online
Naar navigatie springen Naar zoeken springen


Onderdeel van
Thema's
Contact
Guus van den Berg
Guus.vandenberg@cip-overheid.nl
Status
Dit thema wordt momenteel opnieuw bekeken door de Expertgroep Beveiliging


Criteria[bewerken]

Beschikbaarheid, Integriteit

Context[bewerken]

Een disaster (of crisis) is een gebeurtenis met een impact en schaalgrootte, waardoor er geen sprake meer kan zijn van een normale bedrijfsvoering. Een crisis zoals hier bedoeld leidt meestal tot grote materiële en immateriële verliezen.

Probleem[bewerken]

  1. Een crisis zal afhankelijk van hun aard en schaalgrootte impact hebben op veel, zo niet alle aspecten en hulpbronnen van een organisatie.
  2. Niet alle bedrijfsfuncties en voorzieningen kunnen in geval van een crisis op korte termijn worden hersteld.

Oplossing[bewerken]

Planning[bewerken]

DR planning omvat alle aspecten van de ‘business’: een succesvol DR plan omvat:

  • Human Resources die vitaal zijn voor de bedrijfsvoering.
  • Fysieke faciliteiten, back-up van stroomvoorziening en koeling en Internet Service Providers (ISP)
  • Alternatieven voor toeleveranciers en distributiekanalen.
  • Communicatiekanalen naar de klant en ondersteuning.
  • Welke gegevens, applicaties, servers, clients, netwerken, communicatiekanalen van cruciale betekenis zijn voor het voortbestaan van de organisatie (en de bedrijfsprocessen).
  • Welke applicaties achtereenvolgens moeten worden hersteld op basis van welke infrastructuur.

Uitwerking[bewerken]

Dit patroon richt zich op DR van rekencentra en de IT-aspecten. De keuze van DR oplossingen zijn minimaal afhankelijk van bedrijfskundige factoren waarbij steeds het criterium geldt: voorkomen van een niet te dragen schade voor de bedrijfsvoering. Die factoren zijn:

  1. De maximale tijd van uitval voor een informatiesysteem (MTU). Internationaal wordt dit begrip Recovery Time Objective (RTO) genoemd.
  2. Hoeveel data – of transacties mogen er maximaal verloren gaan? (MDV = Maximaal Data Verlies, internationaal heet dit RPO, Recovery Point Objective)
  3. Hoe hoog mogen de directe en indirecte financiële verliezen maximaal bedragen?

Geografisch gescheiden sites[bewerken]

Systemen met een lage RTO van nul tot maximaal enkele dagen, vereisen een z.g. Warm Site oplossing, waarbij het rekencentrum voor wat betreft de vitale systemen is gespiegeld over twee of meer sites, ook wel co-locatie of uitwijklocatie genoemd. Afhankelijk van de hoeveelheid data of transacties die verloren mogen gaan, hoe groot de geografische afstand is en de beschikbare bandbreedte wordt er gekozen voor een synchrone- of asynchrone vorm van replicatie.

Koppeling van geografisch gescheiden sites voor vitale systemen

Synchrone of asynchrone replicatie[bewerken]

Synchroon: Dataverlies moet nul zijn, afstand tussen de sites kleiner dan 60 km, grote bandbreedte. Asynchroon: Dataverlies geoorloofd, onbeperkte afstand tussen de sites en beperkte bandbreedte. Voor beide synchronisatiemethoden geldt, dat de bandbreedte tussen de sites groter moet zijn dan de gemiddelde transactionele bitrate van de vitale systemen. Is dit niet het geval, dan leidt dit alsnog tot dataverlies.

Systemen waarvoor een RTO geldt van meer dan enkele dagen, kunnen voor bedrijfscontinuïteit volstaan met z.g. Cold Site oplossingen. Een cold site is een gereserveerde, niet-actieve systeemomgeving, die in de organisatie gebruikt kan worden zodra de crisis dit vereist. Alle bedrijfsmiddelen zijn op de uitwijklocatie aanwezig om vitale systemen op te kunnen bouwen tot een werkende configuratie, inclusief back-ups van programmatuur en data.

Afwegingen[bewerken]

  • De meest kosteneffectieve oplossing voor bedrijfscontinuïteit is die van snapshot-herstelpunten, gekoppeld aan asynchrone replicatie. Deze combinatie beperkt de opslag-overhead en biedt vanuit de 'snapshot-ankers' voor het opnieuw opbouwen van transacties.
  • De meest kostbare, maar ook meest betrouwbare oplossing voor transactionele recovery is de synchrone replicatie.
  • Organisaties moeten co-locaties overwegen als ze nog niet in gebruik zijn. Kritische web- en internet gebaseerde services zijn de eerste kandidaten voor co-locaties. Niet internet gebaseerde services, zoals Office file- en print profiteren nauwelijks van co-locaties en kunnen beter geborgd worden door gebruik te maken van alternatieve DR voorzieningen.

Voorbeelden[bewerken]

  • Warm Site oplossing: Twin-datacentre van grote organisaties, voorzien van synchrone koppeling op basis van applicatieserver- ‘mirroring’.
  • Cold Site oplossing: Uitwijklocatie van een partnerorganisatie.

Implicaties[bewerken]

  • Effectiviteit van DR wordt bepaald door een stelsel van personele, organisatorische en technische maatregelen. Wanneer deze beperkt worden tot IT, wordt de scope ‘disaster’ beperkt tot ‘incident’.
  • Back-up en Recovery moeten op zowel de primaire als de uitwijklocatie op orde zijn, om lange termijn uitwijk behoeften en het herstel van gegevensverzamelingen te kunnen garanderen.
  • Virtualisatie is aan te bevelen om DR relatief eenvoudig te kunnen realiseren. De mogelijkheden voor virtualisatie zijn echter beperkt voor systemen met een zeer hoge I/O verwerkingssnelheden zoals grote transactionele databases. Deze systemen vereisen een fysieke tegenpool op de uitwijklocatie, of platformspecifieke oplossingen zoals beschikbaar zijn voor mainframes.

Gerelateerde patronen[bewerken]