Resiliens
Resiliens är förmågan hos ett system eller en verksamhet att stå emot störningar, anpassa sig till förändrade förutsättningar och fortsätta leverera viktiga funktioner även när något går fel.
Single Point of Failure, ofta förkortat SPOF, är en komponent, funktion, förbindelse eller beroendepunkt som ensam kan orsaka att ett helt system eller en kritisk funktion slutar fungera.
I kommunikationssystem kan en Single Point of Failure exempelvis vara en ensam internetförbindelse, en central server, en basstation, en switch, ett teknikrum, en strömmatning eller en molntjänst som flera andra funktioner är beroende av.
Om denna enda punkt slutar fungera finns ingen alternativ väg, reservfunktion eller fungerande rutin som kan ta över. Resultatet blir att hela eller delar av verksamheten tappar funktion.
Exempel på vanliga Single Points of Failure är:
En Single Point of Failure är inte alltid uppenbar. Ibland finns flera system på ytan, men de delar samma bakomliggande beroende, exempelvis samma elmatning, samma nätförbindelse, samma servermiljö eller samma leverantör. Det medför att även ett till synes litet fel kan få stora konsekvenser.
Målet med failover är ofta att användaren inte ska märka avbrottet, eller åtminstone att påverkan ska bli så liten som möjligt. Men i praktiken beror resultatet på hur systemet är utformat.
Vid vissa typer av failover kan pågående sessioner fortsätta utan avbrott. I andra fall kan användaren märka en kort fördröjning, behöva återansluta eller tappa vissa funktioner tillfälligt. Den nya förbindelsen kanske inte heller har samma kapacitet och vissa tjänster behöver därför prioriteras och andra begränsas.
När failover utformas bör man inte bara fråga om systemet kan växla till en reserv, utan också hur växlingen sker och vad som händer efteråt.
En failover-lösning är bara tillförlitlig om den är dokumenterad, övervakad, testad och anpassad till verksamhetens faktiska krav.
Single Points of Failure identifieras ofta genom riskanalys, systemgenomgång eller kontinuitetsplanering.
Viktiga frågor är:
En användbar metod är att följa hela kedjan från användare till tjänst: terminal, radio- eller nätaccess, transportnät, core/system, applikation, strömförsörjning, driftmiljö och användarrutiner.
Risken för Single Points of Failure kan minskas genom att bygga bort eller begränsa beroendet av enskilda punkter.
Redundans
Införa reservvägar, extra kapacitet eller alternativa system.
Diversitet
Säkerställa att reservlösningar skiljer sig i teknik, väg, placering eller beroenden.
Separation
Placera kritiska komponenter, förbindelser och kraftmatningar fysiskt åtskilda.
Failover
Låta system automatiskt växla till reservresurs vid fel.
Fallback
Definiera alternativa arbetssätt när full funktion inte kan upprätthållas.
Övervakning
Upptäcka fel i tid och agera innan de påverkar verksamheten.
Test och övning
verifiera att reservlösningar och rutiner fungerar i praktiken.
Målet är inte alltid att eliminera alla möjliga felkällor. Målet är att se till att ett enskilt fel inte leder till ett oacceptabelt avbrott.
Redundans innebär att det finns extra resurser, reservvägar eller alternativa system som kan ta över om något slutar fungera.
Diversitet innebär att redundanta lösningar skiljer sig åt i teknik, väg, leverantör, placering eller beroenden. Syftet är att minska risken att samma fel slår ut både huvudlösningen och reservlösningen.
Fallback innebär att ett system, en tjänst eller en verksamhet går över till ett alternativt, förenklat eller degraderat läge när den ordinarie funktionen inte längre kan upprätthållas.
Failover innebär att ett system automatiskt växlar från en primär resurs till en reservresurs när ett fel upptäcks.