Failover

Failover innebär att ett system automatiskt växlar från en primär resurs till en reservresurs när ett fel upptäcks.

Syftet är att minska avbrottstiden och upprätthålla funktion även när en komponent, förbindelse eller tjänst slutar fungera.

I kommunikationssystem används failover för att säkerställa att trafik kan fortsätta flöda även om en del av infrastrukturen fallerar.

Det kan exempelvis handla om:

en router som växlar från primär internetförbindelse till 4G eller 5G
en server som tar över om den primära servern går ner
en applikation som växlar till en sekundär driftmiljö
en fordonsrouter som byter operatör eller SIM-kort vid tappad täckning
ett kommunikationssystem som använder en alternativ väg om ordinarie länk inte fungerar

Failover är särskilt viktigt i verksamheter där även korta avbrott kan påverka säkerhet, drift, ledning eller samverkan.

Failover i praktiken

Målet med failover är ofta att användaren inte ska märka avbrottet, eller åtminstone att påverkan ska bli så liten som möjligt. Men i praktiken beror resultatet på hur systemet är utformat.

Vid vissa typer av failover kan pågående sessioner fortsätta utan avbrott. I andra fall kan användaren märka en kort fördröjning, behöva återansluta eller tappa vissa funktioner tillfälligt. Den nya förbindelsen kanske inte heller har samma kapacitet och vissa tjänster behöver därför prioriteras och andra begränsas.

När failover utformas bör man inte bara fråga om systemet kan växla till en reserv, utan också hur växlingen sker och vad som händer efteråt.

Vilka fel ska utlösa failover?
Hur snabbt ska växlingen ske?
Sker växlingen automatiskt eller krävs manuellt beslut?
Påverkas pågående samtal, sessioner eller dataöverföringar?
Har reservvägen tillräcklig kapacitet?
Ska viss trafik prioriteras i reservläget?
Hur återgår systemet till normalläge när felet är åtgärdat?
Testas failover regelbundet under realistiska förhållanden?

En failover-lösning är bara tillförlitlig om den är dokumenterad, övervakad, testad och anpassad till verksamhetens faktiska krav.

Skillnaden mellan redundans, diversitet, fallback och failover

Begreppen redundans, diversitet, fallback och failover används ofta i samma sammanhang, men de beskriver olika delar av robust systemdesign.

Redundans

Innebär att det finns en reserv, extra kapacitet eller en alternativ lösning som kan ta över om något slutar fungera.

Svarar på frågan: finns det något som kan ersätta huvudlösningen?

Diversitet

Innebär att reservlösningen skiljer sig från huvudlösningen i teknik, väg, leverantör, placering eller beroenden.

Svarar på frågan: är reserven tillräckligt oberoende för att inte drabbas av samma fel?

Innebär att ett system automatiskt växlar från huvudlösningen till en reservlösning när ett fel upptäcks.

Svarar på frågan: sker övergången automatiskt?

Fallback

innebär att systemet, organisationen eller användaren går över till ett alternativt arbetssätt eller ett förenklat läge när full funktion inte längre är tillgänglig.

Svarar på frågan: vad gör vi när den ordinarie funktionen inte kan upprätthållas?

I praktiken samverkar begreppen ofta. Ett robust kommunikationssystem kan ha redundanta förbindelser, byggas med diversitet, använda failover för automatisk växling och samtidigt ha definierade fallback-rutiner för situationer där full funktion inte kan upprätthållas.

En lösning kan vara redundant utan att ha god diversitet. Två fiberförbindelser i samma kanalisation ger exempelvis en reserv, men båda kan slås ut av samma grävarbete. På samma sätt kan det finnas redundans utan failover, om användaren själv måste växla till reservsystemet. Fallback blir aktuellt när reservlösningen inte ger samma funktion som huvudsystemet, men ändå gör det möjligt att fortsätta verksamheten på en acceptabel nivå.

Failover

Failover i praktiken