Nederland werd afgelopen lente getroffen door de grootste internetstoring ooit, veroorzaakt door een softwarefout in switches van KPN. Wat kunnen providers doen om dergelijke problemen in de toekomst te voorkomen? En wat kun je zelf doen om jouw verbinding tegen uitval te beschermen?
Naar schatting miljoenen internetgebruikers kampten in mei dit jaar met problemen, variërend van een langzame verbinding tot een complete internetuitval (black out). De storing trof niet alleen particulieren, maar vooral ook zakelijke gebruikers (zoals abonnees van Business ADSL van KPN en XS4All). Dat roept vragen op over de hard- en softwareconfiguratie van internetproviders. Bijvoorbeeld welke oorzaken er zijn voor storingen, in welke mate het netwerk redundant is uitgevoerd en hoe een dergelijke storing in het vervolg valt te voorkomen.
Internettoegang veiligstellen
Internetproviders gebruiken in de regel meerdere ‘gateways' voor internettoegang, door contracten te sluiten met diverse internet transit providers (of carriers) en peering providers. "Een jaar of vijf, zes geleden vertrouwden we nog op één enkele gateway" vertelt Theo Drenth, Manager Product Management bij BBNed. "Dat voldoet niet meer gezien de steeds grotere afhankelijkheid van het internet."
"Wij werken momenteel met drie carriers, via drie verschillende geografisch gescheiden knooppunten. Als één van de knooppunten uit zou vallen, ondanks redundante netwerkverbindingen, kost dat dus maximaal eenderde van de capaciteit. Bovendien hebben we regelingen om realtime tijdelijk extra capaciteit te gebruiken bij onze andere carriers." KPN gaat uit van minimaal twee verschillende carriers en hanteert daarnaast meerdere uitvalswegen richting het internet.
Oorzaken van een storing
Er kunnen verschillende oorzaken zijn voor een internetstoring. KPN laat bij monde van woordvoerder Stefan Simons weten dat routeringsproblemen tussen verschillende internetproviders één van de meest voorkomende storingen is. "En op het aansluitnetwerk is niet alles tot aan de klant redundant uitgevoerd" zegt Simons. "Uitval van apparatuur of een verbroken verbinding zijn daar de meest voorkomende problemen. Dat laatste doet zich met name voor in combinatie met bijvoorbeeld bouw- of graafwerkzaamheden."
Drenth van BBNed noemt nog een heel andere oorzaak: "Storingen bij zakelijke klanten ontstaan in de meeste gevallen door een lokaal probleem – bij de klant zelf dus. Veel bedrijven in het mkb gebruiken één breedbandlijn voor verschillende bedrijsfkritieke oplossingen, zoals internet, telefonie en hosting. Bij een storing ligt niet alleen de internettoegang er uit, maar ook de bedrijfswebsite en de communicatie. Vaak is het netwerk onvoldoende beveiligd: geen afgesloten netwerkruimte, geen noodstroomvoorziening en soms ook matig vooronderzoek voor hard- of softwarematige upgrades in relatie tot het netwerk."
Redundant netwerk
Natuurlijk proberen providers storingen zoveel mogelijk te voorkomen door hun netwerk geheel redundant uit te voeren. Voor eventuele stroomuitval zijn de voorzieningen op hetzelfde niveau als van grote datacenters, dus met ups'en (uninterruptable power supplies) en dieselgeneratoren. Top level domain servers zijn over de wereld verspreid. Kritieke verbindingen worden over gescheiden paden redundant aangelegd.
Net zoals BBNed heeft KPN ook draaiboeken om uit te wijken naar andere gateways bij uitval van een PoP-locatie (Point of Presence). "Dit zal voor veel klanten een oplossing bieden, maar nooit voor allemaal", aldus Simons van KPN. "Bij uitval van een knooppunt als de AMS-IX zal in Nederland verminderde connectiviteit zijn, maar dat zal het internetverkeer niet volledig lam leggen."
Onderhoud
Een always-on dienst als internet is gebaat bij een secuur patchbeleid. KPN hanteert daarom standaard onderhoudstijden. "Voor zakelijk internet is dit elke dinsdagnacht tussen 03:00 en 07:00", verklaart Simons. "Patches worden eerst getest in een pre-productieomgeving. Na een gemiddelde proeftijd van twee weken worden ze geaccepteerd."
"Vervolgens wordt er één element in de productieomgeving gepatched, waarna andere elementen pas volgen na twee weken monitoring. In het geval van calamiteiten kan van deze procedure worden afgeweken." De bewuste KPN-storing van mei werd overigens veroorzaakt door een niet eerder ontdekte softwarebug in een switch (zie kader).
Drenth van BBNed merkt op dat de groei van het internetgebruik het patchbeleid bemoeilijkt: "Enkele jaren terug was er nauwelijks internetactiviteit tussen drie en vijf uur 's nachts, waardoor onderhoud op dat tijdstip geen probleem was. Het internetverkeer is echter flink toegenomen, waardoor we zelfs op dat tijdstip gemiddeld op een belasting van 10 procent zitten. Het komt daardoor steeds vaker voor dat wijzigingen realtime worden doorgevoerd, mits het netwerk redundant is. Maar uiteraard wordt onderhoud buiten de piekuren uitgevoerd."
Backupvoorzieningen
Volgens Theo Drenth heeft BBNed sinds de grote KPN-storing van mei een hoop nieuwe verzoeken gekregen voor het aansluiten van een tweede lijn. "Middelgrote en kleine bedrijven kunnen hun netwerk redundant maken door twee lijnen van verschillende internetproviders te gebruiken. Als er een storing is bij één van de twee providers, dan kunnen de bedrijfsactiviteiten tenminste worden voorgezet op basis van de tweede 'backup' lijn."
"Het is daarnaast mogelijk om routers het verkeer automatisch om te laten schakelen bij eventuele verbindingsproblemen, zodat het netwerk nauwelijks hinder ondervindt. Bovendien kan via ‘load balancing' de capaciteit van beide lijnen optimaal worden benut." Een noodoplossing om een internetstoring op te vangen is een dubbele ISDN-lijn. De verbinding is dan weliswaar traag, maar toch bruikbaar om basisactiviteiten zoals e-mail veilig te stellen.
Draadloze alternatieven als UMTS en WiMax zijn nog niet erg populair als backup, omdat dit ingrijpende technische voorzieningen vereist en alleen effectief is als uitvalmogelijkheid wanneer er een storing is in het aansluitnetwerk. KPN heeft wel eens straalverbindingen aangelegd, maar dan ging het om uitzonderlijke situaties waarbij meestal ook slechts één bedrijf was getroffen. Zowel KPN als BBNed bieden klanten ook mogelijkheden voor een dubbel aangesloten verbinding die over verschillende aansluitnetwerken loopt.
Aansprakelijkheid
Al deze mogelijkheden voor het voorkomen en opvangen van storingen bieden echter geen 100 procent garantie én kosten nogal wat. Internetproviders bieden dan ook verschillende ‘service level agreements' (SLA's) voor zakelijke internetaansluitingen. Deze contracten kunnen per klant afwijken op het gebied van bandbreedte, de overbookingsfactor en garanties voor beschikbaarheid. Eventuele schadevergoedingen worden afgehandeld op basis van algemene of specifieke voorwaarden, zoals opgesteld in het contract.
In alle gevallen stellen internetproviders financieel niet verantwoordelijk te zijn voor eventuele schade, aangezien de omvang van dergelijke claims niet te overzien is. Bij een storing van meer dan 24 uur is de maximale compensatie in de meeste gevallen het abonnementsbedrag van één maand. In veel gevallen weegt dat niet op tegen de daadwerkelijke kosten, zoals verlies van productiviteit of indirecte gevolgschade. Het is dus niet alleen aan de provider, maar ook aan bedrijven zelf om zich te beschermen tegen internetstoringen.
KPN-storing van mei 2008
In de nacht van 12 op 13 mei dit jaar trad er bij KPN de grootste internetstoring ooit op. Het ontstond door overbelasting van de ATM-backbone (Asynchronous Transfer Module) van het telecombedrijf. Dat transportprotocol zorgt voor de omschakeling tussen netwerksegmenten, bijvoorbeeld vanaf de backbone naar de ADSL-lijnen naar bedrijven en huishoudens. Particuliere en zakelijke klanten van onder andere KPN, XS4All en Solcon hadden dagenlang te kampen met de storing, die in het gunstigste geval een haperende verbinding opleverde.
Ook het pinverkeer en mobiel internet via UMTS werden getroffen door de storing, waardoor het effect landelijk merkbaar was. Volgens Stefan Simons van KPN werd het probleem veroorzaakt door een fout in de software; een registerfunctie die overbelasting moest voorkomen werkte niet goed. Dit probleem was volgens KPN nog niet eerder aan het licht gekomen omdat de capaciteitsvraag groter was dan voorheen. De overbelaste switches gingen zichzelf resetten om hun functioneren te herstellen, waardoor een domino-effect ontstond.
Alcatel-Lucent, de fabrikant van de bewuste switches, zou volgens onofficiële bronnen zelfs een calamiteitenteam hebben ingevlogen om het probleem te verhelpen. Na drie dagen was de storing grotendeels opgelost door de switches van nieuwe software te voorzien.
Wat nou als de tweede provider aan de achterkand van het netwerk ook nog gebruik maakt van het netwerk van KPN?
Ik denk dat het beter is om te gaan kijken naar een volledig onafhankelijke aanbieder met een eigen netwerk. Ik denk dan bijvoorbeeld aan Ziggo of aan Eurofiber, welke een eigen galsvezelnetwerk hebben dan ook nog eens sneller is.
Gebruik dan die lijn van KPN als backup voor de glasvezelverbinding, dan ben je volgens mij veel beter uit.
@LarieKoek:
Laat je boosheid niet overgaan tot ergernis, het uit zich namelijk in het gebruik van jet taal (bv: achterkand?).
Daarbij laat je echt zien dat je iets uitspreekt waar je geen kennis van zaken hebt. Je stelt een profider voor die in minder dan een half jaar meer storing en klachten had dan KPN in dertig jaar heeft gehad. (Ziggo)
Dus jou mening hier heeft hierdoor niet zo veel waarde, misschien kan deze geschrapt worden (en doe die van mij er maar bij (schrappen) want ik zeg ook niet veel zinnigs over het artikel.)
Zolang er gebruik wordt gemaakt van DSL maak je altijd gebruik van KPN; namelijk de koperdraden naar de lokale KPN cenrale. In de praktijk komt het echter zelden voor dat daar iets mis gaat door bijvoorbeeld kabelbreuk.
Storingen treden vrijwel altijd op in de apparatuur van de telco(DSLAM of switches) of de ISP die daarachter zit. Een oplossing met – bijvoorbeeld – een hoofdverbinding via het KPN netwerk en een backuplijn via het bbned netwerk is daarom in de praktijk een goede oplossing.
Waarom staat dit artikel opnieuw in de Computabele nr. 49 van 5 december?
De meest effectieve manier is om niet afhankelijk te blijven maar zelf je internet verkeer te routeren en multihoming te realiseren (via BGP4), dat is niet zo ingewikkeld als het lijkt, een router een ip blok en as nummer en evt aansluiten op een internet exchange zoals NL-ix of AMS-ix. Je kan het zo redundant maken als je wilt. En anders kan je misschien de provider eens vragen hoe jij via hem op die manier redundant aansluit?