In een opslagserver bij KPN is maandag 17 oktober 2011 rond 13.00 uur een probleem ontstaan, waardoor tijdelijk niet gemaild kon worden of de mail met ernstige vertraging werd verzonden. Het zou gaan om een softwareprobleem in die server. De software is in delen vervangen, waardoor het e-mailverkeer tussen 22.00 uur en middernacht die dag kon worden hervat. Ongeveer 375.000 mensen zijn getroffen door de storing.
Op het hoogtepunt van de storing zouden er maandagmiddag echter ongeveer zeshonderdduizend KPN-klanten last hebben van e-mailproblemen. De falende software op de opslagserver regelt doorgaans de opslag van e-mailberichten, maar door een storing verliep dit niet zoals gewoonlijk. Hierdoor kregen klanten van Freeler, KPN, Planet en Het Net problemen met het verzenden en ontvangen van e-mail.
Ik ben zelf senior-systeembeheerder en ik vind dit maar een raar bericht. Software persoonlijkheidskenmerken toedichten lijkt mij de ultieme vorm van verantwoordelijkheid afschuiven..
Duidelijk is er hier sprake van een single-point of failure en onvoldoende redundantie. Dit is een beleidsbeslissing en één server zoveel load te verwerken te geven, lijkt mij een ontwerpfout. Dus dan spreek je niet van ‘falende software’, maar van een falend ontwerp en falend beleid…
Emanuel, ik denk dat jij twee zaken door elkaar haalt. Het falen van het opslagsysteem -wat naar ik aanneem een SAN zal zijn- en dan direct aannemen dat KPN zijn volledige mailomgeving op één server draait. KPN gebruikt naar wat ik heb begrepen uit een storingsmail Microsoft Exchange. Ik weet momenteel niet exact de limieten maar volgens mij kan Exchange geen 600.000 mailboxen in één database of storage group kwijt. De fout is opgetreden in het SAN wat waarschijnlijk op een fysiek andere lokatie wordt gespiegeld. In zo’n complexe omgeving kan altijd iets misgaan wat een domino effect heeft op het hele SAN, voor de duidelijkheid is ook dat niet één apparaat maar een compleet netwerk waarop een ander protocol draait. Een ontwerp, hoe goed ook, is nooit opgewassen tegen een fout in de software. En als je werkt met de volumes waar KPN mee te maken heeft loop je eerder tegen fouten aan.