De storing bij Blackberry, die op maandag 10 oktober 2011 begon, is te wijten aan een defecte core switch. De problemen, waardoor bezitters van Blackberry-telefoons geen gebruik kunnen maken van internetdiensten als email en berichtenservice Ping, zijn op woensdagochtend 12 oktober 2011 nog niet voorbij. Behalve de regio Europa, Afrika en het Midden-Oosten, zijn er ook in Brazilië, India, Chili en Argentinië problemen gemeld.
Core switches zijn belangrijke apparaten binnen een netwerk. Ze verbinden de zogeheten edge switches met elkaar. Edge switches vormen de link tussen twee netwerken en het is in het geval van Blackberry-fabrikant Research in Motion (RIM) waarschijnlijk de edge switch geweest die door een falende core switch gebruikers hinderde het netwerk op te komen in Slough, Engeland.
Het falen van de switch is officieel door RIM toegegeven. Ze geven aan dat 'het systeem zo is ontworpen dat er een back-up switch wordt ingeschakeld bij problemen, maar deze bleek niet te werken zoals hij getest was. Hierdoor is een grote backlog aan data gegenereerd, waarvan de Blackberry-leverancier nu werkt dit vrij te maken, zodat de internetdiensten zo spoedig mogelijk weer werken zoals normaal. Excuses voor het ongemak.'
Shell
In Nederland meldden Vodafone en T-Mobile dat hun klanten met Blackberry-toestellen moeilijkheden hebben met de internetdiensten zoals de browser, pingen in Blackberry Messenger en e-mailen. In Engeland hebben zowel klanten van O2, Vodafone als T-Mobile connectieproblemen en dat ondervindt ook Shell, waar medewerkers allemaal werken met Blackberry's. CIO Arjen Dorland van de Shell-divisie Downstream, geeft aan dat zijn Nederlandse Blackberrytoestel eerst aangaf dat de simkaart niet meer geldig is, inmiddels is dit in orde, maar komt er geen e-mail meer door.
Dorland: 'Vreemd, want ik had maandag 10 oktober 2011 bijna geen problemen, maar sinds dinsdag 11 oktober 2011 wel. Er komt helemaal geen e-mail door. Gelukkig kunnen we altijd nog bellen met VOIP, als het erger wordt. Ik heb een Nederlands toestel, maar ik heb begrepen dat Britten nog meer problemen hebben. Ik heb nog geen idee wat de impact zal zijn op de dagelijkse werkzaamheden bij Shell.'
Ahold
Ook bij Ahold wordt veelal gebruik gemaakt van de telefoontoestellen van RIM. Jochem van de Laarschot, woordvoerder bij Ahold: 'Ik heb nog geen berichten gehoord van mensen die problemen hebben en mijn eigen apparaat doet het prima.' Wanneer de problemen opgelost zullen zijn, is nog onbekend. Dinsdagavond 11 oktober 2011 werd rond de klok van tien uur ontdekt waar het probleem lag, maar hoe lang het gaat duren voor de datalog is opgeschoond, kan RIM nog niet zeggen.
“Ze geven aan dat ‘het systeem zo is ontworpen dat er een back-up switch wordt ingeschakeld bij problemen, maar deze bleek niet te werken zoals hij getest was.”
Het zal wel flink duur zijn (ben je misschien zo een ton kwijt) om het uit te breiden, maar het is de vraag of slechts één back-up hardwaresysteem voldoende is.
Maar dan nog… Oorzaak is waarschijnlijk (maar dan speculeer ik) een veranderd vormgegeven netwerk ergens NADAT de bewuste test is gedaan, en is de backuphardware niet meegenomen bij die veranderingen. Is er niet zoiets als Dymanic Replicating Switch Load Balancing? Met hot swappable functionaliteit. Zodat wijzigingen in het netwerkontwerp gelijk doorgevoerd wordt op zowel primaire als een secundaire core switches.
Het is een klassiek en naïef misverstand om er (kennelijk, want het heeft 1 1/2 dag geduurd voordat de oorzaak werd vastgesteld) vanuit gegaan dat een redundant uitgevoerd apparaat onfeilbaar is.
Beantwoord maar eens de vraag hoe de backup (en het monitoring systeem) bepaalt wanneer er problemen zijn. Naast tastbare begrippen als ‘hij doet het’ of ‘hij doet het niet’ is er nog een heel groot grijs gebied waarin termen zoals ‘hij doet het een beetje’ of ‘hij heeft kuren’ van toepassing zijn en het lastig is om te bepalen wanneer een failover moet plaatsvinden.
Ik vind gewoon de dat ze iedereen een schadevergoeding moeten geven. Vele zakenmensen lopen hun e-mails mis vanwege de storing. Je betaalt een speciaal blackberry enterprice maar je hebt er niks aan want je kan het al drie dagen niet gebruiken. Hoelang gaat dit nog duren??
Mwoa valt allemaal nog wel mee. Bellen en smsen werkt nog. Zakelijke gebruikers maken toch veel gebruik van BES (enterprise) en dit is de BIS (consumenten) dienst die eruit ligt. Wat niet wegneemt dat die minder belangrijk zouden zijn dan zakelijke gebruikers, ze betalen er evengoed voor namelijk. Maar het valt nog mee gezien het feit dat dit eigenlijk pas de eerste keer is dat ik me kan heugen dat de service plat is.
Het heeft nou wel lang genoeg geduurd, weten ze nog steeds niet wanneer de service het weer doet?
Als je de cursus CCDA (Cisco Certified design associate) gevolgd zou hebben; dan kom je erachter dat er geen back-up core/edge switchen zou moeten bestaan; gewoon alles 2x uitvoeren; alle
netwerk IP verkeer laten routeren over 2 core switches;2 edge switches etc; kost even wat geld; maar dan heb je wel wat.
Jeroen heeft helemaal gelijk. Het triggersysteem wat een failover activeert is niet waterdicht. Het kan zomaar zijn dat de switch in stress-mode stond ( CPU load 100%) waardoor hij geen traffic meer doorliet.
Een voorbeeld het kan zijn dat er een internal process bizirk is gegaan waardoor de cpu load 100% is op de switch met als gevolg dat er geen bit meer over de poorten komen.)
Kortom elke redundant oplossing heeft wel een situatie waardoor hij plat kan gaan. Zelfs met enorme investeringen los je dit nooit voor 100% op.
Tja het is allemaal nog niet perfect.. maar dat houdt ons mooi aan het werk 🙂 🙂
Een backup switch wordt ingeschakeld.. Design probleem? Als je core netwerk(=meerdere switches) faalt ga je een uitwijk procedure starten. Ik ga er toch vanuit dat een bedrijf als RIM een tier 4 datcenter concept in place heeft… teleurstellend dat dit zolang moet duren. Tenzij het natuurlijk te wijten is aan brakke software, die z´n breekpunt heeft bereikt…… dan heeft uitwijk geen nut….
Ik vind dit een ongeloofwaardig. Lijkt mij sterk dat men geen monitoring hiervoor heeft ingericht.
Even een vraagje. Wat is de overeengekomen SLA?
Zelfs bij mooie getallen als 99% (op jaar basis) is enkele dagen (3,65) onbeschikbaarheid toegestaan.
Waarschijnlijk heeft de geen eindgebruiker helemaal geen SLA afgesproken.
Dus ja het lijkt héél lang maar is het niet.