Bij het installeren en onderhouden van Microsoft installaties in het datacenter kom je dezelfde issues tegen als bij het onderhouden van de Windows-pc van je oma.
Stel: de pc van je oma doet ineens raar. Ze belt een slimme neef die allerlei magische dingen in de registry doet en wat patches installeert. Na een paar kopen koffie 'doet 'ie het weer' en kan Oma weer mailen. Echter een week later na de eerstvolgende update doen allerlei andere dingen ineens raar. Oma belt maar eens een andere neef want de vorige was dus toch niet zo goed als ze dacht. Die grijpt na een korte inspectie vertwijfeld naar zijn hoofd en zegt:t 'welke idioot aan die pc heeft zitten knoeien'. Na enige uren zuchten en zoeken meldt hij dat hij het maar opgeeft, de puinhoop is compleet, en dat er geen andere oplossing is dan alles maar opnieuw te gaan installeren.
Dat dan maar gedaan, wat moet ze anders. Maar guess what, na her-installatie zijn de problemen die er eerder waren ineens ook weer terug…
In het datacenter gaat het precies zo, ik maak dat al jaren niet anders mee. Elke nieuwe engineer beoordeelt het werk van zijn voorgangers als broddelwerk en doet het liefst alles op zijn eigen manier. Die manier begint met frisse moed, veel energie en passie en eindigt onvermijdelijk in een installatie met ook een aantal glitches, bugs, instabiliteiten en vergeten scriptjes en taken. De eerste tijd merk je daar niet zoveel van maar zodra het moment is gekomen dat de eerste gebruiker echt gaat klagen en de bouwer op vakantie is, wordt er een 'neef' ingeroepen die de boel gaat repareren. En daarmee is het hek van de dam. Die concludeert dat er niets van deugt en zijn voorganger een knoeier was. Hij probeert het met de beste intenties te fixen, maar dat introduceert niet zelden neveneffdecten – vanwege slecht gedocumenterde work-arounds of de eerder genoemde onopgemerkte fouten in de installatie.
Het resultaat: de installatie doet het, maar een andere, afhankelijke installatie gaat plat of werkt niet meer helemaal oké. Management en klanten schreeuwen uiteraard moord en brand over 'de slechte voorbereiding' en het gebrek aan kwaliteitsbewustzijn.
Conclusie
Het bouwen, onderhouden en repareren van complexe Microsoftstacks is nog veel ingewikkelder dan je op het eerste gezicht denkt. Het vereist allereerst goed teamwerk: denken in collectief belang in plaats van opgeblazen egos. Dan testen, checken, weer testen en opnieuw checken, het in detail documenteren van installatiebitjes en keuzes, plus uiteraard goed bijhouden van alle changes.
Of is misschien de conclusie dat je beter een goede engineer kan hebben, die nooit op vakantie mag?
Inderdaad, groot of klein, dokumenteren is altijd het stiefkindje, meestal ontstaan onder tijdsdruk. Gevolg: als er iets fout gaat, is 5 maal zoveel tijd nodig om de zaak weer werkend te krijgen.
Of gewoon seniors die genoeg ervaring hebben om hier kundig mee om te gaan ipv (lekker) goedkope schoolverlaters die heel goed zijn in het snel slopen.
En tevens is mijn stelling: Een iedere systeembeheerder die een herinstallatie overweegt bij iets anders dan een corrupt filesysteem is een n00b. Een backup terugzetten soit.
De heer Steltman heeft gelijk, aan slimme neefjes heb je weinig. Veel problemen zijn nog steeds moeilijk te doorgronden en vaak is een quick analyse van een incident niet zelden de aanleiding van nog meer ellende.
Het oplossen van problemen bij het beheer van complexe systemen verdient meer professionele aandacht van het management. De aanwezige expertise op de werkvloer wordt meestal onvoldoende benut. De beheerder van de patatgeneratie heeft vaak wel een ICT-opleiding op HBO-niveau gehad en een doos vol product- en ITIL-certificaten verzameld, maar denkt te veel vanuit zijn/haar eigen wereldje. De enthousiaste jongeren weten niet altijd wanneer het verstandiger is om even met een collega of de baas te overleggen, want ze overschatten vaak hun expertise, geloven te weinig in de expertise bij collega’s, onderschatten de gevolgproblemen en zien onvoldoende de consequenties in van hun eigen gedrag. En als ze eindelijk gedwongen worden om samen te werken, dan blijken ze niet goed te kunnen communiceren. Ze spreken veelal in soundbytes als jonge haantjes en schrijven op niveau van tweets. Niet zelden weten ze ook niet meer wat ze geconstateerd hebben, wat ze hebben uitgeprobeerd en gewijzigd en geven dus producten die ze zelf niet leuk vinden maar de schuld. En gebrekkige informatie op een gebrekkige wijze delen, levert niks op.
Opdrachtgevers moeten zorgen voor goede managers op de beheerafdelingen. Alleen die kunnen uit de nieuwe generatie medewerkers halen wat er nooit vanzelf uit zou komen, namelijk voldoende beheerkwaliteit door onder meer goed samenwerken.
Stel nou dat elke aannemer voor het verbouwen van jouw keuken jouw hele huis tegen de vlakte zou willen gooien?
Sorry, maar het verhaal van Steltman toont een groep dieaan een ernstig gebrek van professionaliteit lijdt.
Ik vind het jammer dat zoveel mensen in zijn directe omgeving moeten ervaren.
Wat mij verbaasd is iedereen voorbij gaat aan het feit dat niet (goed) werkende software aan de basis ligt van de beschreven “problemen”. Zeker het vervolg verhaal met “cowboys” die als dik beglaasde nerds iedereen vernietigend aankijken zodra ze de installatie gedaan door een ander onder ogen krijgen ken ik ook. Helaas moet ik ook vaststellen dat veel MS producten worden verkocht als was het een pan, die vervolgens een vergiet blijkt te zijn en waar dan weer patches voor worden uitgebracht om de gaten in het vergiet te dichten.
@G.J, je snijdt met de bugs een goed punt aan, maar dat is toch niet de verklaring voor het beschreven probleem.
Nieuwe software, updates, patches, kunnen vaak voor nieuwe problemen zorgen. Je moet daarom nieuwe software altijd eerst in jouw omgeving testen, dat documenteren en dan pas besluiten of je wilt invoeren en daarbij voor een rolback-mogelijkheid zorgen. Dat vergeten de neefjes te doen.
Overigens wordt de software steeds beter, ook die van MS en is vooral de hardware de laatste decennia heel veel betrouwbaarder geworden.
@ICT-er Ben het natuurlijk geheel met je eens.
Roll-back mogelijkheid is een must en patches/updates zijn slechts één van de oorzaken, echter geen onbelangrijke.
Mijn punt was in deze dat er (nog steeds) zoveel troep wordt uitgebracht (en niet alleen door MS) dat het tot op dit moment onvermijdelijk is om met beschreven problemen in aanraking te komen.
In een ideale wereld zou het niet nodig moeten zijn rekening te houden met een roll-back, doordat de software bouwer zijn test procedure zéér grondig heeft afgelopen (maar ja, tijdsdruk hé). Moet er direct bij zeggen dat dat voor systeembeheerders/applicatiebeheerders natuurlijk een kwalijke zaak zou zijn, die raken door alleen maar goede installaties op termijn bijna geheel overbodig 😉