Een ict-infrastructuur bestaat uit veel componenten die veelal afhankelijk zijn van elkaar. Bij toepassing van virtualisatie is dit goed te zien. Een server- of een desktopsysteem is immers gewoon een file op het SAN. Deze SAN moet benaderbaar zijn door het hostsysteem waarop de virtuele instances draaien. Om die virtuele instances hoog beschikbaar te maken moet het hostsysteem redundant op het SAN en op het netwerk worden aangesloten. Het hostsysteem moet worden voorzien van de juiste hoeveelheid spanning en de nodige koeling om zijn werk goed te kunnen doen. Zo zie je dat er verschillende schakels zijn in de hele keten die allen van belang zijn voor het juist functioneren van die virtuele instance(s).
Aangezien al die schakels zo belangrijk zijn is het toch op zijn minst merkwaardig dat er zo weinig aandacht wordt geschonken aan die schakels. Deze laatste uitspraak moet ik enigszins nuanceren als we het hebben over de realisatie van een nieuwe infrastructuur. Overal wordt aan gedacht: redundante SAN switches, redundante HBA’s, redundante netwerkswitches, twee SAN-systemen die met elkaar synchroniseren, enz… Er worden prachtige ontwerpen geschreven die hoge beschikbaarheid als voornaamste speerpunt hebben. Disaster recovery-procedures worden bedacht, uitgewerkt en na implementatie getest; zo hoort het ook! Helaas zien we ook dat tijdens implementaties concessies worden gedaan op het ontwerp of de projectplanning, omwille van het geld of de complexiteit in zijn geheel.
Hoe kan het dan toch fout gaan?
Echter, na verloop van tijd verzwakt of verdwijnt zelfs de aandacht voor al deze o zo belangrijke componenten. Hoe kan het toch gebeuren dat er servers crashen vanwege de warmte die ontstaan is in een serverruimte? In mijn ogen moet er voor de neus van de beheerders een gigantisch scherm hangen waarop onder andere de temperatuur van de verschillende componenten en die van de ruimte getoond wordt. Je kunt namelijk alle componenten nog zo hoog beschikbaar maken, maar wanneer deze componenten zich in dezelfde ruimte bevinden zullen ze allemaal last krijgen van bijvoorbeeld een temperatuurstijging! Hoe ga je het management uitleggen dat bij een calamiteit slechts de helft van de systemen zijn uitgeweken omdat het SAN in de uitwijklocatie niet synchroon loopt met het productie-SAN? Dit moet je toch continu bewaken om al datgene wat ooit bedacht is waar te kunnen maken?
Zo kan ik nog een aantal zaken opnoemen die vaak verwaarloosd worden:
– Het actueel houden van een disaster recovery-plan.
– Het monitoren van vrije ruimte op het SAN.
– Het monitoren van SAN-/netwerkswitches.
Het probleem hierbij is dat men het belang van een gezonde infrastructuur pas inziet op het moment dat het een keer goed mis gaat. Feit is echter dat veel investeringen in redundante componenten te niet worden gedaan wanneer er niet voldoende aandacht is voor deze componenten.
U vraagt, wij draaien?
Er zal mijns inziens meer aandacht moeten komen voor het beheren en monitoren, gedurende de gehele looptijd, van al deze infrastructuurcomponenten. Het initiatief hiervoor ligt bij ons ‘ict-experts’ en bij het management van de betreffende bedrijven. Wij moeten bedrijven wijzen op de mogelijkheden waarmee ze de geschetste problematiek kunnen voorkomen en management moet dit eisen van de beheerorganisatie om zodoende investeringen te kunnen verantwoorden. Vraag daarom je leverancier om mee te denken met jouw business case. De tijd van ‘u vraagt, wij draaien’ is voorbij!
Peter Noorderijk, Infrastructuur Consultant bij PQR
Het klopt als een bus.
Geen interesse in de inhoudelijkheid van de materie, besparing op kosten, allemaal redenen waarom men dit doet.
Ook het niet hebben van voldoende investerings kapitaal, of de mogelijkheden om mensen vast te houden dragen bij tot dit probleem,.
Het is echter altijd wel zo, dat als er iets fout gaat, je als IT beheerder het maar mag oplossen.
Er moet altijd iets goeds mis gaan, wil men eens wakker worden. Eigenschappen van een mens, helaas.
Voor de rest een duidelijk artikel. Helemaal mee eens.