It-landschappen worden steeds groter en complexer, met als gevolg meer en complexere integraties tussen systemen. Omdat elke keten zo sterk als de zwakste schakel is, is het noodzakelijk de volledige keten te monitoren om downtime van bedrijfskritische informatiestromen te voorkomen.
Onder ketenmonitoring verstaan we monitoring van de integratielaag, aanleveringssystemen en ontvangende systemen. Denk hierbij aan beschikbaarheid van koppelingen en services. Dit staat ook wel bekend als de integratielaag plus en min één. Je kunt tools gebruiken als Splunk of Elk-stack (elasticsearch, logstash, kibana), die je in staat stellen allerlei typen logfiles bij elkaar te brengen op één platform en deze in samenhang te analyseren. Denk hierbij aan logfiles van softwarecomponenten, maar ook applicatieve logfiles van bijvoorbeeld een Apache-webserver of een securitydevice. Als je zelf je eigen applicaties host, dan kun je ook de infrastructuur- en netwerkcomponenten toevoegen.
Verschil actieve- en trendmonitoring
Het is daarbij belangrijk onderscheid te maken tussen twee typen monitoring: actieve monitoring die een alert genereert op het moment dat er problemen ontstaan of dreigen te ontstaan en trendmonitoring, ook wel predictive monitoring genoemd, waarmee je trends kunt ontdekken. Op basis van deze trends kun je voorspellen of en wanneer er problemen ontstaan, zodat je preventief kunt handelen. Met trendmonitoring doe je een health check: hoe gezond is mijn systeem?
Nu de behoefte ontstaat om steeds meer integraties te maken tussen systemen en steeds meer bedrijven kiezen voor een hybride multi-cloudstrategie, wordt ketenmonitoring nóg belangrijker, maar ook complexer. Je kunt niet langer volstaan met het monitoren van de silo’s. Want je hebt naast meer componenten ook nog eens te maken met meer datacenters, meer applicaties en meer netwerkverbindingen. Wees je ervan bewust dat het inrichten van zo’n monitoringomgeving een specialisme is dat je niet kunt overlaten aan de functionele beheerteams die ermee gaan werken.
In zo’n hybride multi-cloud-omgeving, gecombineerd met microservices, zijn zowel actieve ketenmonitoring als trendmonitoring onontbeerlijk. Actieve ketenmonitoring stelt je namelijk in staat veel sneller de root cause te achterhalen. Je vindt immers sneller de oorzaak van problemen als je naar verbanden in logdata zoekt. Voor trendmonitoring ontkom je al helemaal niet aan een big-dataplatform zoals Splunk, vanwege het volume aan logging. Je wilt immers langere tijd kunnen terugkijken en correlaties kunnen leggen om trends te ontdekken. Trends die kunnen duiden op de oorzaak van een vaker terugkerende storing. Overigens kun je met Splunk heel specifiek per datatype aangeven hoelang data bewaard mogen worden. Zo kun je makkelijk voldoen aan privacyrichtlijnen en andere dataretentie-eisen.
Ai in ops-monitoring
In de toekomst zullen we meer en meer ops-monitoring op basis van kunstmatige intelligentie (ai) zien. De meerwaarde van ai hierin is dat je correlaties vindt, waar je zelf nooit aan had gedacht. In securityland is het gebruik van ai in monitoring al heel gebruikelijk. In die wereld zijn er veel bekende patronen, zoals een ddos-aanval, en wordt ai gebruikt om nieuwe patronen te ontdekken. Deze kunnen duiden op nieuwe tactieken die hackers gebruiken, of nieuwe regio’s waar aanvallen vandaan komen. In de it-operationswereld is het gebruik van ai in ketenmonitoring nog geen gemeengoed. Maar de vooruitzichten zijn veelbelovend en verdienen het om nauw in de gaten te worden gehouden.
Marcel van Gemert, devops engineer bij Conclusion Virtual Sciences
“Wees je ervan bewust dat het inrichten van zo’n monitoringomgeving een specialisme is dat je niet kunt overlaten aan de functionele beheerteams die ermee gaan werken.”
Nou weer niet. De ops-techies zijn weer nodig. Maar die snappen de business niet en hebben alleen maar tijd voor legacy. Lees ik steeds in computable. Natuurlijk weer tijd voor AI based trendketenmonitoring of straks weer wat anders met een nog indrukwekkendere naam. Vroeger moest alles zonder specs maar met een druk op de knop. Specs hoeven nog steeds niet, maar nu zelfs te lui om op die knop te duwen.
Aan wie zouden we de inrichting van een dergelijke monitoringomgeving kunnen overlaten? Ik vraag het me af…
Ketenmonitoring is cruciaal als je de dienstverlening wilt verbeteren. Niet alleen de infrastructuur is nodig maar ook de applicaties en geleverde services/functionaliteit. Ook ontkom je er niet aan om dynamische verbindingen te leggen tussen de configuratie database/ service catalogus. Dan hebben we het nog niet gehad over metrics, traces en logs.
@Jos Visser, het is geen of-of. Het is een samenwerking tussen een partner met specialistische kennis en de organisatie met domeinkennis (zowel business/functioneel als technisch). Beide partijen leren van elkaar en uiteindelijk moet de organisatie het over kunnen nemen. Anders is de partner niet de juiste.
Een goede strategie, buy-in en de juiste tools, kennis (bijv. machine learning) en processen zijn nodig om het implementeren van ketenmonitoring tot een succes te maken. De silo’s zijn dan verleden tijd en werkt iedereen aan hetzelfde doel: klantwaarde!
Tsja. root causes vinden middels correlaties van logging … hoe ITIL ..
Wellicht simpel maar ik zoek meestal naar de foutboodschap op Google en verdien daar al een jaar of 25 mijn brood mee.
Alsof bedrijven geld hebben om een nieuwe maintenance organisatie op te tuigen voor de logging architectuur.
Dat is allemaal allang “geborgd” (mooi overheidswoord) door de serviceprovider.
Hi KJ,
En dat is waarom het AIOps framework van Gartner is ontstaan. Dat soort bekende foutmeldingen moeten juist automatisch worden gevonden, beoordeeld en het juiste runbook voor worden aangeroepen om het euvel te verhelpen. Observe, Engage & Automate.
Een maintenance organisatie is niet alleen belangrijk voor de infrastructuur, maar ook voor de adoptie en waarde creatie door de gebruiker. Het slim en efficient gebruik van een dergelijk platform is cruciaal om tijdigheid en waarheid te waarborgen.
Uiteraard kan je dit ook uitbesteden of bij een provider onderbrengen.
Dat AI een veelbelovende inzet kan hebben in de ketenmonitoring zal ik niet ontkennen want ik kreeg uiteindelijk nogal wat reacties op de 18 teleurstellende business uitkomsten als gevolg van slechte ketenmonitoring waarover ik jaren geleden schreef. Eén van de 18 teleurstellende business (LEAN) uitkomsten die 8 jaar geleden een feest van herkenning – maar niet voor iedereen -opleverde was verlies aan talent en daarmee gelijkertijd het verlies aan kennis en ervaring. Twee cognitieve vaardigheden die helpen bij het herkennen van problemen in patronen en de getalenteerden begrepen dat gepatenteerde algoritmen de belofte van de nieuwe bedot.com economie zijn waar de wet van de remmende voorsprong geldt. Want leveranciers zullen de tijd dat hun algoritmen beschermd zijn middels patenten commercieel maximaliseren met stilstand en driemaal raden wie deze nieuwe kleren van de keizer niet herkennen. Oja, die door Rick van den IJssel genoemde OODA-loop van Observeren-Oriënteren-Denken-Automatiseren is ook gewoon door Gartner gestolen en die aanlokkelijke blauwe oceaan van AI blijkt vol te zitten met haaien.
Meeste gehoorde klacht over mijn opinies aangaande (IT) ketenmonitoring was dat er geen vertaling naar de business was, de oriëntatie is nog altijd teveel op de techniek en het lijkt erop dat de devops engineer van Conclusion Virtual Sciences hierin weinig veranderd terwijl beloften om het ‘show me the money’ van waarde-creatie uit data gaan. Veel organisaties zoeken dan ook naar een ‘IT-OpEx’ dashboard, ik begrijp het cynisme van Dino maar veelal is het niet de IT of de business die besluiten neemt maar de boekhouder. Deze wil gegarandeerde en geen veelbelovende uitkomsten en uitgaande van (ToC) algoritme: Profit = Throughput – Operating Expenses hoef je niet lang naar de stok te zoeken om de hond te slaan. Hoge OpEx afgezet tegen laag marktaandeel en laag groeipotentieel zorgt ervoor dat een organisatie de winst uiteindelijk in rode cijfers gaat schrijven als er niks veranderd. Maar de meeste data scientisten kunnen deze olifant in de hoek niet vinden omdat niemand ze verteld heeft hoe deze eruit ziet, kostenverlaging zijn niet de meest aansprekende vorm van innovatie maar nog altijd wel de meest voorkomende vorm.
En de waarde-creaties die gebruikers vinden en niet de dure consultants gaan om de olifantenpaadjes in de processen die vaak niet herkend worden omdat kennis en ervaring met de business ontbreekt. Zo is een healthcheck op basis van alleen maar de lichaamstemperatuur nog geen diagnose of je wel of niet de Chinese koorts hebt en daarom rechtsomkeer moet maken en thuis een Chinese placebo met ongezonde additieven moet slikken. Oja, niet één keer wordt er iets over kwaliteit gezegd terwijl er zeer grote verschillen zitten tussen voldoening aan de norm van de klant, geschiktheid voor gebruik of het voldoen aan de specificaties om een paar definities van uiteindelijk een subjectief onderwerp te noemen.