Steeds meer financiële instellingen kiezen ervoor om te testen met synthetische data, als alternatief voor het gebruik van productiedata. Bij deze methode zijn alle persoonlijke gegevens en persoonlijk identificeerbare data geanalyseerd en geheel vervangen. Daarmee sorteren ze alvast voor op Europese wetgeving die vanaf 2016 van kracht zal gaan en waarbij in veel gevallen offshoregebruik van productiedata wordt verboden. Dat zegt testspecialist SQS (Software Quality Systems).
SQS zegt een duidelijke toename in het eerste halfjaar van 2014 te zien van het testen met synthetische data in de financiële sector. ‘Gelukkig wordt het gebruik van synthetische data steeds meer gemeengoed bij financiële instellingen’, zegt specialist softwarekwaliteit Samuel Mischler van SQS. ‘De afgelopen decennia zijn er productiedata gebruikt voor het testen van applicaties. Daar kleven, behalve de veiligheid, nog andere nadelen aan, zoals een gebrek aan variatie. Ondertussen is de aanpak om synthetische data te gebruiken volwassen geworden. Daarmee is het een betrouwbare aanpak geworden die de zwakheden en risico’s door het gebruik van productiedata voorkomt.’
Het testen met synthetische data is volgens hem nog eens goedkoper, omdat de data kunnen worden hergebruikt en op ieder moment in het proces vernieuwd kunnen worden.
Ontmoedigen
Volgens SQS zullen de nieuwe Europese wetten, die in de maak zijn, het testen met productiedata niet verbieden, maar wel ontmoedigen. Mischler: ‘Banken kunnen te maken krijgen met boetes, hun outsourcing kan mogelijk worden beperkt en offshoring van testdata kan worden verboden.’ De testspecialist wijst er op dat vooral financiële instellingen grote risico’s lopen. Volgens het bedrijf ging recentelijk een aantal grote banken, waaronder HSBC, Credit Suisse en UBS, voor enorme bedragen het schip in door software- en beveiligingsblunders.
‘Uit hun testsystemen werden belangrijke gegevens gestolen. Ook in Nederland bleken vorige maand jarenlang klantgegevens van 27.000 verzekerden op straat te hebben gelegen door een fout van een medewerker bij het testen van nieuwe software. De Europese Unie spoort de financiële wereld aan om de veiligheid rondom testen verder te verbeteren en werkt aan wetgeving’, aldus Mischler.
Het is gevaarlijk om dit artikel zonder kanttekeningen te lezen. Zonder deze informatie krijgt de lezer wel een heel verkeerd beeld van de huidige situatie.
Dit artikel berust op banken in het buitenland. In Nederland zijn alle banken druk bezig om te zorgen dat ze niet meer met productiedata aan het testen zijn. Hiervoor maken ze zeker geen gebruik van synthetische testdata maar van geanonimiseerde productiedata.
De reden hiervan is namelijk dat productiedata nog steeds de mooiste data is om te testen, waarbij men de gevoelige (privacygevoelige,organisatiegevoelig en business-klant gevoelige) data maskeert. DNB en CBP accepteren deze werkmethode.
Kopiëren van productiedata en maskeren is velen malen eenvoudiger qua uitvoering als het beheren dan gebruik te maken van synthetische testdata.
Consistentie van data over de keten is een van de belangrijkste voorwaarde van testdata. Bij geanonimiseerde productiedata is dat reeds een feit, maar bij synthetische testdata een groot risico.
In geanonimiseerde productiedata komen alle mogelijke variaties voor die in productie voor komen. De ervaring leert dat een organisatie zelfs voldoende heeft aan 10% van de productiedata om te testen. Het klopt dat in productie niet alle mogelijke situaties voorkomen. Ook bij gestructureerd testen test men niet alle mogelijke voorkomende situaties, maar gaat men effectief met hun testtijd om.
Synthetische testdata is zeer schone data zonder enige vervuiling zoals die wel in een geanonimiseerde productie omgeving voorkomt. Synthetische testdata is dan niet overeenkomend met productie omgeving.
Het grote gevaar van gebruik met synthetische testdata is dat men alle volledige testen uitvoert met data die niet in productie voorkomt. Dat betekent dat de testdata 100% overeenkomend moet zijn met productie en 100% correct, 100% consistent over de keten moet zijn. Is dat niet het geval, dan ontdekt men dergelijke fout pas in productie.
Synthetische testdata is goed bruikbaar voor de lagere niveaus van testen, zoals unit test en systeem test. Deze testdata is niet geschikt voor functionele testen, acceptatie testen en performance testen.
Met vriendelijke groet Edwin van Vliet, Testdata management consultant, Suprida
Het beeld wat in het artikel geschetst wordt herken ik niet. De afgelopen periode zijn wij binnen een van de grootbanken in Nederland bezig geweest met het inrichten van datamaskering.
De keuze binnen deze bank was heel duidelijk: gemaskeerde productiedata biedt veel voordelen ten opzichte van het gebruik van synthetische data.
Voordelen zijn onder andere:
– geen tijdsverlies door het opvoeren van synthetische data,
– hogere voorspellende waarde,
– consistente dataset over de keten.
Bovendien is gemaskeerde data altijd beschikbaar en kunnen teams daarmee op afroep een set krijgen die aansluit bij hun specifieke testbehoefte.
Bij deze bank heeft datamaskering ervoor gezorgd dat teams sneller en beter kunnen testen. Dit is iets waarvan ik overtuigd ben dat dat met synthetische data niet gelukt zou zijn.