De komende weken is Europa in de ban van het Europees Kampioenschap voetbal. Dat loopt tot midden juli met de finale in Berlijn. Zo’n toernooi is ook voer voor data-analisten om de winnaar te voorspellen. Al zou die niet uit Nederland of België komen, analyseren twee Snowflake-experts.
Tijdens de voorbije summit van ai-datacloudbedrijf Snowflake stond één uitgebreide en opmerkelijke praktijksessie in het kader van het EK voetbal. Twee Snowflake-data-analisten – een Italiaan en een Engelsman, allebei voetballiefhebber – gingen met de eigen technologie aan de slag.
Portugal wint
Volgens hun data-analyse wint Portugal het EK in een finale met Engeland. De verliezende halve finalisten zouden Spanje en Kroatië zijn. Nederland strandt in de kwartfinale en botst daar op Engeland. België doorstaat de groepsfase maar gaat meteen daarna eruit tegen Spanje.
Om hun model te trainen gebruikten de twee voetballiefhebbers dertig jaar aan data van interlandwedstrijden. Het belang van die wedstrijden werd ook ingeschat, zo werden vriendschappelijke wedstrijden als minder belangrijk aanzien. Het thuisvoordeel op dit toernooi (voor Duitsland) werd mee ingecalculeerd. En voorts werd er onder meer ook rekening gehouden met het recente vormpeil van het betreffende landenteam.
Of is het Engeland?
De bedoeling was vooral om een praktische toepassing van de technologie te tonen. Voor de data- en Snowflake-specialisten onder ons: het ging om een volledige end-to-end modelpijplijn die werd gebouwd in Snowpark ML. De modellen werden opgeslagen in de Snowflake Model Registry en vervolgens gebruikt voor inferentie met zowel Snowpark Python als SQL.
Opvallend is dat bij het uitvoeren van het model er ook wel eens een andere winnaar opdook, en meer bepaald Engeland. Dat heeft deels te maken met het opzet van het tornooi en de knock-outfase met strafschoppen in het bijzonder. Om het element strafschoppen bij uitschakeling mee te rekenen werd in het model een random-functie gebruikt. Eigenlijk gelijkaardig met kruis of munt als je een muntje opwerpt.
Of zoals voetballiefhebbers en -commentatoren al lang weten: het nemen van strafschoppen op het eind is een loterij. En die is zo goed als onmogelijk te voorspellen.
“Of zoals voetballiefhebbers en -commentatoren al lang weten: het nemen van strafschoppen op het eind is een loterij. En die is zo goed als onmogelijk te voorspellen.”
Wat betreft een eventuele beïnvloeding kun je statistisch wel alvast naar de hoek duiken die door de schutter het meest gekozen wordt en je kunt die schutter verrassend uit de hoek laten komen door het onverwachte te doen. Zoals opeens een keeper wisselen om psychologisch de andere partij op het verkeerde been te zetten. Want waarom nog het veld opgaan als het verlies al voorspeld is?
Bel dan maar de Chinezen voor de muntjes die niet opgegooid worden maar onder de tafel doorgeschoven worden want er zijn nog meer manieren om een uitslag te beïnvloeden. Dertig jaar aan data van interlandwedstrijden gaat meer om het spelsysteem dan de spelers want tot op heden is er niet veel veranderd aan een systeem waar veel te veel geld in omgaat.
Van de vier genoemde landen zijn er al 2 naar huis, een score van 50%. Wat betreft het muntje opgooien van strafschoppen ging Portugal er hierdoor uit en ging Engeland door. Nederland treft deze tegenstander als nummer 3 uit de groepsfase in de halve finale. Dat schijnt een statistische anomalie te zijn waar de modellen niet op getraind zijn. En hopelijk zet dit onze tegenstander komende woensdag ook op het verkeerde been maar de opzet van het toernooi schijnt in het voordeel van Engeland te zijn.
Laat weer eens mooi zien hoe onzinnig het idee van inferentie is.