Vrijwel alle wetenschappen produceren tegenwoordig bergen data, maar een van de grootste dataproducenten is astronomisch onderzoek. Nederland is al ruim een halve eeuw een van de leidende landen als het gaat om radiotelescopie met als belangrijk centrum Astron in Drenthe.
Als grote dataproducent en daarmee grootgebruiker van het SURF-netwerk kreeg professor Carole Jackson, algemeen en wetenschappelijk directeur van Astron, ook de ruimte de laatste ontwikkelingen te delen met het publiek bij de SURFsara Super Day. Jackson, die haar carrière na haar studie begon in Australië bij het Square Kilometre Array project (SKA), is op haar plaats als begeesterend leider van de onderzoeksfaciliteit.
Jackson begint bij wat het delen van al die data uit zo veel verschillende onderzoekstrajecten betekent. Denk daarbij aan zwaartekrachtgolven die ook in oude data waargenomen kunnen worden nu we de kennis hebben waar we naar moeten zoeken. Ook het beeld van de eerste honderd miljoen jaar na de big bang is met grote hoeveelheden data vele malen scherper geworden. Dit allemaal leidt tot steeds meer combinaties waarbij astronomie ook onderdeel is van onderzoek naar de beginselen van het leven, de bouwblokken van materie, maar ook noodzakelijk bij de energietransitie en veel meer. Geen enkele studie staat in die zin meer op zich.
LOFAR
Ze beperkt zich tot astronomie, want daar is al voldoende te doen. Na een vergelijking over het werk van astronomen van vroeger tot nu komen we al snel bij een van de grote projecten van de afgelopen jaren: LOFAR, ofwel de Low Frequency Radio Telescope. Met behulp van deze antenne-technologie kan op een totaal andere wijze gezocht worden naar radiogolven uit het universum. Dus geen grote schotel meer, maar allemaal goedkope, simpele antennes die op de grond staan (overigens is voor radiogolven met hogere frequenties gewoon een schotel nodig, zo zijn onlangs de uit 1970 stammende Westerbork Synthese Radio Telescoop (WSRT)-schotels, gelegen in de bossen nabij Hooghalen en Westerbork in Drenthe, geüpgraded onder het Apertif-project).
Deze manier van astronomie bedrijven kan alleen maar doordat computers en data steeds beter te verwerken en te bekijken zijn. Inmiddels is LOFAR niet meer alleen een telescoop in een natuurgebied nabij het Drentse Exloo en enkele andere plekken in noord-Nederland, maar ook uitgebreid naar andere landen in Europa. Daarmee bestrijkt de telescoop inmiddels zo’n 1900 kilometer.
Achter al die fysieke antennetjes op de grond zit software waarmee de schotels als het ware softwarematig te besturen zijn door de signalen van afzonderlijke antennes ten opzichte van elkaar te vertragen. Met het bouwen van deze telescoop heeft Astron heel veel belangrijke kennis opgedaan die nu weer deels ingezet wordt bij de bouw van het SKA in Australië en Zuid-Afrika.
Om bij LOFAR te blijven: elke antenne levert zo’n 5 Gbit/s aan data en met honderden antennes is dat niet te versturen over een netwerk. Daarom wordt bij elk lokaal LOFAR-station de data al gescheiden en alleen het nuttige deel doorgestuurd. Uiteindelijk wordt alles zo omgevormd dat het met 2 tot 10 GB/s opgeslagen wordt. Dat gaat nog een keer door een systeem wat het geheel voor het grootste deel bij SURFsara opslaat op tape. Inmiddels is er zo’n 37 petabyte aan data opgeslagen.
Al die data kunnen natuurlijk niet handmatig meer gecheckt worden op mogelijk belangwekkende gebeurtenissen. Dit gebeurt in hoofdzaak door clusters met gpu’s die de data verwerken.
Dataopslaguitdaging
Dit jaar presenteerde Astron de LOFAR Two-metre Sky Survey (LoTSS) met een radiotelescopisch beeld opgebouwd uit tientallen beeldbestanden van miljoenen sterrenstelsels waarbij elk beeldbestand 250 GB groot is.
Met zulke bestanden is het lastig om dat op goede manier te delen met andere wetenschappers en dat is dan ook een belangrijke volgende stap: het toegankelijk maken van het long term archive of LTA aan alle gebruikers van LOFAR waardoor meer gebruikers de data kunnen gebruiken bij onderzoek.
Jackson maakt een vergelijking met andere data-intensieve diensten, zoals het archief van Google dat ruim 15 exabyte beslaat en de Large Hadron Collider (LHC) op CERN waar nu al ruim 200 PB opgeslagen is. De verwachting is dat met de square kilometre array al in de eerste fase 300 PB per jaar opgeslagen moet worden. Al met al enorme dataopslag- verwerkings- en uitleesuitdagingen.
Een belangrijke boodschap van Jackson is dat astronomie niet alleen astronomen nodig heeft, maar ook mensen met verstand van data-, soft- en hardwaresystemen. Het liefst ziet Jackson een bijna onmogelijke combinatie van computerwetenschappers die zowel met traditionele software als machine learning (ml) om kunnen gaan; wiskundigen die ook ml beheersen en astronomen die ook dergelijke interesses en kundes hebben.