Hoewel we soms overspoeld lijken door data, is de beschikbare hoeveelheid in veel onderzoeken beperkt. Bijvoorbeeld bij het onderzoeken van de verspreiding van een virus: waar dook het voor het eerst op? ''Vaak weten we maar van een paar individuen dat ze ziek waren, en details zoals het exacte moment van besmetting ontbreken. Hoe kunnen we dan toch achterhalen hoe het virus zich verspreidde en welke factoren een rol daarin speelden? Dat is niet direct vanuit de data te zien; het is in feite dus onzichtbaar'', vertelt van der Meulen. Volgens de onderzoeker ligt het antwoord in een combinatie van wiskundige modellen, theorie uit de mathematische statistiek en computationele methoden. Daarmee wordt het onzichtbare als het ware zichtbaar gemaakt. Maar hoe werkt dit?
Pijlers
De eind 2022 benoemde hoogleraar richt zich met zijn onderzoek op het ontwikkelen van statistische methoden voor stochastische processen, met nadruk op onzekerheidskwantificatie en indirecte observatieschema's. Stochastische processen zijn verschijnselen die in de tijd variëren en waar onzekerheid op zit. Dat kan het verloop van een ziekte zijn, de verspreiding van een virus, de koers van een aandeel of de mate van verontreiniging in een rivier zijn.
Onzekerheidskwantificatie
''Het is niet altijd mogelijk om zulke verschijnselen continu te meten. Zo weten we bij de verspreiding van een virus niet precies welke mensen op welk tijdstip geïnfecteerd zijn; van sommigen weten we dat misschien, maar wanneer iemand precies geïnfecteerd is geraakt is doorgaans niet bekend'', legt van der Meulen uit. Als er verontreiniging gemeten wordt in een rivier dan kunnen er sensoren zijn die op hoge frequentie een indicatie hiervan geven, maar in-situ metingen vinden vaak op veel lagere frequentie plaats. Vaak moet er ook nog rekening gehouden worden met meetfouten. De onderzoekers krijgen dus indirecte informatie.
Indirecte observatieschema's
Dan terugkomend op een eerdere vraag, hoe kunnen we achterhalen hoe het virus zich verspreidde en welke factoren een rol daarin speelden, als er weinig data beschikbaar is? Onderzoekers halen veelal informatie uit data door een statisch model te specificeren. In zo’n model zitten onbekenden, die we proberen op grond van de data te achterhalen. Deze schattingen helpen om de data te interpreteren. ''Maar hoe nauwkeurig is zo’n schatting? Daartoe ben ik geïnteresseerd in het specificeren van de onzekerheid'', vertelt Van der Meulen. ''Het onderliggende idee is simpel: als ik wil weten of een muntje zuiver is, en ik heb de keuze of ik het 10x of 1000x mag opgooien, dan zal ik de laatste optie kiezen. Maar als ik 5 dan wel 500 keer kop zie, zal ik in beide gevallen rapporteren dat de kans op kop 50% is. In het geval van 1000 worpen is de onzekerheidsmarge echter veel kleiner.''
Inzet mathematische statistiek
Door mathematische statistiek, het bestuderen van statistische methoden vanuit een wiskundig oogpunt, in te zetten, kan er gerichte informatie uit data gehaald worden. Veelal om betere beslissingen onder onzekerheid te kunnen nemen. Veel methoden worden aanvankelijk door toepassers ontwikkeld. ''Het is echter lang niet altijd duidelijk wanneer zulke methoden werken, en wat bedoelen we eigenlijk met “werken”? Kunnen we bewijzen dat zulke methoden doen waarvoor ze bedoeld zijn? Dit is exact waar mathematische statistiek zich mee bezighoudt: het ontwikkelen en bestuderen van statistische methoden. Daaronder vallen ook computationele methoden: methoden gericht op het efficiënt uitrekenen van statistische methoden.''
Combineren van informatie
Door vervolgens de twee vormen van informatie te combineren, het aangenomen model en de data, kunnen er concrete antwoorden komen. Veel problemen waar twintig á dertig jaar geleden nog geen computationele methoden beschikbaar voor waren, bestaat nu goede software voor. Frank van der Meulen hoopt de komende jaren bij te dragen aan zulke methoden voor statistische methoden specifiek gericht op stochastische processen.
De oratie van Frank van der Meulen vindt plaats op 24 januari, 15:45 - 17:15 uur. Kijk hier voor meer informatie.