Computerwetenschapper Azim Afroozeh onderzocht hoe compressie- en opslagmethoden opnieuw ontworpen konden worden, zodat data veel sneller verwerkt kan worden en minder ruimte in beslag neemt.
Afroozehs onderzoek richtte zich op het ontwerpen van een nieuwe generatie dataopslagformaten die gelijke tred konden houden met moderne computerhardware zoals multi-core CPU's en GPU's. De huidige, veelgebruikte formaten, zoals Parquet, stammen uit een vroeger tijdperk en benutten de mogelijkheden van moderne processors niet meer volledig. Deze mismatch verspilt rekenkracht en vertraagt data-analyse.
In zijn werk onderzocht Afroozeh hoe compressie- en opslagmethoden opnieuw ontworpen kunnen worden, zodat data veel sneller verwerkt kan worden en minder ruimte in beslag neemt. Hij onderzocht vragen als: hoe reorganiseren we data zodat deze past bij de parallelle aard van de huidige hardware? Hoe kunnen we data comprimeren op een manier die extreem snel te decoderen blijft? Het resultaat, FastLanes, is een fundamenteel nieuw bestandsformaat dat is ontworpen voor de hardware van vandaag en morgen.
Hij demonstreerde dat databestanden opnieuw ontworpen kunnen worden om zowel veel kleiner als aanzienlijk sneller te lezen door ze af te stemmen op de werking van moderne hardware. Het belangrijkste inzicht is dat data opgeslagen moet worden in een lay-out die het mogelijk maakt om duizenden waarden parallel te verwerken, zonder knelpunten.
Het onderzoek toont aan dat we door data te reorganiseren en nieuwe, lichtgewicht compressietechnieken te gebruiken, miljarden waarden per seconde kunnen decoderen – vaak sneller dan het lezen van ongecomprimeerde data. Het laat ook zien dat deze methoden niet alleen werken op CPU's, maar ook op GPU's, die steeds vaker worden gebruikt in analyses en AI. Simpel gezegd: computers kunnen veel efficiënter werken wanneer data is opgeslagen in de "taal" die moderne processors prefereren. FastLanes bewijst dat een bestandsformaat dat met dit principe in gedachten is ontworpen, de huidige systemen ruimschoots kan overtreffen.
Afroozeh combineerde theoretische analyse met uitgebreide praktische experimenten. Eerst bestudeerde hij hoe datasets uit de praktijk zich gedragen en hoe moderne processors – zowel CPU's als GPU's – data parallel verwerken. Op basis van deze inzichten ontwierp hij nieuwe compressielay-outs en algoritmen die zijn afgestemd op moderne hardware. Vervolgens implementeerde hij alle methoden in hoogwaardig C++ en evalueerde ze experimenteel op diverse architecturen, waaronder Intel, AMD, Apple, Amazon Graviton en NVIDIA GPU's. Hierdoor kon hij de snelheid, de opslagbesparing en de integratie in echte query-engines meten. Ten slotte ontwikkelde hij een compleet prototypebestandsformaat en valideerde dit met behulp van echte analytische workloads. Alle implementaties werden open-source gemaakt om reproduceerbaarheid en praktische waarde te garanderen.
Meer informatie over het proefschrift