Intermediaire Gegevensanalyse met R en de Tidyverse VU Graduate Winter School

Verbeter je R vaardigheden en analyseer echte data met alle Tidyverse tools voor het opschonen, transformeren, visualiseren en modelleren.

Deze cursus biedt een uitgebreide inleiding tot de Tidyverse, een krachtig ecosysteem van R-pakketten ontworpen voor efficiënte en intuïtieve gegevensanalyse. Studenten leren gegevens importeren, opschonen, transformeren, visualiseren en modelleren met moderne R-tools.

In de datawetenschap zijn ruwe gegevens vaak rommelig, waardoor ze zorgvuldig moeten worden opgeschoond en getransformeerd voordat ze zinvol kunnen worden geanalyseerd. De Tidyverse vereenvoudigt deze taken door een consistente en gebruiksvriendelijke set tools te bieden voor datamanipulatie, visualisatie en modellering. Het beheersen van de Tidyverse stelt analisten en onderzoekers in staat om efficiënter te werken en zorgt ervoor dat gegevens goed gestructureerd zijn en inzichten duidelijk gecommuniceerd worden.

De cursus is onderverdeeld in vier hoofdstukken, elk gericht op een kritieke fase van de data analyse pijplijn:

(1) Gegevens importeren en opschonen (de gegevens opschonen): Gegevens komen in verschillende formaten: CSV-bestanden, Excel-spreadsheets, databases en zelfs ruwe tekstbestanden. Voordat een zinvolle analyse kan plaatsvinden, moeten de gegevens worden geïmporteerd, gestructureerd en opgeschoond. Dit hoofdstuk introduceert de tools en best practices voor het omgaan met rommelige gegevens.

De belangrijkste onderwerpen zijn:

Gegevens importeren met behulp van de pakketten readr, readxl en haven, waarbij wordt gezorgd voor naadloze integratie met verschillende bestandstypen (bijv. CSV, Excel, JSON, SPSS, Stata).
Het concept van tidy data begrijpen, een gestructureerd formaat dat analyse vereenvoudigt en transformaties intuïtiever maakt.
Gegevens opnieuw vormgeven met behulp van het tidyr pakket, waaronder pivoteren tussen lange en brede formaten, kolommen scheiden en verenigen en hiërarchische gegevensstructuren hanteren.
Omgaan met ontbrekende waarden, dubbele invoer en inconsistenties, zodat er een schone en betrouwbare dataset ontstaat voor analyse.

(2) Gegevenstransformatie (gegevens samenvoegen en manipuleren): Zodra de gegevens schoon zijn, is de volgende stap gegevenstransformatie: filteren, samenvatten en wijzigen van datasets om zinvolle inzichten te verkrijgen. Dit onderdeel richt zich op dplyr, een van de krachtigste pakketten in het Tidyvers, dat een grammatica biedt voor het efficiënt werken met gestructureerde data.

De belangrijkste onderwerpen zijn:

Het filteren en selecteren van gegevens op basis van voorwaarden met behulp van functies zoals filter(), select() en arrange().
Het samenvatten en aggregeren van gegevens met group_by() en summarize(), waardoor diepere inzichten in trends en patronen mogelijk worden.
Meerdere datasets samenvoegen met behulp van verschillende soorten joins (inner, left, right, full), waardoor informatie uit meerdere bronnen kan worden geïntegreerd.
Het dynamisch creëren van nieuwe variabelen met mutate() en case_when(), die helpen om extra inzichten af te leiden uit bestaande gegevens.
Functioneel programmeren met purrr, wat efficiënte iteratie en manipulatie van lijsten en geneste gegevensstructuren mogelijk maakt.

(3) Visualisatie van gegevens: Na het opschonen en transformeren van de gegevens is de volgende stap het maken van effectieve visualisaties die de bevindingen duidelijk communiceren. Dit onderdeel introduceert ggplot2, het meest gebruikte R-pakket voor datavisualisatie, waarmee studenten informatieve en esthetisch aantrekkelijke plots kunnen maken.

De belangrijkste onderwerpen zijn:

De grammatica van grafieken: begrijpen hoe ggplot2 visualisaties structureert en waarom deze aanpak zo krachtig is.
Het maken van basisplots, waaronder scatterplots, lijndiagrammen, histogrammen en staafdiagrammen.
Esthetiek aanpassen, zoals kleurenschema's, thema's, labels, legenda's en annotaties om plots informatiever te maken.
Facetteren en groeperen van gegevens, zodat vergelijkingen tussen verschillende categorieën of tijdsperioden mogelijk zijn.
Meerdere plots combineren in dashboards of complexe visualisaties.
Best practices in datavisualisatie, die zorgen voor duidelijkheid, nauwkeurigheid en impact bij het communiceren van inzichten.

(4) Gegevensmodellering: De laatste stap in de data-analyse workflow is modellering, waarbij data wordt gebruikt om voorspellingen te doen of verborgen relaties bloot te leggen. Dit onderdeel introduceert het tidymodels framework, dat een consistente en gestroomlijnde aanpak biedt voor het bouwen van machine learning modellen in R.

De belangrijkste onderwerpen zijn:

Inleiding tot machine learning modellen: begrip van verschillende soorten modellen (bijv. regressie, classificatie) en hun toepassingen.
Het bouwen van voorspellende modellen met behulp van tidymodels, een modern raamwerk voor machine learning in R.
Het evalueren van modelprestaties met nauwkeurigheid, precision-recall, ROC-curves en kruisvalidatie.
Feature engineering en selectie, het verfijnen van modellen voor betere nauwkeurigheid en interpreteerbaarheid.
Modelresultaten interpreteren en integreren in de bredere data-analyse pijplijn.

Lees hieronder verder voor aanvullende cursusinformatie.

Intermediaire Gegevensanalyse met R en de Tidyverse

Wij helpen je graag op weg!

Direct naar

Studie

Uitgelicht

Over de VU