Onderwijs Onderzoek Actueel Over de VU EN
Login als
Studiekiezer Student Medewerker
Bachelor Master VU for Professionals
HOVO Amsterdam VU-NT2 VU Amsterdam Summer School Honoursprogramma Universitaire lerarenopleiding
Promoveren aan de VU Uitgelicht onderzoek Prijzen en onderscheidingen
Onderzoeksinstituten Onze wetenschappers Research Impact Support Portal Impact maken
Nieuws Agenda Vrouwen aan de top
Israël en Palestijnse gebieden Cultuur op de campus
Praktische informatie VU en innovatiedistrict Zuidas Missie en Kernwaarden
Organisatie Samenwerking Alumni Universiteitsbibliotheek Werken bij de VU
Sorry! The information you are looking for is only available in Dutch.
Deze opleiding is opgeslagen in Mijn Studiekeuze.
Er is iets fout gegaan bij het uitvoeren van het verzoek.
Er is iets fout gegaan bij het uitvoeren van het verzoek.

Promotie M. Laurer 2 oktober 2024 09:45 - 11:15

Delen
Language Models as Measurement Tools

Computationeel sociaal wetenschapper Moritz Laurer toont hoe op instructie gebaseerde taalmodellen de beperkingen van oudere machineleertechnieken voor tekstclassificatie kunnen overwinnen. Laurer laat zien dat algoritmen kunnen leren om teksten te categoriseren met minder trainingsgegevens; nauwkeuriger in meerdere verschillende talen en op een minder bevooroordeelde manier. Hij toont aan hoe instructie-gebaseerde taalmodellen de validiteit, kracht en data-efficiëntie kunnen verhogen.

Overzicht van bevindingen
Moritz Laurer laat zien hoe dit type model de benodigde trainingsgegevens met een factor tien kan verminderen in vergelijking met eerdere algoritmen, terwijl hetzelfde prestatieniveau over acht taken wordt bereikt. Hij laat zien hoe deze modellen minder dan 2000 voorbeelden in twee talen nodig hebben om geldige metingen te doen in acht andere talen en tien andere landen. Laurer toont aan dat deze modellen robuuster zijn tegen groepsspecifieke vertekeningen. Hun gemiddelde prestaties in de testset nemen slechts marginaal af wanneer ze worden getraind op bevooroordeelde gegevens in experimenten met negen groepen uit vier datasets. Hij legt uit hoe deze modellen universele classificatie-instrumenten kunnen zijn die een willekeurig aantal classificatietaken tegelijkertijd kunnen leren in tests op 33 datasets met 389 klassen.

Relevantie en gecontroleerd machinaal leren
Van miljoenen berichten op sociale media tot tientallen jaren juridische tekst - steeds meer relevante informatie zit verborgen in digitale teksten die te groot zijn voor handmatige analyses. De belangrijkste kans van machinaal leren ("Artificial Intelligence") is om delen van het handmatige analyseproces te automatiseren.

Een populaire methode is supervised machine learning voor tekstclassificatie, waarbij een model wordt getraind op voorbeelden van handmatig gecategoriseerde teksten en deze categorieën leert herkennen in nieuwe teksten. Sociale computerwetenschappers hebben deze methode gebruikt om op schaal metingen te maken van concepten zoals emoties, onderwerpen of standpunten. Hoewel metingen met supervised machine learning ingeburgerd zijn in de literatuur over sociale wetenschappen, zijn er belangrijke beperkingen die de bruikbaarheid van gevestigde methoden voor veel praktische toepassingen verminderen.

Beperkingen van bestaande methoden
Ten eerste hebben deze methoden grote hoeveelheden uitgebalanceerde trainingsgegevens nodig om goed te werken. Onderzoekers hebben echter vaak maar beperkte middelen om trainingsgegevens te creëren en moeten nieuwe gegevens aanpassen aan elke nieuwe onderzoeksvraag. Ten tweede hebben oudere algoritmen moeite met meertalige data. Onderzoekers hebben echter metingen nodig die even geldig zijn voor verschillende culturen en talen. Ten derde zijn ze gevoelig voor het leren van snelkoppelingen en bevooroordeelde patronen uit hun trainingsgegevens, waardoor de geldigheid van metingen over sociale groepen heen afneemt. Ten vierde kunnen ze moeilijk te bedienen zijn, waardoor ze alleen toegankelijk zijn voor gespecialiseerde onderzoekers.

Het onderzoek van Moritz Laurer laat zien hoe instructie-gebaseerde taalmodellen kunnen helpen om deze beperkingen te boven te komen.

De modellen die hij ontwikkelde tijdens zijn promotie-onderzoek zijn meer dan 65 miljoen keer gedownload en zijn vrij beschikbaar op: https://huggingface.co/MoritzLaurer. 

Meer informatie over het proefschrift

Programma

Verdediging van de dissertatie door M. Laurer

Promotie Faculteit de Sociale Wetenschappen

Promotor:

  • prof.dr. W.H. van Atteveldt

Copromotoren:

  • dr. K. Welbers
  • dr. A. Casas Salleras

De promotie is tevens online te volgen.

Over Promotie M. Laurer

Startdatum

  • 2 oktober 2024

Tijd

  • 09:45 - 11:15

Locatie

  • Auditorium, Hoofdgebouw
  • (1e verdieping)

Adres

  • De Boelelaan 1105
  • 1081 HV Amsterdam

Volg de promotie online

Ga naar de livestream

Moritz Laurer

Moritz Laurer

Direct naar

Homepage Cultuur op de campus Sportcentrum VU Dashboard

Studie

Academische jaarkalender Studiegids Rooster Canvas

Uitgelicht

Doneer aan het VUfonds VU Magazine Ad Valvas Digitale toegankelijkheid

Over de VU

Contact en route Werken bij de VU Faculteiten Diensten
Privacy Disclaimer Veiligheid Webcolofon Cookies Webarchief

Copyright © 2025 - Vrije Universiteit Amsterdam