Computationeel sociaal wetenschapper Moritz Laurer toont hoe op instructie gebaseerde taalmodellen de beperkingen van oudere machineleertechnieken voor tekstclassificatie kunnen overwinnen. Laurer laat zien dat algoritmen kunnen leren om teksten te categoriseren met minder trainingsgegevens; nauwkeuriger in meerdere verschillende talen en op een minder bevooroordeelde manier. Hij toont aan hoe instructie-gebaseerde taalmodellen de validiteit, kracht en data-efficiëntie kunnen verhogen.
Overzicht van bevindingen
Moritz Laurer laat zien hoe dit type model de benodigde trainingsgegevens met een factor tien kan verminderen in vergelijking met eerdere algoritmen, terwijl hetzelfde prestatieniveau over acht taken wordt bereikt. Hij laat zien hoe deze modellen minder dan 2000 voorbeelden in twee talen nodig hebben om geldige metingen te doen in acht andere talen en tien andere landen. Laurer toont aan dat deze modellen robuuster zijn tegen groepsspecifieke vertekeningen. Hun gemiddelde prestaties in de testset nemen slechts marginaal af wanneer ze worden getraind op bevooroordeelde gegevens in experimenten met negen groepen uit vier datasets. Hij legt uit hoe deze modellen universele classificatie-instrumenten kunnen zijn die een willekeurig aantal classificatietaken tegelijkertijd kunnen leren in tests op 33 datasets met 389 klassen.
Relevantie en gecontroleerd machinaal leren
Van miljoenen berichten op sociale media tot tientallen jaren juridische tekst - steeds meer relevante informatie zit verborgen in digitale teksten die te groot zijn voor handmatige analyses. De belangrijkste kans van machinaal leren ("Artificial Intelligence") is om delen van het handmatige analyseproces te automatiseren.
Een populaire methode is supervised machine learning voor tekstclassificatie, waarbij een model wordt getraind op voorbeelden van handmatig gecategoriseerde teksten en deze categorieën leert herkennen in nieuwe teksten. Sociale computerwetenschappers hebben deze methode gebruikt om op schaal metingen te maken van concepten zoals emoties, onderwerpen of standpunten. Hoewel metingen met supervised machine learning ingeburgerd zijn in de literatuur over sociale wetenschappen, zijn er belangrijke beperkingen die de bruikbaarheid van gevestigde methoden voor veel praktische toepassingen verminderen.
Beperkingen van bestaande methoden
Ten eerste hebben deze methoden grote hoeveelheden uitgebalanceerde trainingsgegevens nodig om goed te werken. Onderzoekers hebben echter vaak maar beperkte middelen om trainingsgegevens te creëren en moeten nieuwe gegevens aanpassen aan elke nieuwe onderzoeksvraag. Ten tweede hebben oudere algoritmen moeite met meertalige data. Onderzoekers hebben echter metingen nodig die even geldig zijn voor verschillende culturen en talen. Ten derde zijn ze gevoelig voor het leren van snelkoppelingen en bevooroordeelde patronen uit hun trainingsgegevens, waardoor de geldigheid van metingen over sociale groepen heen afneemt. Ten vierde kunnen ze moeilijk te bedienen zijn, waardoor ze alleen toegankelijk zijn voor gespecialiseerde onderzoekers.
Het onderzoek van Moritz Laurer laat zien hoe instructie-gebaseerde taalmodellen kunnen helpen om deze beperkingen te boven te komen.
De modellen die hij ontwikkelde tijdens zijn promotie-onderzoek zijn meer dan 65 miljoen keer gedownload en zijn vrij beschikbaar op: https://huggingface.co/MoritzLaurer.
Meer informatie over het proefschrift