Het project is gebaseerd op de ervaringen van meer dan vier decennia aan computationele linguïstische analyse van de Hebreeuwse Bijbel in het Eep Talstra Centre for Bible and Computer (ETCBC) en een aantal van de unieke aspecten van de codering van de ETCBC-database van de Hebreeuwse Bijbel. Deze unieke aspecten doen recht aan het feit dat Bijbels Hebreeuws, net als andere Semitische talen, een inflectionele taal is met een rijke morfologie.
Taalkundige annotaties automatiseren met Machine Learning
Wat in een woord gezegd kan worden in het Bijbelse Hebreeuws, heeft in een Engelse vertaling soms vijf of zes woorden nodig. Daarom is het beter om de onderdelen van een woord (morfemen) te coderen om taalkundige annotaties toe te voegen, dan de volledige woorden, zoals vaak wordt gedaan in het maken van Engelse of Nederlandse tekstcorpora. Het nadeel van deze manier van coderen is dat het erg arbeidsintensief is.
Het project “Morphological Parser for Inflectional Languages Using Deep Learning” zet Machine Learning in om het toevoegen van taalkundige annotaties voor Hebreeuwse en Syrische teksten te automatiseren. En het heeft de potentie om ook de annotatie van andere inflectionele talen, zoals Arabisch of Sanskriet, te automatiseren.
Het team
Het projectteam bestaat uit Wido van Peursen (aanvrager), Constantijn Sikkel, Martijn Naaijer, Mathias Coeckelbergs, Cody Kingham, en computerwetenschappers van het eScience Center. Het onderzoek vindt plaats binnen de context van de onderzoeksgroep “Digital Approaches to Sacred Texts”.
Wat is eScience Center?
Van Peursen: “Het eScience Center is een leidend instituut voor het gebruik van digitale methoden in academisch onderzoek. Het instituut ondersteunt onderzoekers vanuit alle disciplines. Wij zijn erg dankbaar voor deze kans om met het toegewijde team van Research Software Engineers van het e-Science Center samen te mogen werken.”
Lees het nieuwsartikel over de toekenning op de website van eScience Center.