Deze vraag wordt vaak verwaarloosd vanwege de dominantie van het Engels en andere analytische Indo-Europese talen binnen de computationele taalkunde.
Het project maakt gebruik van de morfologische codering die ontwikkeld is aan het Eep Talstra Centre for Bible and Computer (ETCBC). Deze codering resulteert in een beknopt gestructureerde string. Deze string bevat de letters van de Hebreeuwse uitdrukking in getranslitereerde vorm, waarbij de coderingen in-line worden toegevoegd, in plaats van als markeringen of voetnoten. Dit betekent dat het proces van taalkundige codering geconceptualiseerd kan worden als de transformatie van de ene string naar een andere, waardoor sequence-to-sequence (seq2seq) modellen geschikt zijn voor de morfologische ontleding van flecterende talen.
Na het oorspronkelijke project dat werd gefinancierd door het Netherlands eScience Center, zijn we verder gegaan met het verbeteren van de voorspellingen voor morfologische coderingen die door de AI-modellen worden gegenereerd. Onze huidige focus ligt op Syrische teksten. Dankzij aanvullende ondersteuning worden de AI-gegenereerde coderingen handmatig herzien door Gegham Bdoyan, Matthias Benabdellah en Logan Copley, met gebruikmaking van Qoroyo, een tool ontwikkeld door Yusuf Çelik.
Meer over dit onderzoeksproject
Start-/einddatum:
Dit project loopt sinds 1 mei 2024
Team
Projectleider: Willem Th. van Peursen
Ontwikkelteam: Yusuf Çelik, Mathias Coeckelbergs (2021–2022), Martijn Naaijer en Constantijn Sikkel
eScience Center ondersteuning (2021–2022): Jisk Attema en Dafne van Kuppevelt
Correctie van AI-gegenereerde coderingen (vanaf 2023): Gegham Bdoyan, Matthias Benabdellah, Logan Copley
Fonds:
Mogelijk gemaakt door het eScience Center, de Peshitta Foundation, Brill Publishers en de Charis Foundation
Websites
Publication: A Transformer-based parser for Syriac morphology - ACL Anthology