‘Computer kan taalwetenschapper goede richting op duwen’
Tientallen jaren hebben taalwetenschappers zich het hoofd gebroken over de vraag hoe de zinsbouw van talen precies verschilt. Promovendus Martin Kroon ontwikkelde een computersysteem dat een antwoord dichterbij brengt. Promotie op 10 november.
Wie weet hoe talen overeenkomen en verschillen, is een stap dichter bij begrijpen hoe onze hersenen werken. Wanneer er een structuur wordt ontdekt die talen delen, kan dat ons immers veel vertellen over de wijze waarop ons brein omgaat met taal. Tot nu toe bleek het echter lastig om alle verschillen en overeenkomsten tussen talen in kaart te brengen. ‘Dat gaat allemaal met de hand, maar er zijn ontzettend veel talen en in principe oneindig veel zinnen die je daarin kunt genereren’, vertelt Kroon. Dat maakt dat er een kans op bias is. ‘Je moet van tevoren selecteren wat je met elkaar gaat vergelijken, waardoor je dingen over het hoofd kunt zien of juist dingen bevestigd ziet die helemaal niet zo vaak voorkomen.’
Taal comprimeren
Kroon besloot het daarom anders aan te pakken. Met een computersysteem moest het lukken om verschillende talen op grotere schaal met elkaar te vergelijken. ‘Ik heb vooral gebruikgemaakt van transcripten van EU-vergaderingen, omdat die in alle talen van de Europese Unie worden vertaald’, vertelt hij, waarna hij uitlegt hoe hij twee methodes losliet op de data. ‘Ik werd eerst gegrepen door het Minimum Description Length principe. Dat is eigenlijk een kwestie van comprimeren, net als wat je doet op je computer: hoe maak je grote data zo klein mogelijk, zodat ze in een zip-bestand passen? MDL zoekt daarvoor naar patronen die vaak voorkomen, maar niet te lang zijn. In het Nederlands is dat bijvoorbeeld ‘lidwoord+zelfstandig naamwoord’. Dat patroon is goed te comprimeren én je vindt het niet in bijvoorbeeld het Tsjechisch, want dat heeft geen lidwoord.’
Het systeem bleek te werken. In de transcripten doken patronen op die duidden op syntactische overeenkomsten en verschillen, maar tegelijkertijd vond de computer regelmatig een verschil dat bij nader inzien weinig met zinsbouw te maken had. ‘Sommige teksten zijn met de hand vertaald, waardoor ze syntactisch niet meer te vergelijken zijn’, vertelt Kroon. ‘Het Engelse “to the matter at hand” werd dan “en nu het eigenlijke onderwerp”. Dat betekent hetzelfde, maar qua zinsbouw en structuur is het totaal iets anders.’
Engels projecteren op het Hongaars
Bovendien werkte de wijze waarop de talen taalkundig werden beschreven niet altijd mee: beschrijvingen van taalkundige fenomenen die in het Nederlands werden gebruikt, waren niet terug te vinden in het Tsjechisch en vice versa. Zo werd het Nederlandse te zoals in te doen structureel getagd als voorzetsel, terwijl de Engelse tegenhanger to structureel als partikel werd getagd. Of arbitrairder: de Europese Unie werd in het Tsjechisch vaak getagd als ‘bijvoeglijk naamwoord+zelfstandig naamwoord’, terwijl het in het Engels het label ‘eigennaam’ krijgt. ‘Ik heb daarom bij de tweede test de annotaties van de ene taal op een andere, niet-geannoteerde taal geprojecteerd’, vertelt Kroon. ‘Omdat ik inmiddels te veel wist van het Tsjechisch, richtte de tweede test zich op het Hongaars. Eerst moest worden uitgevogeld welke woorden elkaars tegenhanger zijn in zinnen waardoor er vervolgens kon worden gezegd: dit is in het Engels de persoonsvorm, dan is dit in het Hongaars waarschijnlijk ook de persoonsvorm.’
Ondertussen stelde een Hongaarse zinsbouwexpert handmatig een lijst met verschillen tussen het Engels en het Hongaars op. In het ideale geval zou de software dezelfde karakteristieke overeenkomsten en verschillen vinden. ‘Dat is niet helemaal gelukt’, moet Kroon toegeven. ‘We zagen dat veel van de hypothesen die ik op basis van de software heb opgesteld klopten. Tegelijkertijd is het nog niet gelukt om alle karakteristieke verschillen te vinden. Mijn resultaten kunnen de taalwetenschapper dus vooral de goede richting op duwen: ga hier eens kijken, want dit zijn misschien interessante patronen. Maar helemaal automatisch? Vooralsnog is de menselijke interpretatie daarvoor nog te hard nodig.’
‘Onze gedachten bestaan uit taal’
Meer onderzoek is dus noodzakelijk. En volgens Kroon is dat zeker de moeite. ‘Al het onderzoek begint met een vraag en die vraag kan alleen bestaan omdat we onze gedachten onder woorden kunnen brengen. Dat maakt dat taal wat mij betreft net zo belangrijk is om te onderzoeken als al het andere.’
Dit onderzoek is een goed voorbeeld van interdisciplinair onderzoek op het gebied van kunstmatige intelligentie, zoals dat wordt uitgevoerd door het Leidse interdisciplinaire onderzoeksprogramma Society, Artificial Intelligence and Life Sciences (SAILS).