Op weg naar een computer die Nederlands verstaat

De Engelse uitdrukking ‘to love someone’ wordt in de Nederlandse vertaling ‘van iemand houden’. Weinig mensen zullen daar problemen mee hebben, maar een computer zal vast en zeker denken dat je het over ‘iets vasthouden’ hebt. Het hangt immers van de context af wat een woord betekent: ‘houden van’ is hier ‘to love’, maar hoe moet een computer dat weten? Taalkundige Kilian Evang bedacht een oplossing voor dit probleem. Hij promoveerde donderdag 26 januari met NWO-financiering aan de Rijksuniversiteit Groningen.

Mensen communiceren in natuurlijke taal. Als we willen dat computers kunnen reageren op gesproken commando’s of dat ze zelfstandig nieuwe inzichten verwerven uit tekst, moeten we ervoor zorgen dat ze ons kunnen begrijpen. Een ‘semantische ontleder’ is een programma dat zinnen in natuurlijke taal vertaalt naar iets wat een computer kan begrijpen, zoals computercommando’s of logische formules. Ondanks recente vooruitgang is het meeste onderzoek hiernaar gefocust op het Engels. Hierdoor kunnen semantische ontleders voor andere talen de nieuwe ontwikkelingen vaak niet bijbenen.

Kilian Evang: "Zelfs als een computer al weet hoe hij Engelse zinnen semantisch moet analyseren, heeft hij daarom nog geen verstand van andere talen, zoals Nederlands. Om een semantische ontleder voor het Nederlands te maken zou een mensenhand data kunnen annoteren. Maar dat is een duur en arbeidsintensief traject dat je ook nog eens voor elke taal apart moet inzetten. Daarom pas ik ‘taaloverschrijdend leren’ toe. Hierbij probeert de computer de nodige kennis zelfs te verwerven door naar voorbeeldzinnen en hun vertalingen te kijken."

Grammaticaal bouwwerk

Evang: "Een voorbeeld hiervan is ‘She likes to read books’/’Ze leest graag boeken’, dat is een betere vertaling dan ‘Zij houdt (ervan) boeken te lezen’.De computer moet leren dat de semantiek van de zinsdelen ‘likes to’ en ‘graag’ dezelfde zijn terwijl ze syntactisch verschillen. Om dit soort syntactische verschillen tijdens het leren op te lossen, heeft de computer een ‘grammaticaal bouwwerk’ nodig dat toepasbaar is op alle natuurlijke talen."

Uit het proefschrift van Evang blijkt dat je met het grammaticale systeem ‘Combinatory Categorial Grammar’ (CCG) een heel eind komt. Het kan omgaan met veel structurele verschillen tussen zinnen en hun vertalingen en kan de basis zijn voor een semantische ontleder die taaloverschrijdend voor het Nederlands kan worden ingezet.

Een volstrekt foutloos systeem is utopisch, aldus de onderzoeker, maar de door hem onderzochte methode kan wel een grote verbetering opleveren. Wie weet kan een computer over een tijdje een voor mensen simpele maar voor computers complexe zin als ‘Over wie denk je dat Maria het heeft?’ zonder moeite begrijpen en beantwoorden.

K. (Kilian) Evang (1986) voltooide zijn proefschrift "Cross-lingual Semantic Parsing with Categorial Grammars" aan de Faculteit der Letteren van de Rijksuniversiteit Groningen met NWO-financiering binnen het Vernieuwingsimpulsproject (Vici) ‘Lost in Translation – Found in Meaning’. Hoofdaanvrager was prof.dr. J. (Johan) Bos.