Nieuwe methode helpt Google Translate aan betere vertaling

Hoe weet Google Translate welke woorden de beste vertaling vormen van een bepaalde zin? Een team van UvA-onderzoekers ontwikkelde een nieuwe methode om computervertaalsystemen, zoals Google Translate, een handje te helpen. Met deze methode kunnen de juiste woordvormen worden gekozen in bepaalde grammaticaal complexe talen, zogeheten morfologisch rijke talen zoals het Duits. Dit gebeurt door de zinsopbouw en naburige woorden in de brontaal te analyseren, wat een betere vertaling tot gevolg heeft.

De resultaten van hun onderzoek presenteerden de onderzoekers op het toonaangevende internationale congres ‘Empirical Methods in Natural Language Processing’ (EMNLP 2014) in Qatar.

Wetenschappers zijn continu bezig om het vinden van de juiste vertaling voor een computervertaalsysteem eenvoudiger te maken. Bij sommige talen is dat namelijk zeer moeilijk, bijvoorbeeld wanneer de taal waar je naar wil vertalen (doeltaal) grammaticaal ingewikkelder is dan de te vertalen taal (brontaal).

De UvA-onderzoekers richtten zich specifiek op morfologisch rijke talen. Dit zijn talen die veel verschillende woordvormen per woordgroep kennen. Waar het Nederlands bijvoorbeeld de woordgroep ‘de man’ heeft, kent het morfologisch rijkere Duits meerdere woordvormen voor deze zelfde woordgroep: ‘der Mann’, ‘des Mannes’, ‘dem Mann’ en ‘den Mann’. De juiste vorm hangt af van de grammaticale functie van het woord in de zin. Bij het vertalen van een zin van het Nederlands naar het Duits, zal een menselijke vertaler die beide talen spreekt gemakkelijk de juiste keuze maken. Computervertaalsystemen hebben echter meer moeite met het maken van zulke keuzes. 

Kunstmatige neurale netwerken

"De nieuwe aan de UvA ontwikkelde methode maakt gebruik van kunstmatige neurale netwerken, modellen waarbij het menselijk brein wordt nagebootst in een computer. Waar voorgaande vertaalsystemen veelal de meest voorkomende woordvormen kiezen, kiest de nieuwe methode de juiste woordvorm door de zinsopbouw in de brontaal te analyseren. Het neurale netwerk is in staat zelf grammaticale functies van woorden af te leiden, zonder dat het expliciete kennis van grammatica heeft",  vertelt Ke Tran, een van de onderzoekers.

De methode is daarmee niet afhankelijk van handgeschreven regels om functies van woorden te leren, een beperking die veel voorgaande methoden kennen. Het verkrijgen van zulke handgeschreven voorbeelden kan namelijk lastig en kostbaar zijn, met name voor kleinschalige talen. 

In de toekomst wordt de methode geïntegreerd in een vertaalsysteem – Oister genaamd – dat de groep van Christof Monz ontwikkelt aan de UvA.

Het onderzoek wordt uitgevoerd onder leiding van Christof Monz binnen het NWO Vidi-project `Surface Realization in Statistical Machine Translation’.

  

Ke Tran, Arianna Bisazza en Christof Monz: ‘Word Translation Prediction for Morphologically Rich Languages with Bilingual Neural Networks.‘ Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.