Als de vertaalmachine plots een konijn van de rabbijn maakt
De droom om met een computer elke tekst te vertalen in om het even welke taal gaat al lang mee. De technologische vooruitgang brengt ons almaar dichterbij, maar de sterktes van de huidige technologie bevatten ook zwaktes.
Ging u aan het begin van deze eeuw op reis naar een exotisch land, dan mocht u zeker niet vergeten een zakwoordenboek mee te nemen, voor als u de weg wilde vragen of op een terras een drankje wilde bestellen. Tegenwoordig hoeft dat niet meer, want de meeste mensen hebben een meer dan adequate vertaalcomputer gewoon in hun broekzak steken: hun smartphone waarmee ze Google Translate kunnen oproepen.
Het toont aan hoe hard de evoluties gaan in het machinaal vertalen. Tegelijk is het elke gebruiker van die snufjes duidelijk dat we er nog lang niet zijn: geregeld worden woorden en zinnen als volstrekt koeterwaals vertaald.
Enkele jaren geleden werd een grote sprong voorwaarts gemaakt in vertaaltechnologie. Toen begonnen onderzoekers zogenaamde neurale systemen los te laten op teksten. Door het gebruik van algoritmes en statistische, wiskundige technieken kunnen die systemen patronen herkennen in teksten en verbanden opmerken tussen woorden die in een zin ver uit elkaar staan.
‘Met de technologieën die daarvoor bestonden, leverden machinale vertalingen heel vaak grammaticale onzin op’, zegt professor Lieve Macken, die verbonden is aan de faculteit Letteren en Wijsbegeerte van de UGent. ‘Neurale systemen zijn veel beter in staat de context van een zin in te schatten. Grammaticaal kunnen ze vaak hun mannetje staan.’
Om te weten waar de technologie nu staat, moet je een onderscheid maken tussen algemene systemen als Google Translate en propriëtaire systemen, zegt Macken. ‘Google en co. trainen hun systemen met miljoenen stukken ruwe tekst waarin ze proberen patronen te ontdekken. Dat lukt aardig, maar er is nog heel wat ruimte voor verbetering.’
Semantische verwarring
‘Propriëtaire systemen leveren vaak verrassend goede vertaalresultaten op. Dat komt omdat de instanties die ze gebruiken, zoals de Europese Commissie, ze trainen met eerdere vertalingen die heel erg op een bepaald domein zijn toegespitst. Die manier van werken is meteen de achilleshiel: zulke systemen moeten vooral ingezet worden in omgevingen waarin heel vaak dezelfde soort zinnen terugkomen, juridische departementen bijvoorbeeld. Voor pakweg marketingmateriaal of literatuur zijn ze veel minder geschikt.’
Google is een voortrekker in vertaaltechnologie, maar het heeft een grote uitdager.
Wat beter moet in de neurale systemen? Macken: ‘De grammatica beheersen ze dan wel redelijk goed, een kenmerk van zulke systemen is dat nog altijd heel wat semantische problemen opduiken in vertalingen, waardoor de betekenis verandert. Ze houden rekening met woorden waarvan de betekenis heel dicht bij elkaar ligt, zoals kat en katten, maar ook kat en hond. Maar net daar kan het fout gaan.’
‘Er is het bekende voorbeeld van de uitdrukking ‘the family rabbi’, de rabbijn van de familie, die een neuraal systeem vertaalde als ‘het familiekonijn’. Dus niet rabbi, maar rabbit. Of ‘an impoverished, single mother’ die in het Nederlands een ‘verarmde, eenzame moeder’ werd. Maar alleenstaand is niet hetzelfde als eenzaam.
Voor Google en co. ligt daar dus nog werk op de plank. Macken hoopt ook dat de vertaalbedrijven gaan werken aan systemen die zelf kunnen aangeven hoe zeker ze zijn van hun vertaling. ‘Het zou mooi zijn als er neurale systemen komen die de vertaler kunnen zeggen: ‘Hier moet je eens naar kijken, want ik ben er niet zeker van’. Dat zou het vertaalwerk nog een stuk vereenvoudigen.’
Afstand tussen bron- en doeltaal
Velen beschouwen Google (niet ten onrechte) als een van de grote voortrekkers in dit vakgebied, maar het bedrijf is zeker niet het enige dat zich met machinaal vertalen bezighoudt. ‘Een grote uitdager is DeepL, een bedrijf gelieerd aan de vertaalwebsite Linguee’, zegt Macken. ‘Doordat het met erg gestructureerde, ‘propere’ data werkt, heeft het zelfs een tijdje een voorsprong gehad op Google. Ondertussen is die voorsprong geslonken, maar er is dus meer dan Google. Bij bijvoorbeeld de bank KBC werkt heel de vertaalafdeling met DeepL-software.’
Zijn er talen die computers gemakkelijker kunnen vertalen dan andere? Die vraag is niet eenduidig te beantwoorden. ‘Veel hangt af van hoeveel data beschikbaar is en van de morfologische complexiteit van een taal. Duitse naamvallen vertalen is bijvoorbeeld geen sinecure voor een computer. Het ligt er ook aan hoever de bron- en de doeltaal van elkaar liggen. Nederlands-Engels zal waarschijnlijk vlotter gaan dan pakweg Javaans-Fins.’
Meest gelezen
- 1 Belfius wil stad Bergen niet financieren na doorbraak extreemlinkse PTB
- 2 Golf aan betaalbare e-auto’s op komst, met dank aan strenge uitstootregels
- 3 Nvidia overtreft opnieuw de verwachtingen
- 4 Topinvesteerders klimmen aan boord bij Waalse techparel Odoo
- 5 Gentse techspeler Lighthouse haalt 350 miljoen euro op en wordt miljardenbedrijf