Automatische vertaalsystemen op rand van grote doorbraak: ‘Vertaaltechnologie is pure wiskunde’
Een automatisch vertaalsysteem dat gesproken taal meteen accuraat omzet in een andere taal is geen verre sciencefiction meer. Tenminste, als het beperkt blijft tot huis-, tuin- en keukenconversaties en veelgesproken talen. Ook hier worden data en artificiële intelligentie almaar belangrijker.
Er klonk applaus op alle banken toen het Duitse taaltechnologiebedrijf DeepL vier jaar geleden de taalrobot DeepL Translator lanceerde. Het Duitse bedrijf ontwikkelde neurale systemen voor automatische vertalingen op basis van Linguee, een databank met menselijke vertalingen. “Daar vind je contextgebonden vertalingen. In die zin was Linguee al een stuk geavanceerder dan een woordenboek”, zegt Lieve Macken, taaltechnoloog aan de UGent. “De teksten van de kleine speler DeepL bleken in veel opzichten van betere kwaliteit dan de vertaaltoepassingen van de technologiegiganten, zoals Google Translate.”
DeepL biedt ondersteuning aan 23 – hoofdzakelijk Europese – talen en heeft zich in ijltempo opgewerkt tot de vreemde eend in de bijt in de wereld van de automatische vertalingen. Die wordt gedomineerd door grote technologiebedrijven zoals Google, Facebook en Microsoft. Dat mag niet verbazen: onder de motorkap van alle automatische vertaalsystemen gaat een grotendeels vergelijkbare architectuur schuil. Ze zijn gebaseerd op artificiële intelligentie. De belangrijkste factor is de beschikbaarheid van zo veel mogelijk data om de neurale systemen te trainen. Die data zijn het werkkapitaal waarop zowat alle toepassingen van de grote technologiespelers draaien.
Vertaalgeheugen
“Eind jaren negentig begonnen vertalers mondjesmaat een beroep te doen op zogenoemde vertaalgeheugensystemen”, blikt Macken terug. “Die werken op basis van een reusachtige databank waarin alle ooit vertaalde zinnen zijn opgeslagen. Zulke databanken kunnen ook worden samengesteld op de maat van grote instellingen, sectoren en bedrijven. Ze zijn een soort startpunt waaraan vertalers nieuwe termen en zinnen kunnen toevoegen. Bedrijven die in een bepaalde sector actief zijn, moeten om de haverklap nieuwe handleidingen vertalen. Veel begrippen daarin keren telkens terug. Zo’n databank kan het werk van de vertalers gigantisch versnellen.”
Die vertaalgeheugensystemen zijn technologisch al fel achterhaald, omdat ze puur op basis van matching werken. Toch vormen ze nog altijd de basistechnologie voor zowat alle vertalers. Ze worden almaar meer gekoppeld aan automatische vertaalprogramma’s in de cloud, zoals Google Translate en DeepL. “In eerste instantie krijgen vertalers suggesties vanuit het vertaalgeheugensysteem, maar almaar vaker komen daar suggesties vanuit het automatische vertaalsysteem bovenop”, zegt Macken. “Bij grote instellingen en bedrijven zijn de suggesties steeds meer op de maat van hun eigen teksten en vocabularium gesneden.” Automatische vertalers werken almaar meer op basis van patronen, zoals vaak terugkerende woordcombinaties. In een automatisch vertaalsysteem stop je massaal veel documenten die eerder al zijn vertaald, waarna het op basis daarvan zo nauwkeurig mogelijk nieuwe teksten vertaalt.
Een van de belangrijkste innovaties in de neurale systemen is dat ze veel meer rekening houden met de context waarin bepaalde woorden of zinnen worden gebruikt’ Lieve Macken, UGent
“Tot pakweg vijf jaar geleden zat de puur terminologische vertaling doorgaans al behoorlijk goed, maar vaak liep de zinsstructuur achterop, zeker voor vertalingen naar het Nederlands”, legt Macken uit. “Sinds 2016 zijn de neurale systemen echt doorgebroken voor bepaalde taalcombinaties. In een systeem als Google Translate worden die voor almaar meer talen uitgerold. Een van de belangrijkste innovaties in die neurale systemen is dat ze ook veel meer rekening houden met de context waarin bepaalde woorden of zinnen worden gebruikt. Daarnaast laten ze ook toe om woorden te groeperen. Zo behoren ‘hond’, ‘staart’ en ‘blaffen’ tot dezelfde semantische ruimte, terwijl ‘hond’ en ‘kat’ in een andere semantische ruimte zitten. Tegelijk houden de neurale systemen rekening met syntactische criteria. Een automatisch vertaalsysteem zoals Google Translate vertrekt daarvoor van gigantisch veel data, van zowat alle teksten die in een bepaalde taal online te vinden zijn. Het is pure wiskunde: hoe meer data je in een bepaalde taal ter beschikking hebt, hoe sneller de systemen zichzelf kunnen trainen en verbeteren.”
Gesproken taal
Wellicht denkt u: leuk voor professionele vertalers, maar wat heb ik daaraan als individuele consument als ik in Portugal een huis wil kopen, of als bedrijf dat regelmatig internationale conferenties organiseert? Wel, de technologie die gesproken taal meteen omzet in een andere gesproken taal bouwt voort op die automatische vertaaltechnologie, en voegt er spraakherkenning en spraaksynthese aan toe. Er bestaat al een behoorlijk laagdrempelige en vrij universele automatische vertaler die gesproken taal in tientallen talen realtime kan omzetten in spraak in een andere taal. De Skype Translator van Microsoft kan gesprekken uit 60 talen vertalen naar 11 talen, onder meer naar het Engels, Spaans, Chinees, Arabisch en Russisch. Aan dat lijstje worden geregeld nieuwe talen toegevoegd. Ook met Microsoft Powerpoint kunt u al een presentatie maken voor een internationaal publiek, zodat de toehoorders ondertitels krijgen in hun moedertaal.
“We hebben de voorbij tien jaar flink wat progressie gemaakt”, bevestigt Tom Vanallemeersch. Hij is language technology adviser bij het Gentse CrossLang, een bedrijf dat al twintig jaar pioniert met automatische vertaling en dat advies verleent over taaltechnologie. “De meest kritische factor blijft de hoeveelheid data waarover we voor elke taal beschikken. Voor courante talen is er doorgaans geen probleem. Voor kleine talen of talen die over minder geschreven bronnen beschikken, is het een heel stuk moeilijker. Ook spraakherkenning – de omzetting van gesproken naar geschreven tekst – werkt nog niet feilloos.”
Een tweede pijnpunt bij spraaktechnologie is het domein waarin een conversatie zich afspeelt. In een toeristische context kunnen de meeste systemen terugvallen op een aantal vaak gehanteerde standaardzinnen, maar als het gesprek in een medische context plaatsvindt, wordt het een stuk lastiger. “Bovendien kan de huidige spraakherkenningstechnologie wel al duidelijk uitgesproken en goed afgescheiden zinnen aan, maar wordt het een heel ander verhaal als iemand een kwartier lang ononderbroken ratelt”, zegt Tom Vanallemeersch. “Het scenario waarin zo’n systeem een lange, willekeurige conversatie tussen twee mensen met een andere moedertaal realtime correct vertaalt, is nog niet meteen voor morgen. In een bepaalde context – neem een doktersbezoek – kunnen we ons ook niet veroorloven dat de resultaten van het systeem maar voor 90 procent exact zijn.”
Een derde pijnpunt is dat, zeker in enkele Aziatische talen, de gesproken formulering verschilt afhankelijk van de gezagsrelatie tussen twee sprekers. Vanallemeersch: “In het Thais hanteer je een andere woordenschat wanneer je met je baas praat dan wanneer je je kinderen iets opdraagt. We kunnen zulke contextafhankelijke variaties wel al aan voor puur tekstuele automatische vertalingen, maar voor spraakvertalingen is dat nog een brug te ver.”
Geen wonderen
Lieve Macken wijst erop dat automatische spraakvertaaltechnologie in enkele domeinen al een stevige meerwaarde kan bieden. “Voorlopig werkt die technologie nog maar met een beperkt aantal talen. Het gaat niet om een perfecte vertaling, maar de technologie is zeker voldoende kwalitatief om de tekst te begrijpen”, zegt ze. “Ik zie in zulke toepassingen een grote meerwaarde voor bepaalde beroepen die vaak worden geconfronteerd met migranten die naast hun moedertaal nauwelijks andere talen machtig zijn. Een technologie die de realtimevertaling van spraak naar spraak toelaat, is dan bijzonder interessant. Tegelijk mogen we ook nog geen wonderen verwachten. In zo’n context gaat het heel vaak om talen waarvan online nog maar heel weinig data beschikbaar zijn. Bovendien moeten we daarvoor een beroep doen op spraakherkenningstechnologie, waardoor de lat – in vergelijking met geschreven teksten – nog een stukje hoger ligt. Bij spraakherkenning bots je ook op de verschillen in uitspraak, of op het gebruik van uiteenlopende dialecten binnen één taal. Mede daardoor is de omzetting van gesproken taal naar tekst technologisch een stuk lastiger dan de vertaling van een geschreven tekst naar een andere geschreven tekst.”
Een simpele app waarmee we overal ter wereld realtime met iedereen kunnen communiceren, lijkt nog iets te hoog gegrepen. Wereldwijd worden zowat 7000 talen gesproken. Om die allemaal rechtstreeks van de ene naar de andere taal te kunnen vertalen, moeten er nog gigantisch veel data worden verzameld.
Europees project
De Europese Commissie heeft onder de vlag van het Connecting Europe Facility-project een bijzonder ambitieus programma rond spraak- en tekstherkenning opgestart. Dat werd onder meer ingegeven door de bezorgdheid dat we op termijn, zeker voor de kleine Europese talen, te afhankelijk zouden worden van de Amerikaanse technologiereuzen. Vooral voor specifieke toepassingen en minder vaak gesproken talen schiet een relatief generieke automatische vertaler zoals Google Translate nog vaak tekort. Het is zaak ook voor die kleine talen zo veel mogelijk data bij elkaar te brengen.
“Zulke Europese projecten kunnen ertoe bijdragen dat we minstens voor alle officiële talen in de Europese Unie sneller over meer trainingsdata beschikken”, verwacht Tom Vanallemeersch. “Het gros van de Europese documenten is openbaar. Maar de GDPR-wetgeving zorgt ervoor dat heel wat potentieel bruikbare data nog niet kunnen worden ingezet om automatische vertaalsystemen te trainen. Er zijn wel al projecten opgestart om gevoelige informatie, zoals namen en geboortedata, automatisch uit geschreven en gesproken teksten te filteren, zodat we die teksten toch kunnen gebruiken.”
Vanallemeersch maakt zich zorgen over de rol die de grote technologiereuzen in zijn sector almaar nadrukkelijker opeisen. “Ze investeren reusachtige bedragen om geanonimiseerde data aan te kopen, bijvoorbeeld bij contactcenters. Met die data gaan ze aan de slag om robots te trainen om automatische vertalingen te maken. In een eengemaakte Europese markt hebben wij er alle belang bij zo veel mogelijk data openbaar te maken en ter beschikking te stellen van zo veel mogelijk partijen. Hoogwaardige automatische vertaalsystemen helpen ook barrières weg te werken, en daarin kan de Europese Commissie een belangrijke rol op zich nemen. Als bedrijf zijn wij doorgaans actief in heel specifieke domeinen en ontwerpen we technologie voor heel complexe systemen. Op dat gebied boezemt de concurrentie van pakweg Google Translate en Microsoft ons niet meteen veel angst in, ook al omdat het verdienmodel van de grote technologiespelers niet op die vertaalsystemen steunt. Zij willen in eerste instantie zo veel mogelijk gebruikers lokken, waarbij vooral de datacollectie centraal staat.”
De universal translator van Star Trek
De universal translator kwam in 1945 voor het eerst voor in de sciencefictionroman First Contact van Murray Leinster, maar het was de razend populaire serie Star Trek die de universele vertaler wereldfaam bezorgde. Dankzij die machine konden mensen communiceren met buitenaardse wezens, van wie ze het taaltje realtime in het Engels kon weergeven. Die universele vertaler bracht vrede tussen de aardbewoners en de aliens, en deed wellicht sommige mensen hardop dromen. Maar vanuit wetenschappelijk oogpunt bekeken is de universele vertaler onzin. Zelfs het meest performante artificiële-intelligentiesysteem heeft eerst gigantisch veel data nodig alvorens het betrouwbare vertalingen kan produceren.
Fout opgemerkt of meer nieuws? Meld het hier