Voor de beste ervaring schakelt u JavaScript in en gebruikt u een moderne browser!
Je gebruikt een niet-ondersteunde browser. Deze site kan er anders uitzien dan je verwacht.
Welke rol speelt technologie in het werk van wetenschappers aan de Universiteit van Amsterdam? In deze serie gaan we daarover in gesprek met onderzoekers van de faculteit FNWI. Dit keer praten we met Raquel Fernández, hoogleraar Computationele Taalkunde & Dialoogsystemen. Zij ontwikkelt computermodellen om taal beter te integreren in de digitale wereld.
Raquel Fernández
Raquel Fernández

Het eerste gesprek tussen een mens en een machine vond plaats in 1966 met de ontwikkeling van ELIZA, de eerste chatbot die gebruikmaakte van natuurlijke taalverwerking (NLP). ELIZA kon trefwoorden uit de invoer van de gebruiker identificeren en deze koppelen aan een voorgeprogrammeerd antwoord. Het begreep het gesprek alleen niet echt en genereerde vaak vreemde antwoorden. Tegenwoordig is het normaal om met een chatbot te praten en een functioneel gesprek te voeren. Hoe zijn deze tools verbeterd en hoe kunnen we ze nog beter maken?

Dit is waar Raquel Fernández, hoogleraar aan ons UvA Institute for Logic, Language & Computation (ILLC), aan werkt. Haar onderzoeksgroep richt zich voornamelijk op 'taal in context'. Fernández legt uit: ‘We kijken naar hoe taal wordt gebruikt in combinatie met andere soorten informatie, bijvoorbeeld visuele informatie.’ Haar team onderzoekt hoe deze interacties op de computer kunnen worden gemodelleerd.

Automatisch afbeeldingen beschrijven

Een toepassing hiervan is het maken van een model dat automatisch afbeeldingen kan beschrijven. Fernández: ‘Voor gebruikers die bijvoorbeeld vanwege een visuele beperking dingen om zich heen niet kunnen zien, hebben we een systeem nodig dat hen automatisch in natuurlijke taal vertelt wat er is. We ontwikkelen modellen om dit mogelijk te maken.’

Hoewel geavanceerde systemen al beschrijvingen van afbeeldingen kunnen genereren, is het nog steeds een uitdaging. ‘Als je een afbeelding ziet en je wordt gevraagd wat erop staat, ga je niet alles beschrijven wat je ziet. Dus het selecteren van wat het waard is om te zeggen, is al een uitdaging,’ zegt Fernández Rovira. Bovendien varieert de stijl waarin je iets zegt, afhankelijk van de context.

Dus hoe pak je deze uitdagingen aan? Een machine learning-model kan leren hoe het afbeeldingen kan beschrijven door het te trainen op verschillende soorten informatie. Het meest voorkomende type is beschrijvingen die door mensen worden gegeven. Fernández: ‘We hebben een systeem ontworpen dat ook leert van eye tracking data, dus informatie over waar mensen naar kijken als ze de afbeelding beschrijven. Dit onthult wat ze belangrijk vinden.’

Handgebaren

De invloed van gebaren

Gebaren zijn een ander type visuele informatie, wat erg belangrijk is in communicatie. Fernández: ‘Wanneer we face-to-face praten, gebruiken we veel aanwijzingen die verder gaan dan wat we zeggen, zoals je handen bewegen of knikken. Gebaren komen heel natuurlijk voor ons, en het is onderdeel van onze communicatie. Een virtuele avatar die bijvoorbeeld geen gebaren maakt, zou heel onnatuurlijk zijn.’

Haar onderzoeksgroep heeft daarom een systeem ontwikkeld dat automatisch gebaren kan detecteren in video’s van gesprekken. De onderzoekers hebben dit systeem samen met cognitiewetenschappers van het Max Planck Instituut voor Psycholinguïstiek in Nijmegen gemaakt. Deze technologie is een heel handig hulpmiddel voor de wetenschappers in Nijmegen, omdat ze nu gebaren kunnen bestuderen zonder ze handmatig te hoeven bijhouden.

Fernández: ‘Ik denk dat dit een hele fijne samenwerking was, waarbij we iets creëerden voor fundamenteel onderzoek, maar het werd overgebracht naar een ander vakgebied, cognitieve wetenschappen, waar het meer praktisch nut heeft in hun studies.’

Machine learning

Om deze computermodellen te maken, gebruikt de onderzoeksgroep van Fernández machine learning als een kerntool. Fernández legt uit: ‘We vertrouwen op data, bijvoorbeeld menselijke beschrijvingen van afbeeldingen, en machine learning-systemen leren van deze data. Voordat machine learning zo grootschalig werd gebruikt, waren de benaderingen meer handmatig, dus de analyse was op kleinere datasets.’

Chatbot op een mobieltje

De afgelopen jaren is er een enorme verbetering geweest in door computers gegenereerde tekst. Fernández merkt op: ‘In natuurlijke taalverwerking hebben we een verbazingwekkende verbetering gezien. Voorheen was het erg moeilijk om een systeem te creëren dat op een natuurlijke manier taal genereert. Nu hebben we al deze systemen die hele vloeiende taal genereren.’

Vertrouwen op taaltechnologieën

Hoewel systemen zoals ChatGPT vloeiende tekst genereren, is de output niet altijd correct of gepast. De systemen kunnen zich ook anders gedragen in verschillende talen. Ze zijn doorgaans beter in het Engels, wat nadelen kan opleveren voor sprekers van andere talen.

Desondanks vertrouwen veel mensen op deze technologieën, waarbij sommigen zelfs ChatGPT als zoekmachine gebruiken. Het blijft echter onduidelijk hoe zeker het model is van zijn antwoorden en of ze accuraat zijn. Fernández: ‘Mijn onderzoeksgroep werkt aan het vastleggen van het niveau van onzekerheid van een model en het bedenken van de beste manier waarop het model dat kan uitdrukken. Het is erg belangrijk om die informatie aan de gebruiker te geven, zodat de technologie vertrouwd kan worden.’

Deze taaltechnologieën worden veel gebruikt, waardoor het cruciaal is om ervoor te zorgen dat ze betrouwbaar en robuust zijn – een doel waaraan de onderzoeksgroep van Fernández zich inzet om bij te dragen. ‘Ik hoop dat onze onderzoekers impact kunnen hebben door deze technologieën eerlijker, betrouwbaarder en over het algemeen beter te maken.’