Generic

Leren uit menselijke onenigheid

Share this post:

Door Robert-Jan Sips, University Relations Manager bij IBM

Een van de grote open onderzoeksgebieden in de Artificial Intelligence is het verwerken van taal, of liever gezegd, natuurlijke taal (het zogenaamde “Natural Language Processing”).

In de afgelopen jaren is grote vooruitgang geboekt op dit terrein. Een van de hoogtepunten hierin is het IBM Watson vraag- en antwoordsysteem, wat in staat is om vanuit bronnen in natuurlijke taal (bijvoorbeeld Wikipedia) vragen te beantwoorden.

Om dit soort bronnen toegankelijk te maken voor een computersysteem, wordt informatie beschreven via een ‘ontologie’, een – uitputtende – verzameling van entiteiten in een domein en een beschrijving van de relaties hiertussen. Denk bijvoorbeeld aan een stoel: een ontologie zou kunnen beschrijven dat een ‘stoel’ en een ‘chair’ hetzelfde concept zijn en dat dit een ‘zitmeubel’ is, net als een ‘bank’.

Wanneer we het voorbeeld van de stoel en de bank echter nogmaals bekijken, komt gelijk een van de grote problemen van taal-redeneren naar voren. Taal is dubbelzinnig en vaak vaag. Wanneer ik naar de bank ga, kan ik bedoelen dat ik ga zitten – bijvoorbeeld voor de televisie – of dat ik ga pinnen. Dit soort informatie zit vaak verpakt in de impliciete context van hoe iets gezegd wordt, of in extra kennis die een menselijke lezer toevoegt aan een zin.

Voor het bouwen van het Watson-systeem zijn op deze manier zeer veel verschillende tekstbronnen, door middel van ontologieën, toegankelijk gemaakt. Dit gebeurde door mensen deze teksten te laten ‘annoteren’, oftewel de woorden in deze teksten te koppelen aan een begrip uit een ontologie.

Erger wordt het wanneer menselijke annotators het oneens zijn over de betekenis van een woord. Denk bijvoorbeeld aan de zin:

“Tom Hanks gaf een interview vanaf de set van Apollo 13”.

Wanneer we mensen vragen of deze zin aangeeft dat Tom Hanks in Apollo 13 heeft gespeeld, zal een deel van hen antwoorden dat dit het geval is, omdat hij een bekende acteur is en – gezien hun kennis over acteurs – waarschijnlijk niet op een filmset zou zijn als hij er zelf geen rol in had. Ook zullen sommige mensen weten dat Tom Hanks in deze film speelde. Uit de zin wordt echter niet duidelijk dat Tom Hanks in deze film speelde. Er zullen dus ook mensen zijn die de vraag ontkennend beantwoorden.

In het verleden werd getracht deze onenigheid te voorkomen, door zeer strikte richtlijnen te gebruiken voor annotators. Hierdoor gaat echter veel verloren. Het feit dat er discussie  is over een bepaalde zin, geeft wellicht juist het meeste informatie voor een computer die probeert taal te begrijpen.

Dit is exact het domein waarop Dr. Lora Aroyo van de Vrije Universiteit in Amsterdam onderzoek doet. Zij ontving 10 december jongsleden een IBM Faculty Award voor haar werk waarin getracht wordt juist te leren van menselijke onenigheid, door middel van technieken uit de crowdsourcing.

 In deze presentatie licht zij het onderzoek en de eerste resultaten toe. In de komende tijd zal zij dit onderzoek voortzetten, in samenwerking met IBM Research en het IBM Center for Advanced Studies. Wij houden u graag verder op de hoogte via deze blog!

More stories

Is regulation enabling or hindering innovation in the financial services industry?

Anne Leslie, Cloud Risk & Controls Leader Europe, IBM Cloud for Financial Services Europe’s financial services sector is in the throes of wide scale digital transformation – a transition being accelerated by the growing adoption of digital solutions and services to help keep up with the demands of digitally savvy consumers. While there can be […]

Continue reading

The Digital Operational Resilience Act for Financial Services: Harmonised rules, broader scope of application

The Digital Operational Resilience Act – what and why As part of the European Commission’s Digital Finance Package, the new Digital Operational Resilience Act, or in short DORA, will come into force in the coming period. The aim of DORA is to establish uniform requirements across the EU that improve the cybersecurity and operational resilience […]

Continue reading

Banking on empathy

Suppose you’re owning a small boutique wine shop and have gone through two difficult years because of the Covid-19 pandemic. As the pandemic seems to be on its way back, it is time to revitalize the shop. And this causes direct a huge challenge: the wine stock needs to be replenished but you have used […]

Continue reading