Translate Milfy!

dinsdag 4 april 2017

Herken de herkomst aan de taal: goed idee?

door Sterre Leufkens

Hoe weet je waar iemand vandaan komt? Zie je dat aan zijn kleding? Aan zijn haarkleur? Of is bepaald gedrag bepalend? Dat lijkt toch allemaal vrij oppervlakkig. Een van de beste manieren om iemands herkomst te bepalen lijkt toch zijn taal te zijn. Op basis van dat principe proberen immigratiediensten in binnen- en buitenland al jarenlang om te bepalen of vluchtelingen wel echt uit de streek komen waar ze zeggen vandaan te komen. Ook recent was het weer in het nieuws: Duitsland wil automatische spraakherkenning inzetten om de herkomst van immigranten te bepalen. Is dat een goed idee? Doen we dat in Nederland eigenlijk ook? En hashtag hoe dan?


Als je in Nederland asiel aanvraagt, gaat de IND bekijken of je in aanmerking komt voor een verblijfsvergunning. Je moet dan vertellen waar je vandaan komt, en waarom en hoe je gevlucht bent. De IND gaat controleren of je verhaal klopt. In sommige gevallen maken ze daarbij gebruik van een taalanalyse. Een linguïst analyseert dan, met behulp van een moedertaalspreker van de taal in kwestie, een opname van de taal van de asielzoeker. Als accent, woordkeuze, en andere kenmerken overeenkomen met waar de asielzoeker zegt vandaan te komen, dan is dat een goede aanwijzing dat het verhaal klopt. 

Dat lijkt allemaal logisch genoeg. Toch hebben taalkundigen de afgelopen jaren kritiek geuit op de taalanalyses (zie hier een aantal publicaties erover). Ze zeggen bijvoorbeeld dat de opname die gemaakt wordt, niet representatief is: de asielzoeker zit in een superspannende situatie, die om formeel taalgebruik vraagt, terwijl de IND nou juist alledaagse taal wil. Als iemand 'gek' klinkt op die opname, ligt dat misschien aan de rare opnamesituatie. Een ander probleem is dat moedertaalsprekers helemaal niet per se goed zijn in het herkennen en plaatsen van accenten en andere regionale taalvarianten (zie 2.2 hier voor een overzicht van onderzoek hiernaar in Nederland en België). Ga het zelf maar na: een Brabants accent is nog wel herkenbaar, maar zou je een Zeeuws accent ook goed kunnen plaatsen? Of het dialect van Urk? En wat als iemand een jaar lang gereisd heeft en zijn moedertaal niet heeft gebruikt: is zijn accent dan nog hetzelfde? Zowel aan de representativiteit van de opname, als aan het oordeel van de moedertaalsprekers, kun je dus twijfelen. Ondanks deze vraagtekens heeft de IND de methode een tijd lang gebruikt. Zelf wijzen ze erop dat beslissingen nooit ondoordacht worden genomen. Er is altijd een expert die het oordeel van de moedertaalspreker afweegt.

Precies die expertise ontbreekt echter in het Duitse systeem. Ook daarin wordt de opname van een asielzoeker naast opnames van een spreker van dezelfde taal en hetzelfde dialect gelegd, maar niet door een native speaker of linguïst, maar door een computer. Maar dat is problematisch! Zelfs tussen sprekers van hetzelfde dialect kunnen grote verschillen bestaan. Dat kan op basis van leeftijd, geslacht, taalachtergrond (welke andere talen spreek je, welke andere talen heb je de afgelopen tijd veel gesproken), omgeving (formeel of informeel, welke taal spreekt je gesprekspartner), en ga zo maar door. Kenners van spraakherkenningssoftware zeggen dan ook dat het risicovol is om sprekers te vergelijken met opnames: een computer heeft het te vaak fout.  

Een belangrijke andere factor in het mogelijke succes van spraakherkenningssoftware is de hoeveelheid beschikbare data. We weten al langer dat zulke software niet goed werkt wanneer die te weinig input in een bepaalde taal(variëteit) heeft gehad (lees dit maar eens over het Schots). In het Duitse artikel over het systeem zegt computertaalkundige Dirk Hovy het ook: om zoiets goed te laten werken, moet je een grote hoeveelheid data in de taal in kwestie hebben. Die is lang niet voor alle talen beschikbaar, laat staan voor alle varianten van talen (zoals specifieke dialecten). Dat maakt het hele zaakje gevaarlijk: je wil zo'n belangrijke analyse toch niet op gebrekkig bewijs baseren?

In het NOS-artikel staat gelukkig de geruststellende mededeling dat de uitkomst van de spraakherkenningstest in Duitsland niet beslissend zal zijn - de dienst gaat meerdere 'Indikatoren' gebruiken. Laten we hopen dat het uiteindelijke oordeel altijd weloverwogen genomen wordt door een ervaren en kundig mens. Computers zijn razend knap, maar dit soort beslissingen kunnen we op dit moment absoluut niet aan ze overlaten.

1 opmerking:

  1. Interessant. Op de school waar ik werk worden veel dialecten gesproken door leerlingen. Ik vind het een sport vervolgens te zeggen waar een leerling vandaan komt.

    BeantwoordenVerwijderen