EU verkiezingen methodologie - taalanalyse

Hoe we de partijprogramma’s voor de Europese verkiezingen hebben doorgeworsteld

190.000 woorden in 16 programma's

EU verkiezingen methodologie - taalanalyse

Alle zestien partijprogramma’s voor de verkiezingen van 2019 zijn door de OpenState Foundation verzameld. Partijprogramma's van de laatste EU verkiezingen (2014) komen bij de Radboud Universiteit vandaan.

De PDF-bestanden met de programma’s van 2014 en 2019 hebben we eerst naar tekst overgezet met pdftotext. Dit heeft ons een verzameling van teksten opgeleverd - zogenaamde corpus. Daarna hebben we voor zover mogelijk woorden uit de teksten gehaald die geen betekenis op zich hebben zoals ‘de’, ‘het’, ‘en’, ‘niet’, enz. De resterende woorden in het corpus hebben we met de hulp van Ko van der Sloot van de Radboud Universiteit gelemmatiseerd, oftewel naar hun basisvorm omgezet. Zo is bijvoorbeeld het woord ‘veilige’ ‘veilig’ geworden.

Vervolgens hebben we alle woorden een gewicht toegewezen met de hulp van TF-IDF - een taalkundige methode die de belangrijkste woorden in het corpus naar boven brengt. Om woorden die belangrijker in de programma’s van 2019 zijn dan in 2014 hebben we voor elk woord het gewicht van 2019 vergeleken met dat van 2014.

De top 100 woorden die op deze manier naar boven kwamen, hebben we op thema gecategoriseerd: zo zijn bijvoorbeeld woorden als ‘vergroening‘ of ‘co2‘ in de categorie ‘klimaat‘ terecht gekomen. Met deze woorden als basis hebben we vervolgens andere woorden gezocht die bij het thema passen met de volgende gedeeltelijke matching:

  • klimaat : groen | duurzaam | co2 | klimaat | ecoloog | fossiel | plastic
  • migratie : grens | migra | afrika | vlucht
  • veiligheid : veilig | leger | terror

Dit leverde ook woorden op zoals ‘cyberveiligheid’, ‘klimaatneutraliteit’ en ‘grensversterking’.

Woordfrequentie

Voor de interactieve tool hebben we voor elk partijprogramma de frequentie van elk woord op 100 woorden uitgerekend. Dit door het aantal keer dat een woord voorkomt te delen door het totale aantal woorden in het programma en vermeervoudingen door 100.

Limitaties

  1. We kijken naar woorden die vaker voorkomen dan in 2014 en dan kunnen we uit de analyse niet concluderen dat deze drie thema’s absoluut het belangrijkst zijn. Ze waren wel als zodanig geïdentificeerd door de expert die we hebben gesproken.

  2. De frequentie van een term op 100 woorden is vertekend door de grote verschillen in de lengte van de programma’s. Het programma van de PVV is ongeveer 450 woorden lang. Als daar het woord “klimaat” twee keer in voorkomt, is de frequentie op 100 woorden veel groter dan als het 50 keer voorkomt in het bijna 29.000 woorden tellende programma van GroenLinks

  3. De analyse van op zich staande woorden zegt weinig over de context waar het woord in wordt gebruikt. Zo kan het woord ‘EU’ in de context van het versterken van de Europese Unie voorkomen, maar ook gebruikt worden in een meer negatieve vorm. Ook kunnen de deelwoorden verschillende betekenissen hebben: ‘klimaat’ kan ‘klimaatbescherming’ betekenen, maar ook ‘klimaatgekte’. Onderzoek naar n-grams in de programma's zou een beter beeld geven over de context waar deze woorden in worden gebruikt.

Illustratie door Tijmen Snelderwaard

Schrijf je in voor de nieuwsbrief

Blijf op de hoogte