Dataset samengesteld door Pointer (KRO-NCRV) bij het onderzoek naar de AI-lobbycampagne van Philip Morris International. Dataset bestaat uit twee onderdelen: teksten gegenereerd door de 'Your Voice Your Choice'-campagne tool van PMI, verkregen via geautomatiseerde invullen en Nederlandse burgerreacties op het consultatie platform van de Europese Comissie 'Have your say', over de herziene tabakswetten. Daarbij nog de scores voor overeenkomst met de output van de PMI-tool en AI-detectie.

Blad 1: Tool-runs

  • 109 rijen
  • Kolommen:
  1. Combinatie: ID van de keuzecombinatie (product x maatregel). Elke combinatie is doorgaans 2 of 3x herhaald.
  2. Herhaling: Volgnummer van de herhaling binnen dezelfde combinatie (1, 2 of 3).
  3. Gebruikt product?: Antwoord op de vraag of de invuller het product gebruikt (in alle runs: Ja).
  4. Verkoopt product?: Antwoord op de vraag of de invuller het product verkoopt (in alle runs: Nee).
  5. Product: Tabaks- of nicotineproduct geselecteerd in de tool (bv. traditionele sigaretten, e-sigaret).
  6. Aangevinkte regel: Maatregel die als input is aangevinkt (bv. "Verbod op alle smaken").
  7. Vrije invoerzin: Verplicht tot aantal zelf geschreven karakters waarbij we de eerder genoemde input herhaalde.
  8. Gegenereerde tekst: Volledige AI-reactie zoals de tool die produceerde.
  9. Bron: Bestandsreferentie of run-ID waarmee de tekst te herleiden is.

Bron: yourvoicedecides.com

Blad 2: Nederlandstalige-feedback

  • 579 rijen
  • Kolommen:
  1. Reactie-id: Uniek ID van de inzending in de EU-Call for Evidence.
  2. Datum: Datum en tijd van indiening.
  3. Type indiener: Categorie die de indiener zelf opgaf (bv. EU-burger, organisatie).
  4. Indiening: Anoniem of op naam ingediend.
  5. Feedback-tekst: Volledige tekst van de burgerreactie.
  6. Woordoverlap (Jaccard): Jaccard-similariteitsscore t.o.v. de PMI-toolteksten. Mate van woordoverlap (0-1).
  7. TF-IDF: TF-IDF-gebaseerde cosinussimilariteitsscore t.o.v. de PMI-toolteksten. Gewogen woordoverlap (0-1).
  8. Kans uit tool: Gecombineerde kans dat de reactie uit de PMI-tool afkomstig is, op basis van Jaccard en TF-IDF.
  9. GMM-groep: Clusterindeling via Gaussian Mixture Model op basis van de similariteitsscores.
  10. Pangram-oordeel: Oordeel van AI-detector Pangram (AI-gegenereerd, gemengd of door mens geschreven).
  11. Pangram-zekerheid: Betrouwbaarheidsniveau van het Pangram-oordeel (laag, midden of hoog).

Bron: Europese Commissie. (2025). Revision of EU rules on tobacco products and tobacco advertising, public feedback. Laatste verzameling na het sluiten van de Call for Evidence-ronde op 16-06-2026.

Download dataset (xlsx)

Ook interessant

Samen komen we verder

Ons onderzoek begint bij jou. Heb jij een tip of ervaring die je met ons wil delen? Laat het ons weten!

Heb jij een tip of ervaring die je met ons wil delen? Laat het ons weten!

Documentatie uploaden
CAPTCHA
Deze vraag is om te controleren dat u een mens bent, om geautomatiseerde invoer (spam) te voorkomen.

Bedankt, je tip is verstuurd

Wat gebeurt er nu met mijn tip?

Bedankt dat je de tijd hebt genomen om het tipformulier in te vullen. Je tip is verstuurd naar de redacteur van het onderzoek. Wij publiceren niets met naam en toenaam zonder contact met je op te nemen. Soms krijgen we zoveel tips binnen dat het ons helaas niet lukt om iedereen een persoonlijke reactie te sturen. We vragen je begrip hiervoor. 

Benieuwd naar de impact van eerdere tips?

Van kamervragen tot petities en maatschappelijk debat: samen met jou pakken we systemisch falen en onrecht aan. Benieuwd naar de impact van eerdere onderzoeken en ingezonden tips? Bekijk dan nu ons track record.