Dataset samengesteld door Pointer (KRO-NCRV) bij het onderzoek naar de AI-lobbycampagne van Philip Morris International. Dataset bestaat uit twee onderdelen: teksten gegenereerd door de 'Your Voice Your Choice'-campagne tool van PMI, verkregen via geautomatiseerde invullen en Nederlandse burgerreacties op het consultatie platform van de Europese Comissie 'Have your say', over de herziene tabakswetten. Daarbij nog de scores voor overeenkomst met de output van de PMI-tool en AI-detectie.
Blad 1: Tool-runs
- 109 rijen
- Kolommen:
- Combinatie: ID van de keuzecombinatie (product x maatregel). Elke combinatie is doorgaans 2 of 3x herhaald.
- Herhaling: Volgnummer van de herhaling binnen dezelfde combinatie (1, 2 of 3).
- Gebruikt product?: Antwoord op de vraag of de invuller het product gebruikt (in alle runs: Ja).
- Verkoopt product?: Antwoord op de vraag of de invuller het product verkoopt (in alle runs: Nee).
- Product: Tabaks- of nicotineproduct geselecteerd in de tool (bv. traditionele sigaretten, e-sigaret).
- Aangevinkte regel: Maatregel die als input is aangevinkt (bv. "Verbod op alle smaken").
- Vrije invoerzin: Verplicht tot aantal zelf geschreven karakters waarbij we de eerder genoemde input herhaalde.
- Gegenereerde tekst: Volledige AI-reactie zoals de tool die produceerde.
- Bron: Bestandsreferentie of run-ID waarmee de tekst te herleiden is.
Bron: yourvoicedecides.com
Blad 2: Nederlandstalige-feedback
- 579 rijen
- Kolommen:
- Reactie-id: Uniek ID van de inzending in de EU-Call for Evidence.
- Datum: Datum en tijd van indiening.
- Type indiener: Categorie die de indiener zelf opgaf (bv. EU-burger, organisatie).
- Indiening: Anoniem of op naam ingediend.
- Feedback-tekst: Volledige tekst van de burgerreactie.
- Woordoverlap (Jaccard): Jaccard-similariteitsscore t.o.v. de PMI-toolteksten. Mate van woordoverlap (0-1).
- TF-IDF: TF-IDF-gebaseerde cosinussimilariteitsscore t.o.v. de PMI-toolteksten. Gewogen woordoverlap (0-1).
- Kans uit tool: Gecombineerde kans dat de reactie uit de PMI-tool afkomstig is, op basis van Jaccard en TF-IDF.
- GMM-groep: Clusterindeling via Gaussian Mixture Model op basis van de similariteitsscores.
- Pangram-oordeel: Oordeel van AI-detector Pangram (AI-gegenereerd, gemengd of door mens geschreven).
- Pangram-zekerheid: Betrouwbaarheidsniveau van het Pangram-oordeel (laag, midden of hoog).
Bron: Europese Commissie. (2025). Revision of EU rules on tobacco products and tobacco advertising, public feedback. Laatste verzameling na het sluiten van de Call for Evidence-ronde op 16-06-2026.
Download dataset (xlsx)