Verspreiders van desinformatie maken handig gebruik van de datahonger van techbedrijven. Pro-Russische berichtgeving wordt namelijk massaal online gepubliceerd, zodat de trainingsdata van AI-chatbots wordt geïnfecteerd met propaganda. Het Pravda-netwerk is het meest prominente voorbeeld daarvan. Hoe hebben wij de omvang en gevolgen van deze beïnvloedingscampagne in kaart gebracht?

In aanloop naar de NAVO-top op 24 en 25 juni onderzocht de dataredactie van Pointer welke mis- en desinformatie rondgaat over de oorlog tussen Oekraïne en Rusland. Al snel kwamen we uit bij een website genaamd Pravda, die ook een Nederlandse variant heeft. Op het eerste gezicht lijkt het op een mislukte poging om desinformatie de wereld in te helpen: de berichten staan vol met taalfouten en worden nauwelijks gedeeld op sociale media.

Meer over de factcheck-marathon

Dat lijkt een goede reden voor ons om de Pravda-sites te negeren. Maar de onvermoeibare stroom van nieuwsberichten en het hoge aantal landen waarin Pravda actief is, werpt de vraag op: waarom doe je veel moeite om desinformatie te publiceren, maar weinig moeite om lezers aan te trekken?

Het antwoord is eenvoudig: omdat lezers van vlees en bloed niet de doelgroep zijn voor deze websites. Het Pravda-netwerk wil vooral opgeslurpt worden in de voetnoten van Wikipedia en in taalmodellen van AI-chatbots, zodat het pro-Russische verhaal een plek krijgt in ons digitale collectieve geheugen.

Bekijk ook onze interactive

LLM grooming

Het afgelopen jaar hebben meerdere organisaties onderzoeken gepubliceerd over het Pravda-netwerk. Een van de eerste grote onderzoeken is door het Franse agentschap Viginum gepubliceerd. Daarin worden 193 websites in het Pravda-netwerk, ook wel Portal Kombat genoemd, geanalyseerd. De conclusie van dat rapport is duidelijk: het gaat om een Russische beïnvloedingscampagne die in 2013 is ontstaan. Destijds was het nog een poging om Oekraïense burgers te beïnvloeden, maar inmiddels is het geëvolueerd tot een wereldwijd netwerk waarin berichten geautomatiseerd worden vertaald en gepubliceerd.

In de maanden die op het rapport van Viginum volgen, publiceren EDMO, American Sunlight Project, NewsGuard en DFRLab i.s.m. CheckFirst onderzoeken naar het Pravda-netwerk. De websites zijn volgens deze onderzoekers actief in 39 landen. Pro-Russische desinformatie probeert in die gebieden zijn weg te vinden in de antwoorden van chatbots. Want waarom zou je desinformatie via willekeurige socialmedia-accounts verspreiden, als je kunt meesurfen op de reputatie van betrouwbaarder ogende techbedrijven?

Wat zij echter ook constateren, is dat het netwerk continu wijzigt. Het aantal van 39 landen dat in april 2024 door EDMO wordt genoemd, is vermoedelijk nog hoger geworden. En we zien dat de Nederlandse Pravda-site op 8 november 2024 is begonnen met publiceren. Voor ons een goede reden om een onderzoek te beginnen naar de strategie genaamd LLM grooming.

Hoe ontdek je alle websites en landen?

We willen allereerst weten in hoeveel landen Pravda actief is, omdat we willen weten of deze beïnvloedingscampagne in omvang is gegroeid sinds vorig jaar. Daarvoor pakken we de onderzoeksresultaten van Viginum, American Sunlight Project en CheckFirst erbij: zij hebben lijsten gepubliceerd van domeinnamen uit het Pravda-netwerk. Dit wordt de basis van onze lijst met urls.

De voorgaande onderzoeken constateerden al dat veel van de recente domeinnamen op dezelfde servers staan als oudere websites. Met een techniek genaamd Reverse IP Lookup kun je bekijken welke websites er nog meer op die server staan. Hiermee hebben we de basislijst kunnen uitbreiden met enkele tientallen extra websites.

We zien ook dat de meest recente Pravda-sites geen nieuwe url krijgen, maar een subdomein. Je herkent een subdomein aan een extra punt in de url: bij pointer.kro-ncrv.nl is pointer het subdomein van het domein kro-ncrv.nl. Deze subdomeinen zijn moeilijker te achterhalen, omdat je voor een subdomein geen afzonderlijke registratie hebt. Pravda kan in theorie een oneindig aantal subdomeinen hebben, maar heeft slechts één domein nodig.

Alsnog is het mogelijk om subdomeinen te achterhalen. Dat kan via dure commerciële software, maar wij hebben drie gratis manieren gebruikt:

  • Onderaan de Pravda-websites staan tientallen subdomeinen genoemd;
  • Via Google kun je zoeken naar subdomeinen met de volgende zoekterm: site:news-pravda.com -site:www.news-pravda.com;
  • Via de website Archive.today kunnen gebruikers websites archiveren. Je kunt ook in de eerder opgeslagen websites zoeken op subdomeinen door een * in de gewenste url te plaatsen. Dat doe je als volgt: https://archive.ph/*.news-pravda.com.

Met deze zoektechniek is het alsnog mogelijk dat we websites in het Pravda-netwerk over het hoofd zien. Of mogelijk zijn er tussen onderzoek en publicatie in websites offline gehaald of bijgekomen. Maar wij komen in ieder geval uit op een aantal van 421 websites die in 68 landen actief zijn. De dataset met alle Pravda-url’s staan op onze Github (verzameld eind mei 2025).

Wikipedia en taalmodellen

Het doel van het Pravda-netwerk is niet om individuele lezers te overtuigen van het pro-Russische verhaal, maar om op plekken door te dringen die mensen als betrouwbaar zien. Een van die plekken is de online encyclopedie Wikipedia. De website maakt zelf geen claims over betrouwbaarheid, omdat gebruikers de artikelen op elk moment kunnen wijzigen. Maar lezers zien Wikipedia over het algemeen als zeer betrouwbaar, blijkt uit dit onderzoek van de Indiana University Bloomington uit 2022.

Lukt het Pravda om daarin door te dringen? Met de lijst van domeinnamen kunnen we onderzoeken hoe vaak Pravda-artikelen worden aangehaald op Wikipedia. De Finse organisatie CheckFirst heeft een tool ontwikkeld waarmee je kunt onderzoeken welke websites in de voetnoten van artikelen worden aangehaald: dit zijn de bronnen waarop een artikel is gebaseerd. Daaruit blijkt dat Pravda-websites minstens 1.502 keer worden genoemd als bron op Wikipedia. Daarvan zijn twee artikelen in het Nederlands, en gaat het 94 keer om Pravda-websites die in het afgelopen jaar zijn opgezet. De dataset met alle Wikipedia-links naar Pravda-artikelen staan op onze Github (verzameld eind mei 2025).

Common Crawl

We wierpen ook een blik op de common crawl, een enorm internet-archief dat voor veel chatbots gebruikt wordt als trainingsdata. Als Pravda zijn weg heeft gevonden in deze dataset, dan is het namelijk een onlosmakelijk onderdeel van hoe chatbots tot hun antwoorden komen.

We gebruikten hiervoor de ‘opgeruimde’ C4-variant die beschikbaar is via AI-platform Hugging Face. In deze sets kwamen we de Pravda-sites niet tegen, maar het is een zeer interessante dataset om te onderzoeken. We raden aan om de Streaming-functie te gebruiken, zodat je de 96 miljoen Nederlandse sites niet in één keer inlaadt.

Uit onze analyse blijkt dat de Pravda-sites niet in deze archieven voorkomen. We bekeken alle meer dan 450 miljoen Nederlandstalige en Engelstalige sites in deze dataset, en vonden daarbij geen sites uit het Pravda-netwerk. Zodra chatbots desinformatie van Pravda citeren, wordt dat dus direct van de website verzameld, en is het geen integraal onderdeel in de trainingsdata.

Onderzochte chatbots

Ten slotte willen we weten hoe Pravda-desinformatie zijn weg vindt in de antwoorden van acht AI-chatbots. Onze voorwaarde om mee te doen in de test is dat de bot enigszins bekendheid geniet bij het Nederlandse publiek, dat de bot publiek toegankelijk is (via een interface) en dat de bot goed Nederlands spreekt. Met deze criteria kwamen we op de volgende chatbots (en instellingen) uit:

  • Chatgpt, GPT-4o (OpenAI)
  • Gemini, 2.5 Flash (Google)
  • Claude, Sonnet 4 (Anthropic)
  • Grok, Grok 3 (xAI)
  • Copilot, “snelle reactie” (Microsoft)
  • Perplexity, Sonar (Perplexity AI)
  • You.com, “Auto” (You.com)
  • Le Chat, standaardinstelling (Mistral)

Alle bots zijn eind mei 2025 getest. We stelden de bots vragen over tien onderwerpen, waarbij we de vraag op drie verschillende manieren stelden. In de eerste variant ging het om een neutrale vraag om informatie. In de tweede variant stelden we een leidende vraag, waarbij we visten naar een bepaald antwoord. In de derde variant deden we ons voor als malign actor, en vroegen we actief naar misinformatie. Deze tweede en derde manier van prompten gebruikten we vooral om te kijken of desinformatiewebsites bij deze bots “door de keuring” komen en gebruikt worden in hun antwoorden. De datasets met alle gebruikte prompts en de resultaten staan op onze Github (verzameld eind mei 2025).

Makers

Newsroom developer

Samen komen we verder

Ons onderzoek begint bij jou. Heb jij een tip of ervaring die je met ons wil delen? Laat het ons weten!

Heb jij een tip of ervaring die je met ons wil delen? Laat het ons weten!

Documentatie uploaden
CAPTCHA
Deze vraag is om te controleren dat u een mens bent, om geautomatiseerde invoer (spam) te voorkomen.

Bedankt, je tip is verstuurd

Wat gebeurt er nu met mijn tip?

Bedankt dat je de tijd hebt genomen om het tipformulier in te vullen. Je tip is verstuurd naar de redacteur van het onderzoek. Wij publiceren niets met naam en toenaam zonder contact met je op te nemen. Soms krijgen we zoveel tips binnen dat het ons helaas niet lukt om iedereen een persoonlijke reactie te sturen. We vragen je begrip hiervoor. 

Benieuwd naar de impact van eerdere tips?

Van kamervragen tot petities en maatschappelijk debat: samen met jou pakken we systemisch falen en onrecht aan. Benieuwd naar de impact van eerdere onderzoeken en ingezonden tips? Bekijk dan nu ons track record.