Conferentie, Nieuws, vvoj2015

#VVOJ15: What can scraping do for you?

Het web scrapen voor data? Veel mensen zal het niks zeggen. Dat is wellicht de reden dat er maar drie deelnemers aanwezig zijn bij de training What can scraping do for you? van onderzoeksjournalist en datatrainer Crina Boros.

door Henk Ruigrok van der Werven

Het kan natuurlijk ook dat potentieel geïnteresseerden zijn weggekaapt door de sessie Leren van Hackers van Loepgenomineerde (en naar later zal blijken: winnaar!) Dimitri Tokmetzis, die parallel is geprogrammeerd in een van de grote zalen. Hacken klinkt natuurlijk een stuk sexier, beaamt ook Boros: “I love hackers. Maar hier wordt iets geleerd dat minstens zo nuttig is.”

Scraping is het verzamelen van een grote hoeveelheid data van websites en die vervolgens analyseren. Een vaardigheid die noodzakelijk lijkt voor iedere datajournalist en dat is dan ook het dagelijkse werk van de drie journalisten die zijn aangeschoven  voor deze workshop. Gaandeweg blijkt de lage opkomst een zegen, want Boros heeft haar handen vol aan het begeleiden van haar deelnemers in deze moeilijke materie.

We analyseren een tabel van een Slowaakse website waarop te vinden is aan welke bedrijven en personen de Europese Unie en de Slowaakse overheid landbouwsubsidies hebben toegekend. De tabel omvat 369 pagina’s, het zou dus dagen duren om de informatie ‘met de hand’ te analyseren. Met de Helium Scraper zou het binnen de korte duur van deze training moeten lukken.

Het verzamelen van de data gaat in het begin langzaam, maar het mooie is dat het scrapingprogramma patronen kan herkennen in de manier waarop de data verzameld worden en daar dan van leert. Zo gaat het scrapen steeds sneller. Aan het einde van deze training waren  369 pagina’s geanalyseerd en geëxporteerd naar een Excel bestand. Datajournalism for the win.

Voor wie het zelf eens wil proberen: hier is de link naar de tabel:

Pôdohospodárska platobná agentúra (Agricultural Paying Agency)

Volg Crina Boros op Twitter

foto: heliumscraper.com

 

Gerelateerde artikelen

Overheidsorganisaties moeten beter samenwerken met Woo-verzoekers. Stel hun informatiebehoefte centraal, bepaal samen hoe die het beste kan worden vervuld en lever vervolgens ook. Volg voor de samenwerking bovendien een openbare leidraad, zodat beide partijen weten wat ze van elkaar mogen verwachten.

Op 9 december 2023 publiceren VPRO en HUMAN op de website van Argos een door de hoofdredacteuren Marc Josten en Willem van Zeeland ondertekend statement. Daarin maken ze bekend met onmiddellijke ingang een compleet Argos-dossier, bestaande uit een reeks van radio-uitzendingen, artikelen en video’s over seksueel misbruik, offline te halen. Het betreft uitzendingen die zijn gemaakt door twee gerenommeerde onderzoeksjournalisten, Huub Jaspers en Sanne Terlingen, beiden al vele jaren actief lid van de VVOJ.

Sluit je aan bij de vereniging van onderzoeksjournalisten

En vergroot je kennis én netwerk