Conferentie, Nieuws, vvoj2015

#VVOJ15: What can scraping do for you?

Het web scrapen voor data? Veel mensen zal het niks zeggen. Dat is wellicht de reden dat er maar drie deelnemers aanwezig zijn bij de training What can scraping do for you? van onderzoeksjournalist en datatrainer Crina Boros.

door Henk Ruigrok van der Werven

Het kan natuurlijk ook dat potentieel geïnteresseerden zijn weggekaapt door de sessie Leren van Hackers van Loepgenomineerde (en naar later zal blijken: winnaar!) Dimitri Tokmetzis, die parallel is geprogrammeerd in een van de grote zalen. Hacken klinkt natuurlijk een stuk sexier, beaamt ook Boros: “I love hackers. Maar hier wordt iets geleerd dat minstens zo nuttig is.”

Scraping is het verzamelen van een grote hoeveelheid data van websites en die vervolgens analyseren. Een vaardigheid die noodzakelijk lijkt voor iedere datajournalist en dat is dan ook het dagelijkse werk van de drie journalisten die zijn aangeschoven  voor deze workshop. Gaandeweg blijkt de lage opkomst een zegen, want Boros heeft haar handen vol aan het begeleiden van haar deelnemers in deze moeilijke materie.

We analyseren een tabel van een Slowaakse website waarop te vinden is aan welke bedrijven en personen de Europese Unie en de Slowaakse overheid landbouwsubsidies hebben toegekend. De tabel omvat 369 pagina’s, het zou dus dagen duren om de informatie ‘met de hand’ te analyseren. Met de Helium Scraper zou het binnen de korte duur van deze training moeten lukken.

Het verzamelen van de data gaat in het begin langzaam, maar het mooie is dat het scrapingprogramma patronen kan herkennen in de manier waarop de data verzameld worden en daar dan van leert. Zo gaat het scrapen steeds sneller. Aan het einde van deze training waren  369 pagina’s geanalyseerd en geëxporteerd naar een Excel bestand. Datajournalism for the win.

Voor wie het zelf eens wil proberen: hier is de link naar de tabel:

Pôdohospodárska platobná agentúra (Agricultural Paying Agency)

Volg Crina Boros op Twitter

foto: heliumscraper.com

 

Gerelateerde artikelen

Het College van Bestuur van de Vrije Universiteit Amsterdam (VU) heeft besloten om een bijzondere leerstoel Onderzoeksjournalistiek in te stellen. De leerstoel wordt voor 5 jaar ingesteld en is tot stand gekomen op initiatief van de Vlaams-Nederlandse Vereniging van Onderzoeksjournalisten (VVOJ). Voor de financiering zijn Vereniging Veronica, Gieskes-Strijbis Fonds en Stichting Democratie en Media bij dit initiatief betrokken.

Journalisten zijn niet tevreden over de afhandeling van Woo-verzoeken. Het duurt vaak lang, levert soms weinig op, en de communicatie kan volgens hen beter. Veel winst lijkt te halen uit tijdig en open overleg en praktische afspraken tussen Woo-behandelaars en de journalisten.

Dit volgt uit een onderzoek waaraan 256 (onderzoeks)journalisten deelnamen en waarvoor een dialoogtafel met journalisten en Woo-behandelaars van de overheid is georganiseerd.

Sluit je aan bij de vereniging van onderzoeksjournalisten

En vergroot je kennis én netwerk