Conferentie, Nieuws, vvoj2015

#VVOJ15: What can scraping do for you?

Het web scrapen voor data? Veel mensen zal het niks zeggen. Dat is wellicht de reden dat er maar drie deelnemers aanwezig zijn bij de training What can scraping do for you? van onderzoeksjournalist en datatrainer Crina Boros.

door Henk Ruigrok van der Werven

Het kan natuurlijk ook dat potentieel geïnteresseerden zijn weggekaapt door de sessie Leren van Hackers van Loepgenomineerde (en naar later zal blijken: winnaar!) Dimitri Tokmetzis, die parallel is geprogrammeerd in een van de grote zalen. Hacken klinkt natuurlijk een stuk sexier, beaamt ook Boros: “I love hackers. Maar hier wordt iets geleerd dat minstens zo nuttig is.”

Scraping is het verzamelen van een grote hoeveelheid data van websites en die vervolgens analyseren. Een vaardigheid die noodzakelijk lijkt voor iedere datajournalist en dat is dan ook het dagelijkse werk van de drie journalisten die zijn aangeschoven  voor deze workshop. Gaandeweg blijkt de lage opkomst een zegen, want Boros heeft haar handen vol aan het begeleiden van haar deelnemers in deze moeilijke materie.

We analyseren een tabel van een Slowaakse website waarop te vinden is aan welke bedrijven en personen de Europese Unie en de Slowaakse overheid landbouwsubsidies hebben toegekend. De tabel omvat 369 pagina’s, het zou dus dagen duren om de informatie ‘met de hand’ te analyseren. Met de Helium Scraper zou het binnen de korte duur van deze training moeten lukken.

Het verzamelen van de data gaat in het begin langzaam, maar het mooie is dat het scrapingprogramma patronen kan herkennen in de manier waarop de data verzameld worden en daar dan van leert. Zo gaat het scrapen steeds sneller. Aan het einde van deze training waren  369 pagina’s geanalyseerd en geëxporteerd naar een Excel bestand. Datajournalism for the win.

Voor wie het zelf eens wil proberen: hier is de link naar de tabel:

Pôdohospodárska platobná agentúra (Agricultural Paying Agency)

Volg Crina Boros op Twitter

foto: heliumscraper.com

 

Gerelateerde artikelen

De eerste ervaringen van journalisten met de nieuwe Wet open overheid (kortweg Woo) zijn wisselend, zo bleek  op de VVOJ-conferentie in Leiden tijdens een paneldiscussie over de Woo. Sommige aspecten van de wet worden voorzichtig positief gewaardeerd, maar er werd ook gewaarschuwd voor een nieuwe weigeringsgrond die door ministeries breed wordt ingeroepen.

Ter ere van ons 20-jarig bestaan, is de VVOJ begonnen met een update van het onderzoek naar de Staat van de Onderzoeksjournalistiek dat eerder – in 2002 – is gedaan. Het onderzoek wordt uitgevoerd door Alexander Pleijter en Michaël Opgenhaffen, verbonden aan respectievelijk de Universiteit Leiden en de KU Leuven.

Sluit je aan bij de vereniging van onderzoeksjournalisten

En vergroot je kennis én netwerk