Conferentie, Nieuws, vvoj2015

#VVOJ15: What can scraping do for you?

Het web scrapen voor data? Veel mensen zal het niks zeggen. Dat is wellicht de reden dat er maar drie deelnemers aanwezig zijn bij de training What can scraping do for you? van onderzoeksjournalist en datatrainer Crina Boros.

door Henk Ruigrok van der Werven

Het kan natuurlijk ook dat potentieel geïnteresseerden zijn weggekaapt door de sessie Leren van Hackers van Loepgenomineerde (en naar later zal blijken: winnaar!) Dimitri Tokmetzis, die parallel is geprogrammeerd in een van de grote zalen. Hacken klinkt natuurlijk een stuk sexier, beaamt ook Boros: “I love hackers. Maar hier wordt iets geleerd dat minstens zo nuttig is.”

Scraping is het verzamelen van een grote hoeveelheid data van websites en die vervolgens analyseren. Een vaardigheid die noodzakelijk lijkt voor iedere datajournalist en dat is dan ook het dagelijkse werk van de drie journalisten die zijn aangeschoven  voor deze workshop. Gaandeweg blijkt de lage opkomst een zegen, want Boros heeft haar handen vol aan het begeleiden van haar deelnemers in deze moeilijke materie.

We analyseren een tabel van een Slowaakse website waarop te vinden is aan welke bedrijven en personen de Europese Unie en de Slowaakse overheid landbouwsubsidies hebben toegekend. De tabel omvat 369 pagina’s, het zou dus dagen duren om de informatie ‘met de hand’ te analyseren. Met de Helium Scraper zou het binnen de korte duur van deze training moeten lukken.

Het verzamelen van de data gaat in het begin langzaam, maar het mooie is dat het scrapingprogramma patronen kan herkennen in de manier waarop de data verzameld worden en daar dan van leert. Zo gaat het scrapen steeds sneller. Aan het einde van deze training waren  369 pagina’s geanalyseerd en geëxporteerd naar een Excel bestand. Datajournalism for the win.

Voor wie het zelf eens wil proberen: hier is de link naar de tabel:

Pôdohospodárska platobná agentúra (Agricultural Paying Agency)

Volg Crina Boros op Twitter

foto: heliumscraper.com

 

Gerelateerde artikelen

De VVOJ-Regiomiddag in Delft bood een gevarieerd programma met informatie over fondsen, inspirerende journalistieke verhalen, tips, en nieuwe tools. Wil je terugkijken? Een kort verslag en de presentaties zijn toegevoegd aan de site. Benieuwd naar de volgende Regiomiddag? Die is dinsdag 7 oktober in Groningen.

Voorafgaand aan de Loep-uitreiking op vrijdag 20 juni in Domstad in Utrecht organiseert de VVOJ opnieuw de VVOJ Masterclasses. Interactieve deepdives met (internationale) trainers van naam om je onderzoeksjournalistieke kennis én vaardigheden te verdiepen. Met onder meer: Karel Degraeve (VRT) over AI in de onderzoeksjournalistiek, Alison Killing (FT) over het onderzoeken van China op basis van satellietbeelden en handelsstromen, Tom Kreling (NRC) en Merijn Rengers (NRC) over financiële onderzoeksjournalistiek, Leon Giesen (Mondo Leone) met een Meesterklas Vertellen en Dirk Mostert en Hester van Yperen (KRO-NCRV) over wederhoor in de onderzoeksjournalistiek.

Sluit je aan bij de vereniging van onderzoeksjournalisten

En vergroot je kennis én netwerk