Conferentie, Nieuws, vvoj2015

#VVOJ15: What can scraping do for you?

Het web scrapen voor data? Veel mensen zal het niks zeggen. Dat is wellicht de reden dat er maar drie deelnemers aanwezig zijn bij de training What can scraping do for you? van onderzoeksjournalist en datatrainer Crina Boros.

door Henk Ruigrok van der Werven

Het kan natuurlijk ook dat potentieel geïnteresseerden zijn weggekaapt door de sessie Leren van Hackers van Loepgenomineerde (en naar later zal blijken: winnaar!) Dimitri Tokmetzis, die parallel is geprogrammeerd in een van de grote zalen. Hacken klinkt natuurlijk een stuk sexier, beaamt ook Boros: “I love hackers. Maar hier wordt iets geleerd dat minstens zo nuttig is.”

Scraping is het verzamelen van een grote hoeveelheid data van websites en die vervolgens analyseren. Een vaardigheid die noodzakelijk lijkt voor iedere datajournalist en dat is dan ook het dagelijkse werk van de drie journalisten die zijn aangeschoven  voor deze workshop. Gaandeweg blijkt de lage opkomst een zegen, want Boros heeft haar handen vol aan het begeleiden van haar deelnemers in deze moeilijke materie.

We analyseren een tabel van een Slowaakse website waarop te vinden is aan welke bedrijven en personen de Europese Unie en de Slowaakse overheid landbouwsubsidies hebben toegekend. De tabel omvat 369 pagina’s, het zou dus dagen duren om de informatie ‘met de hand’ te analyseren. Met de Helium Scraper zou het binnen de korte duur van deze training moeten lukken.

Het verzamelen van de data gaat in het begin langzaam, maar het mooie is dat het scrapingprogramma patronen kan herkennen in de manier waarop de data verzameld worden en daar dan van leert. Zo gaat het scrapen steeds sneller. Aan het einde van deze training waren  369 pagina’s geanalyseerd en geëxporteerd naar een Excel bestand. Datajournalism for the win.

Voor wie het zelf eens wil proberen: hier is de link naar de tabel:

Pôdohospodárska platobná agentúra (Agricultural Paying Agency)

Volg Crina Boros op Twitter

foto: heliumscraper.com

 

Gerelateerde artikelen

Ministeries doen steeds langer over de behandeling van een Woo-verzoek. De Wet open overheid schrijft voor dat iemand die een informatieverzoek doet, binnen 42 dagen een besluit moet ontvangen. Het afgelopen jaar duurde het gemiddeld 172 dagen voor er een besluit was genomen, waar dat in 2022 nog 167 dagen was. Slechts in 17 procent van de verzoeken wordt een besluit tijdig genomen. Dit blijkt uit nieuw onderzoek van Open State Foundation, Instituut Maatschappelijk Innovatie en de Universiteit van Amsterdam.

Sluit je aan bij de vereniging van onderzoeksjournalisten

En vergroot je kennis én netwerk