Conferentie

VVOJ2012 verslag: Working with data (part III): Scraping and cleaning

Titel: Working with data (Part III): Scraping and Cleaning
Datum: 17 november 2012
Tijd: 09:00-10:15 uur
Spreker: Nils Mulvad
Aantal deelnemers: 12

Verslag: Mike De Beck

Scraping en Cleaning is belangrijk geworden voor de hedendaagse journalist. Informatie op websites wordt constant vernieuwd om niet steeds weer dezelfde site te moeten raadplegen voor informatie die vaak verandert, zijn scraping en cleaning bijzonder interessante tools.

Scraperwiki en Outwit zijn enkele programma’s die Mulvad als interessant aangaf.

Outwit is zeer gebruiksvriendelijk en dus een goede starter voor diegene die wat minder ervaring hebben in het scrapen. Daarenboven is het niet duur, maar dat neemt niet weg dat er ook negatieve kanten zijn aan het programma.

Om je ‘scraping skills’ wat te verbeteren gebruik je liever iets anders dan Outwit. Welk programma dan wel goed is, daar komen we later nog op terug.

Het online boek ‘Scraping for Journalists’ is enorm handig om de basiskennis wat aan te scherpen. Het is te vinden op leanpub.com en werkt met levels. Mulvad vertelde dat hij op level vijf zat waarmee de Deen elke dag al snel een half miljoen sites kan raadplegen. Om maar even te vergelijken op level vier is het mogelijk om dagelijks een honderdduizendtal webadressen af te speuren.

Tussendoor deelde Mulvad nog twee interessante tips uit: Open een site nooit meer dan een keer en controleer eerst alle nieuwe sites op informatie.

Met dat achter de rug sprak Mulvad verder over het programma Needlebase. Het was interessant voor journalisten om op het web aan ‘scraping’ te doen. De vorige zin staat niet voor niets in de verleden tijd, want google kocht Needlebase vorig jaar op en zorgde ervoor dat het openbaar niet meer is te raadplegen.

Kapow is dan weer een handig programma als user interface. Het dient om gericht te zoeken en neemt slechts een halfuur of en uur in beslag. Hiermee is het verhaal en de data van het verhaal snel te vinden, al wordt er wel verwacht elk jaar een licentie te kopen om Kapow te kunnen gebruiken.

Uiteindelijk werd de vraag gesteld of er een dergelijk programma bestond om interessante informatie op facebook te scrapen. Mulvad vertelde dat het zeer moeilijk is om op dit sociaal medium gericht te zoeken. Toch kan men wel zien wie de populairste is op facebook, over welk onderwerp het meest wordt gesproken en welke interessante reacties hierop volgen. Ook al zijn de meeste reacties dan weer reacties op reacties. Meestal wordt scraping gebruikt voor tijdschriften, aldus Mulvad.

 

 

Gerelateerde artikelen

Driekwart van de Woo-verzoeken (verzoek om openbaarmaking van documenten op grond van de Wet open overheid) die bij de ministeries in behandeling zijn, bevindt zich ver over de wettelijke termijnen. Van de 759 verzoeken die medio juni bij de ministeries lagen, waren er 575 al (veel) langer dan zes weken binnen. Zes weken is de termijn waarbinnen een besluit moet worden genomen over een Woo-verzoek. Tot 1 mei heetten deze aanvragen nog Wob-verzoeken.

De Wob verdwijnt per 1 mei en wordt vervangen door de WOO, de Wet Open Overheid. In het eerste VVOJ Café van dit jaar komt Annemarie Drahmann, universitair hoofddocent bestuursrecht aan de Universiteit Leiden, vertellen wat er verandert met de nieuwe wet.

Eindelijk weer samen! Dat gevoel overheerste op de VVOJ Conferentie 2021 in Brussel, die vlak voor het ingaan van zwaardere lockdown-maatregelen kon doorgaan. Vaste conferentiegangers weten dat het gesprekje in de wandelgang, het vlugge contact via de nieuwe conferentieapp en de kans om samenwerkingsplannen te smeden tijdens het diner minstens zo belangrijk zijn als de keynote-sprekers, de VVOJ-essayist en de meer dan 36 losse workshops en debatten.

Bjørn Oostra, hoofdredacteur De Limburger, is de winnaar het van het Vliegwiel, de prijs van de Vereniging van Onderzoeksjournalisten bedoeld voor de hoofdredacteur of manager die de onderzoeksjournalistiek dit jaar het meest heeft gestimuleerd.

Vorige week heeft de VVOJ het tweede Regiocafé gehouden waarin collega’s uit verschillende delen van het land de verhalen achter hun onderzoeksverhalen vertelden. Een doorslaand succes! Heb je het gemist of wil het herbekijken? Dan kan dat op YouTube.

Vanaf dinsdag 7 september staat de weg naar eeuwige roem voor onderzoeksjournalisten weer open: het is dan mogelijk om jezelf of anderen voor te dragen voor dé prijs voor onderzoeksjournalistiek: De Loep 2021!

Chris de Stoop kreeg afgelopen juni de oeuvreprijs van de VVOJ, maar ‘journalist’ voelt Chris De Stoop zich al jaren niet meer. Dus werkt de Vlaamse boerenzoon niet meer voor het toonaangevende weekblad Knack, maar wijdt hij zich aan het schrijven van boeken die – dat dan weer wel – alom geprezen worden om hun gedegen journalistieke onderzoek.

Op vrijdag 24 juni 2022 zijn op de Avond voor de Onderzoeksjournalistiek in Antwerpen de Oeuvreprijs 2022, de ASN Aanmoedigingsprijs 2021 en de Loep 2021 uitgereikt. Met deze prijzen viert de Vereniging van Onderzoeksjournalisten (VVOJ) jaarlijks de beste onderzoeksjournalistiek in Nederland en Vlaanderen.

Sluit je aan bij de vereniging van onderzoeksjournalisten

En vergroot je kennis én netwerk