Nieuws

Vallen en opstaan met datajournalistiek

In Utrecht was maandag 12 december een avond gewijd aan datajournalistiek en datavisualisatie. Rode draad in de praktijkverhalen: het is vallen en opstaan, trial and error. Maar mislukkingen zijn óók leervolle ervaringen en met de succesverhalen kun je je van andere media onderscheiden. Zoals het bij Regiohack ging: zet journalisten en programmeurs dertig uur bij elkaar, geef ze pizza en koffie, en er moét haast wel iets moois uitkomen.

Aantekeningen uit de Avond van de datajournalistiek
Georganiseerd door De Nieuwe Reporter en het Centrum voor Communicatie en Journalistiek
12 december 2011, Uithof Utrecht
Twitter: #datajournalistiek

Regiohack
Jerry Vermanen is een van de initiatiefnemeners van Regiohack, een samenwerking tussen de Stentor, Twentse Courant/Tubantia en hogeschool Saxion. Hij vertelt hoe het idee ontstond om dertig programmeurs en journalisten bij elkaar te zetten voor een marathonsessie van dertig uur, waarbij ze opgedeeld in groepjes allemaal een journalistiek interessante vraag zouden proberen te beantwoorden met behulp van computertechnieken. Beide beroepsgroepen werken nog te veel langs elkaar heen. “Programmeurs vinden het fantastisch om iets nieuws te maken, maar ze missen dan het verhaal. Journalisten missen de technische kennis.”
Onder de naam Regiohack leidde die sessie op donderdag 10 en vrijdag 11 november tot een waardevolle ervaring én stof voor verhalen. De hoofdredacteur noemde Regiohack “hardcore journalistiek met nieuwe vaardigheden”, en dat vindt Vermanen wel treffend.

Een voorbeeld waarbij data ook journalistiek geduid werd, is de toekomstige leerlingontwikkeling op basisscholen in Hengelo. De prognose van het dalende leerlingaantal is in de krant in de vorm van een grafiek weergegeven, maar daarnaast ging de redactie de scholen af om te kijken of ze voorbereid zijn op de toekomst. Minder leerlingen betekent waarschijnlijk dat scholen van verschillende geloofsrichtingen samen zullen gaan, vandaar de kop ‘Meerdere geloven op één kussen’.

Op dit moment is Vermanen betrokken bij een nieuw project, waarbij speciaal een database wordt aangelegd om te kunnen bepalen wie de machtige personen zijn in Twente. Die invloed wordt onder andere afgemeten aan bestuursfuncties bij bedrijven, organisaties en overheden, en aangezien er geen kant-en-klaar overzicht van die bestuurders bestaat, wordt die dataset van de grond af opgebouwd. “Het mooie is dat je er vervolgens steeds weer nieuwe vragen aan kunt stellen en verhalen uit kunt halen. Stel dat ergens een bestuurder vertrekt, dan kun je in die database terugvinden met welke personen hij veel te maken heeft gehad en kun je die om duiding vragen”, aldus Vermanen.

Links:

Regiohack: http://www.regiohack.nl/
Moord en doodslag in Twente: http://www.tctubantia.nl/regio/9810350/Moord-en-doodslag-in-Twente.ece

data.overheid.nl
Edo Plantinga (adviseur NL-overheid op gebied van data en betrokken bij portaal data.overheid.nl)

Bij journalisten ligt de taak om met feiten een nieuw inzicht verschaffen dat de burger nog niet zelf had of met een paar klikken via Google zelf zou kunnen vinden. Datavisualisatie is een manier waarop ingewikkelde datasets zo’n inzicht kunnen geven, zoals bij de financiering van Duitse politieke partijen in ‘Parteispenden über 50.000 euro’ (zie ook de links).

De portaal data.overheid.nl bevat zelf geen datasets, maar verwijst naar beschikbare datasets. De portaal is bedoeld om data snel en makkelijk vindbaar te maken voor belangstellenden. Plantinga bepaalt niet zelf welke data openbaar wordt en welke niet, die beslissingen worden op de ministeries genomen. “Daar heb ik niks over te zeggen.”

Links
24h taxi’s: http://www.casualdata.com/senseofpatterns/
Parteispenden uber 50.000 euro: http://labs.vis4.net/parteispenden/
Facebook map of the world: http://www.facebook.com/note.php?note_id=469716398919

Real time reporter
Bert Kok en zijn ict-zakenpartner hebben twee ton subsidie gekregen van het Stimuleringsfonds voor de Pers om een ‘early warning system’ te maken dat in Twitter-berichten opkomend nieuws moet kunnen herkennen. Zelf hebben ze 2,7 ton eigen geld ingelegd in het project. Kok zocht samenwerking met de Vrije Universiteit, waarvan een onderzoeker nu voor een jaar wordt ingehuurd om onder meer een algoritme te ontwikkelen. Daarnaast wordt er samengewerkt met Nu.nl als nieuwsmedium-in-de-praktijk, dat de applicatie volgens Kok een jaar gratis mag gebruiken. Kok wil van maart tot juli 2012 de praktijktest houden en na de afronding en evaluatie met de applicatie de boer op. Het waarschuwingssysteem wordt niet gratis. “We zijn ook ondernemers, we lopen zelf ook risico. Het algoritme gaan we denk ik niet gratis ter beschikking stellen.”

Nieuwswaardigheid zal onder andere worden bepaald door het aantal retweets, maar ook locatiegegevens en versnellingen in een Twitter-stroom kunnen factoren zijn. Veel specifieker kan Kok niet zijn, daar is het nog te vroeg voor.

De twitterstromen rond bekende nieuwsgebeurtenissen zoals de schietpartijen in Alphen en Almelo worden gereconstrueerd om patronen te herkennen. Uit zo’n reconstructie blijken de tijdverschillen tussen de eerste tweet, de 112-alarmtweets, en de eerste berichtgeving door Nu.nl, Geenstijl en het ANP. Sommige media zaten er redelijk dicht op. Vandaar dat iemand in de zaal wil weten hoeveel tijdwinst zo’n early warning system nou op zou leveren, en of dat zo’n grote investering waard is.

Ook vanuit de zaal vraagt UvA-mediahoogleraar Piet Bakker zich hardop af of media niet juist zitten te wachten op een applicatie die de onopvallende pareltjes eruit licht, de tweets die juist niet worden geretweet. Kok reageert dat retweets maar één van de criteria zijn. Tegelijkertijd zal het een illusie zijn om te verwachten dat die ene gemiste ‘pareltweet’ met een geautomatiseerd systeem uit miljoenen tweets gevist wordt, zeker als die alternatieve spellingen of tikfouten bevat.

Bakker heeft zo zijn eigen manier om lokaal nieuws uit Twitter te vissen. “Ik maak gebruik van een paar simpele zoektermen. Ik zoek bijvoorbeeld op mijn woonplaats en het woord helicopter. Als er een helicopter boven mijn plaats hangt, dan weet je bijna zeker dat er een overval is gepleegd.”

Nu.nl: verhalen maken uit data
Jelle Kamsma reageerde op de opvallende vacature bij Nu.nl voor datajournalist, en sinds een half jaar beoefent hij het vak met vallen en opstaan. Zijn taken zijn tweeledig: het verrijken van bestaande artikelen met data en visualisaties, en eigen onderzoek verrichten waarbij hij nieuws genereert uit data (en die visualiseert). Die eerste taak is vrij bewerkelijk, gezien de hoge omloopsnelheid van het nieuws. Bij Nu.nl moet hij dan in een half uurtje een artikel voorzien van data/infographics, en dat is geen makkelijke klus.
Hij maakt onder andere gebruik van Google Refine (voor het verbinden van tabellen), Fusioncharts, Fusiontables, en Impure (voor meer complexe verbanden).

Data haalt hij deels uit CBS Statline, maar soms moet hij afzonderlijke leveranciers afbellen om te vragen of ze data willen delen. Zo maakte Kamsma een kaart met ‘potentiële humane spoedlocaties’, op basis van een bodemvervuiling-inventarisatie die de centrale overheid vrijgaf. “Voor de locaties moest ik gemeenten langs. Ik heb de dertig grootste gemeenten gebeld en gevraagd of ze de locaties wilden geven, omdat het om openbare informatie gaat. Voor datajournalistiek moet je ook het vertrouwen zien te winnen van degenen die over de data beschikt.” Kamsma zoekt ook samenwerking in de commerciële sector (zoals een taxateur).

Links:
De datajournalistieke producties bij Nu.nl: http://www.nubijlage.nl/nudata/
Voorbeelden
De donorstand: http://www.nubijlage.nl/nudata/2627717/donorstand.html
Bevolkingsgroei (gemaakt met Impure): http://www.nubijlage.nl/wereld/2651604/wereld-telt-7-miljard-inwoners.html
Risicogebieden kerncentrales: http://www.nubijlage.nl/nudata/2626635/risicogebieden-kerncentrales.html

Opmerkingen vanuit de zaal
Betrouwbaarheid van de data. Tot dusver heeft niemand stilgestaan bij de vraag of de data die je krijgt wel betrouwbaar zijn. Ook data die gevestigde organisaties of overheden prijsgeven, is niet per se betrouwbaar. “Er zijn kleine leugens, grote leugens en statistiek”, zegt Bakker.
En hoe voorkom je dat je als datajournalist voor het karretje wordt gespannen door de leverancier van data, vraagt iemand in de zaal. Partijen die gegevens beschikbaar stellen, doen dat soms alleen uit eigen belang. Wat doe je met die data en hoe verifieer je die?

Tot slot: wat voegen die datajournalistiek en die visualisaties nou toe aan de bestaande berichtgeving? Regionale kranten kunnen zich ermee onderscheiden, zegt Jerry Vermanen van Regiohack. “Je haalt nieuws uit de regio dat je anders zou missen, je hebt nieuws dat anderen niet hebben. Daarmee kun je je onderscheiden en dat is denk ik belangrijk voor een krant, zeker als het financieel niet altijd even goed gaat.”
Edo Plantinga: “Het is een schaars goed, er zit nog heel veel verborgen in datasets. Dat kan een toegevoegde waarde betekenen voor kranten die het moeilijk hebben.”

Extra info bij De Nieuwe Reporter

Opgetekend door Arno Kersten

Gerelateerde artikelen

Wil je bijgepraat worden door collega’s over hun lokale onderzoeksverhalen? Wil je snel overheidsstukken kunnen vinden en doorzoeken? De verhalen liggen op straat, maar je moet ze wel vinden. Prominente sprekers geven een kijkje in hun keuken op dinsdagmiddag 21 mei in Alkmaar.

Sluit je aan bij de vereniging van onderzoeksjournalisten

En vergroot je kennis én netwerk