Cafe, Kenniscentrum, Nieuws

Verslag VVOJ Café: “Zoek je een database, begin bij het formulier”

Hoe veelzijdig datajournalistiek is, blijkt wel uit de drie presentaties tijdens het volgeboekte VVOJ Café van dinsdagavond 2 oktober. Van gevisualiseerde patatzaken en hun afstand tot scholen, naar het traceren en animeren van hertenbewegingen, tot het vinden van onverwachte data met behulp van formulieren. De een zoekt data bij een journalistieke vraag, de ander doet het precies andersom.

Sprekers: Bas Broekhuizen (docent Universiteit van Amsterdam), Frédérik Ruys (datajournalist, onder andere Nederland van Boven) en Henk van Ess (journalist, trainer, zoekexpert)
Gespreksleider: Miro Lucassen
Datum: 2 oktober 2012
Locatie: Grand café-restaurant 1e Klas, Amsterdam CS.
Verslag: Arno Kersten

Bas Broekhuizen trapt de avond af met zijn patatproject, een case die hij eerder al uitwerkte tijdens de cursus datajournalistiek aan de Hogeschool Utrecht. Uitgangspunt vormt een bericht in Het Parool, over een voorstel van de lokale PvdA om op loopafstand van scholen overdag de verkoop van patat aan banden te leggen, in de strijd tegen ongezonde eetgewoontes van de jeugd. Hoeveel patatzaken zou zo’n maatregel nou treffen, vroeg Broekhuizen zich af.
De onuitvoerbaarheid van zo’n politiek voorstel bracht gelijk al complicaties met zich mee. Want wat valt er precies allemaal onder het begrip snackbar en hoe breed mag je een begrip als fastfood zien? En hoe ver reikt precies een looptafstand? “Er zijn jongeren die best twee kilometer willen lopen voor een zakje patat”, aldus Broekhuizen.

Een overzicht van middelbare scholen in Amsterdam haalde hij van een overheidswebsite (zie ook: data.duo.nl), waar sinds steeds meer openbare databestanden worden gepubliceerd in gebruiksvriendelijke xls- of csv-formaten. Dan de horeca. Hij kwam op het spoor van een pdf-document waarin de gemeentelijke dienst Onderzoek en Statistiek alle snackbarren in de stad op een rijtje had gezet. Dat leek mooi, maar er zaten toch wat haken en ogen aan. Er was geen eenduidige definitie van snackbar, aangezien bij de Kamer van Koophandel snackbarren, broodjeszaken en lunchrooms allemaal binnen één categorie vallen. Bovendien bleken sommige zaken op vreemde locaties te zitten: het waren hoofdkantoren. Daarnaast ging het mis bij vreemde tekens. “En ik had nogal wat döner kebab-zaken ertussen staan.”

Uiteindelijk besloot hij gebruik te maken van zogeheten application programming interface, oftewel API, door hem getypeerd als een ‘achterdeurtje in een website dat door de programmeur expres is opengezet om anderen in staat te stellen gegevens in een gestructureerde vorm op te halen’. Het alternatief voor de Kamer van Koophandel, OpenKvK (ook ’s nachts bereikbaar, als de KvK-site dat niet is, maar minder uitgebreid), biedt zo’n API waarmee Broekhuizen een lijst van fastfoodhoreca opvroeg. Dankzij een andere API, eentje van Google, was hij in staat geografische coördinaten (latitude en longitude) toe te voegen. Hij creërde met Google Maps Circle Overlay een cirkel rond elke school voor de loopafstand, die hij met een schuifje aanpasbaar maakte (dankzij een kant-en-klaar scriptje dat hij op het web vond).

Broekhuizens motto is simpel: ook zonder uitvoerige techische programmeerkennis valt er een heleboel zelf te maken, als je maar weet wat je nodig hebt en waar je dat kunt vinden. Het web biedt een onuitputtelijke voorraad aan gereedschap en onderdelen die je met een kleine aanpassing in je project kunt gebruiken. “Het is me nog nooit gebeurd dat ik met een vraag zat en dat er online nog helemaal niemand over geschreven heeft. Als je een beetje weet hoe een programmaatje in elkaar zit, kom je een heel eind. Je hoef geen cursus te volgen om keiharde programmeur te worden.”
Voor een journalist is een kaartje als dit geen eindstation, voegt Broekhuizen eraan toe. “Vergeet de waarom-vraag niet. Die haal je meestal niet uit de data, maar vereist verder onderzoek. Dat hoort ook bij je opdracht als journalist.”

Schaduw
Datajournalist Frédérik Ruys, onder meer verbonden aan de VPRO-serie en -website Nederland van Boven, begint met foto’s van een auto-ongeluk waar hij zelf bij betrokken was. Hij maakte een professionele animatie van het incident, compleet met weergave van de snelweg en pijlen voor de beweging van de weggebruikers, en stuurde die visuele reconstructie naar de verzekeraar. ‘Bedankt voor je duidelijke uitleg. Nog nooit zoiets gezien’, kreeg hij terug.

Ruys vertelt over de opzet van het veelbesproken VPRO-project Nederland van Boven, waarvan inmiddels een tweede serie in voorbereiding is. Hoewel qua idee en animatietechniek deels schatplichting aan voorgangers Britain from Above, Deutschland von oben en America revealed, zette de VPRO meer in op de data. “Er was één redactie voor zowel televisie als voor de website, en dat was eigenlijk voor het eerst.” De website, door alle aandacht voor de televisieserie een beetje in de schaduw gebleven, sleepte onlangs een Prix D’Italia in de wacht. Tot groot genoegen van Ruys, al was het maar vanwege de enorme hoeveelheid werk die speciaal voor de website is verzet en de datasets die het bevat

Betalen voor data was een no-go, vertelt Ruys. Waar hij zelf wel op stond, was het vermelden van de databronhouder bij elke animatie. “Het Commissariaat voor de Media lag aanvankelijk dwars, want die zagen het als reclame. Terwijl de redactie redeneerde: als je de directeur van de NS interviewt in het Journaal, dan zet je toch ook in beeld wie het zegt?”

Het verzamelen van de data vergde de nodige creativiteit, en bereidwilligheid van de betrokken bedrijven en overheidsdiensten. Een animatie van het loopgedrag van herten (overdag in het bos, ’s nachts in het veld) kwam tot stand dankzij een onderzoek dat al uitgevoerd werd en waarbij herten met zware geo-transponders om de nek gevolgd werden. “Alleen gaven die de locatiegegevens door met een interval van een uur. Dat was voor ons te lang, want we wilden echt de bewegingen in beeld krijgen. We kregen de onderzoekers zo gek om die duur in te korten, wat er ook toe leidde dat ze hun eigen onderzoeksperiode moesten verkorten, omdat die apparaten eerder op waren”, vertelt Ruys. En met een sardonische glimlach voegt hij eraan toe. “Dat had ook consequenties voor de herten zelf, want je moet weten dat die na afloop van het onderzoek worden afgeschoten.”

Om een verhaal te vertellen, helpt het als je in een massa één voorbeeld eruit licht. Zo’n anker, zoals dat in Hilversum heet, was in Nederland van Boven bijvoorbeeld een containerschip dat met de helicoptercamera werd gevolgd op z’n weg naar en in de enorme Rotterdamse haven. In de digitale animatie heeft het schip een ander kleurtje gekregen, waardoor het opvalt in de zee van stipjes die alle kanten op bewegen.

Ruys licht ook toe hoe de redactie worstelde met het visualiseren van de treinenloop door het hele land. ProRail stond datagegevens af van de doorkomsttijden van treinen bij wissels. Heel mooi, maar een rechte lijn van wissel naar wissel geeft een vertekend beeld van de werkelijke route die een trein aflegt, en juist die hadden ze nodig om de data op een (spoor)kaart van Nederland te leggen. Uiteindelijk zijn de tussenliggende data met behulp van interpolatie, en de werkelijke spoorroutes, toegevoegd, vertelt Ruys terwijl hij de animatie laat zien. “Herten volgen we in Nederland op de voet, maar waar de trein zich bevindt? Ik heb bijna op het punt gestaan om twintig conducteurs zo’n geo-halsband van die herten om te hangen”, grapt Ruys. “Toch zijn er soms nog rare dingen, hoor. Ik heb me echt het hoofd gebroken hoe het kan dat er meer treinen uit Den Helder vertrekken dan er aankomen.”

Formulieren
Er zijn prachtige datavisualisaties, betoogt Henk van Ess in zijn bijdrage (zie slides), maar je moet wel ergens data vandaan halen. “Sommigen beschouwen dat als de achilleshiel: originele data, hoe kom je daaraan?” Je kunt een eind komen door met andere ogen te kijken, en op een andere manier op zoek te gaan. En de juiste vraag te formuleren.

Die juiste vraag helpt ook om het echt nieuwswaardige uit cijfers te kunnen halen, of om je eigen verhaal eruit te zeven. Van Ess laat een kort staatje zien waaruit moet blijken dat het aantal ongelukken in een Duits verzorgingstehuis in 2011 lager lag dan in 2010. Eerste conclusie (en krantenkop): het tehuis is veiliger geworden. Maar klopt dat wel? Er zijn ook cijfers van het aantal bewoners. Dat is eveneens gedaald. Verhoudingsgewijs is het aantal ongelukken gelijk gebleven. Maar is dat alles? Er is een onderscheid te maken in de ernst van de ongelukken, welke verhouding en ontwikkeling laat die zien? Hoeveel ongelukken staan op naam van één en dezelfde persoon, of omgekeerd: hoeveel verschillende personen zijn er slachtoffer van een ongeluk? Is er misschien een vertekening doordat één bewoner met epilepsie relatief vaak onderuit gaat? “Stel de juiste vraag voor je verhaal”, doceert Van Ess. “En wat is nou het mooiste verhaal? Dat hangt van je doelgroep af.”

Het probleem bij de start is natuurlijk: je weet niet wat je niet weet. Hoe vind je data waarvan je niet weet of die bestaat, en waar die te vinden is? “Formulieren”, zegt Van Ess. “Er worden ongelooflijk veel gegevens verzameld alleen al door overheidsdiensten en dat gebeurt over het algemeen met een formulier. Al die informatie wordt ergens opgeslagen. In een database. Dus de weg naar die database, begint soms bij het vinden van een formulier.” Ook handig voor wie overheidsgegevens wil loskrijgen op basis van de Wet Openbaarheid van Bestuur, je weet in elk geval in welke richting je moet zoeken.

Hoewel veel formulieren in bijvoorbeeld html-code op websites staan, zijn er nog altijd een heleboel die in pdf-formaat worden opgesteld. Een simpele oefening door te zoeken naar pdf-bestanden binnen het domein overheid.nl met het trefwoord formulier, levert meer dan achthonderd treffers op.

Het gaat trouwens niet alleen om het traceren van een bestaande database, zegt Van Ess. Neem een onderzoeksrapport waarin enquêtegegevens worden gebruikt, maar de enquêtevragen zelf niet zijn opgenomen. Je bent beter bewapend om de juiste vragen te stellen aan de onderzoekers als je weet welke zaken aan burgers is gevraagd, met welke exacte formulering en eventuele antwoordopties. Goede voorbereiding is de basis, ook als je stuit op tegenwerking bij het opvragen van de data. Bedenk bijvoorbeeld welke gegevens in een databestand privacygevoelig kunnen zijn en óf je die eigenlijk wel echt nodig hebt. Op het moment dat je het hele bestand geweigerd wordt vanwege die privacy, kun je net genoeg meebuigen om de angel eruit te halen. “Mee-judoën”, noemt Van Ess dat beeldend.


Bookmark and Share


Gerelateerde artikelen

Op vrijdag 21 juni 2024 zijn op de Avond voor de Onderzoeksjournalistiek in Antwerpen de ASN Aanmoedigingsprijs 2023 en De Loep 2023 uitgereikt. Met deze prijzen viert de Vereniging van Onderzoeksjournalisten (VVOJ)  jaarlijks de beste onderzoeksjournalistiek in Nederland en Vlaanderen.

Sluit je aan bij de vereniging van onderzoeksjournalisten

En vergroot je kennis én netwerk