Conferentie, Kenniscentrum, VVOJ Activiteiten

VVOJ2014 verslag: Data Bootcamp voor gevorderden

Titel: Data Bootcamp voor gevorderden
Datum: 06 november 2014
Tijd: 11:00-18:00
Spreker: David Donald
Aantal aanwezigen: 8
Verslag: Emilie De Clerck

David Donald, data editor bij Investigative Reporting Workshop, probeert in dit bootcamp de aanwezigen wegwijs te maken in de beginselen van SQL. Die afkorting staat voor Structured Query Language, de taal waarin computers communiceren met hun server. Alle data waarmee je aan de slag gaat, bevindt zich in een database (een verzameling van één of meer tabellen) op die server.

Via SQL kan een datajournalist een vraag (ook wel query genoemd) stellen aan de server over de database. ‘Een database is eigenlijk niets meer dan een bron en afhankelijk van hoe goed je query is, krijg je goede of slechte resultaten en vind je een journalistiek verhaal’, vertelt Donald.

De eerste database die Donald onderzoekt, is er eentje over waterdammen in de Amerikaanse staat Ohio. Via een query vraagt hij welke dammen gelabeld staan als “high hazard” dammen.

De eerste belangrijke les van de dag: je kan er niet zomaar van uitgaan dat ‘high hazard’ ‘bouwvallig’ of ‘in slechte staat’ betekent. ‘Je weet niet wat high hazard kan betekenen en je mag ook niet zomaar uitgaan van dingen.

Dus wie bel je dan? ‘A dam inspector’, grapt Donald in zijn Amerikaans dialect, pun intended. Die inspecteur leert je dat ‘high’ slaat op de grootte van de groep mensen die getroffen zouden worden als de dam zou doorbreken.

Het gaat over de impact, en niet de waarschijnlijkheid, wat initieel gedacht werd. In deze fase vind je dus (nog) geen journalistiek verhaal. Data vertllen geen verhaal op zich, je moet een ‘data dictionary’ hebben, of contact leggen met iemand die je kan uitleggen wat de velden in de data beteken.

De query wordt aangevuld met nieuwe code, zodat alleen de dammen die al vijf jaar niet gecontroleerd werden, te zien zijn. Verder is het ook interessant om de oudere dammen te onderzoeken, gezien deze vermoedelijk in slechtere staat zijn.

Als resultaat krijgen we verschillende dammen van meer dan vijftig jaar oud, die minstens vijf jaar geleden voor het laatst gecontroleerd werden. Op dit punt kan je die oudste dammen gaan bezoeken met de ‘dam inspector’ en creëer je je journalistiek verhaal.

Bij de tweede database legt Donald uit hoe je gegevens van twee verschillende tabellen samen kunt doorpluizen.

De database van dienst bestaat deze keer dus uit twee tabellen: eentje waarin staat hoeveel geld bepaalde Amerikanen uit Tennessee doneerden aan senatoren, en een tweede tabel met gegevens van die senatoren, zoals de partij waartoe ze behoren.

Deze tweede tabel is noodzakelijk om de eerste nuttig te kunnen gebruiken, want in de eerste tabel, waarin de bedragen van de donaties staan, worden niet de echte namen van de senatoren gebruikt, maar slechts hun ID-nummers.

Wanneer je de twee tabellen bij elkaar brengt op basis van de ID-nummers, zie je als resultaat perfect wie hoeveel geld kreeg van wie. Nu kun je opnieuw verder gaan zoeken: je kan de totale donaties per kandidaat opzoeken, je kan kijken welke inwoner aan welke kandidaat uitzonderlijk veel geld doneert of je kan donaties per partij optellen.

Je kan nog veel meer dingen doen met SQL: je kan bijvoorbeeld uit twee tabellen zelf een nieuwe tabel maken of tabellen die niet ontworpen zijn om samen te gebruiken, toch samen onderzoeken.

Er zijn ook nog tal van mogelijkheden die Donald David niet heeft uitgelegd omwille van tijdsgebrek. David, die zichzelf als autodidact SQL heeft aangeleerd, heeft dan ook nog één laatste raad voor wie zijn nieuwe vaardigheden niet wil verliezen: morgen opnieuw starten met oefenen. ‘You get online, you research, you learn.’

 

 

Gerelateerde artikelen

conferentie-1x

Hoe komt de journalistiek uit de crisisstand? Ontsnapt ons vak na de opeenstapeling van crises – corona, Oekraïne, klimaat, gas, vertrouwen en wat niet meer – ooit nog uit het frame waar ze zelf zo verslaafd aan is?

 

conferentie-1x

Eindelijk weer samen! Dat gevoel overheerste op de VVOJ Conferentie 2021 in Brussel, die vlak voor het ingaan van zwaardere lockdown-maatregelen kon doorgaan. Vaste conferentiegangers weten dat het gesprekje in de wandelgang, het vlugge contact via de nieuwe conferentieapp en de kans om samenwerkingsplannen te smeden tijdens het diner minstens zo belangrijk zijn als de keynote-sprekers, de VVOJ-essayist en de meer dan 36 losse workshops en debatten.

Sluit je aan bij de vereniging van onderzoeksjournalisten

En vergroot je kennis én netwerk