Kan een computer uit geschreven bronnen herleiden wat er in de wereld gebeurt? Met die vraag begon Piek Vossen, hoogleraar Computationele Lexicologie aan de Vrije Universiteit Amsterdam, drie jaar geleden een onderzoek naar de mogelijkheden om een geschiedenis digitaal te reconstrueren. Een vraag die ook onderzoeksjournalisten bezighoudt, getuige de volle zaal waarin Vossen zijn bevlogen presentatie geeft. Met de komst van de NewsReader lijkt het antwoord ‘ja’ te zijn.
Door: Lars Delleman
De NewsReader, in feite een zeer uitgebreid computerprogramma, is in staat om een enorme hoeveelheid aan nieuwsberichtgeving te scannen. Het programma verwerkt berichten uit vier talen, onder meer uit het miljardenarchief van LexisNexis. Het grote verschil met bestaande nieuwsscanners is dat de NewsReader verhalen als het ware afpelt tot de kern – ongeacht het volume van de berichtgeving. Daarmee kan de daadwerkelijke impact van een gebeurtenis worden gemeten, in plaats van de impact van de aandacht voor die gebeurtenis. Dat biedt een oplossing voor de grote paradox waarmee veel professionals te maken hebben in onze Information Age: de toename van beschikbare informatie bemoeilijkt in praktijk het constructieve gebruik ervan.
Carwar
Ter illustratie komt Vossen met een voorbeeld uit de auto-industrie. Wanneer je online op zoek gaat naar informatie over de carwar tussen Volkswagen en Porsche, stuit je op ruim twee miljoen hits op Google met berichtgeving uit de afgelopen jaren. Door deze overload aan informatie is het moeilijk om een goede tijdlijn te reconstrueren van een vrij complexe overname-oorlog. De NewsReader kan alle berichtgeving over een belangrijke gebeurtenis binnen deze carwar reduceren tot twintig procent van de bestaande informatie, en berichtgeving over personen die betrokken zijn bij deze gebeurtenissen tot tien procent. Het overige deel is irrelevant, omdat het geen feitelijke veranderingen betreft maar speculaties en opinies óver deze veranderingen.
Gebreken
Zo komt de NewsReader tot een gereconstrueerde tijdlijn van de overname -oorlog tussen Volkswagen en Porsche. Het programma kan daarbij lezen of een gebeurtenis een positief of negatief effect heeft gehad voor de bedrijven, en hoe dit zich bijvoorbeeld verhoudt tot het carrièreverloop van de CEO’s. Door deze reconstructie uit te laten voeren door een computer, kan een bulk aan data worden gescand waardoor de kans dat informatie over het hoofd wordt gezien sterk wordt verkleind. Uiteraard zijn er ook gebreken: het programma kan helpen bij het vinden van het verhaal, maar kan geen wetenschappelijk bewijs of juridische duiding geven. Bovendien kan het een verhaal niet zelfstandig vertellen. Dat blijft mensenwerk.
Waar blijven de journalisten?
De software is vrij beschikbaar en bestaat op dit moment uit zeventien losse programma’s. Inmiddels hebben verschillende partijen hun interesse laten blijken, zoals Wikinews, historici en internationale banken. Maar ook de Verenigde Naties en de Tweede Kamer zien mogelijkheden. De grote afwezigen in het lijstje zijn de journalisten, zo wordt na de presentatie door het publiek opgemerkt. Vossen besluit uitdagend: “Als jullie er zelf niks mee doen, dan doen wij wel iets met jullie.”
Op 25 november organiseert de Vrije Universiteit Amsterdam een hackathon in de OBA. Journalisten worden uitgenodigd om ideeën in te brengen voor het gebruik van de NewsReader. Hier vind je meer informatie.
Foto van sessie: Michael Albers