Conferentie, Kenniscentrum

VVOJ2013 verslag: Crash course text mining

Titel: Crash course text mining
Datum en tijd: 16 november 2013, 14.00- 15.15 uur
Spreker: Antal van den Bosch

door Jolien Marinus

Veel kennis en info is vastgelegd in tekst. Er is meer techniek nodig met informatie over talen. “Het liefst taalonafhankelijk, zodat je taal kunt linken naar objectievere data”, aldus Antal van den Bosch.

“We hebben de bizarre ambitie om metaforen uit verschillende talen te ontdekken. Het doel van text mining is het automatiseren en analyseren van tekst. Journalisten kunnen hiermee geholpen worden, bijvoorbeeld met het zoeken in de veelheid van data en informatie. Ze kunnen geautomatiseerd een tekst doorzoeken, of worden geattendeerd op dingen, waar ze zelf nog niet aan hadden gedacht.

Van den Bosch probeert text mining uit te leggen aan de hand van een paar projecten. Het eerste project heet ‘Strikes that never happened’ en is volgens Van den Bosch een fantasieproject. Hierbij wordt er een gebeurtenis gekozen, iets wat impact heeft gehad. Deze gebeurtenis moet een begin en een eind hebben in tijd.

Voor dit project zijn 8 miljoen krantenpagina’s gescand. Het project maakte duidelijk  dat het mogelijk is om gericht te zoeken binnen die enorme hoeveelheid informatie.

Het tweede project is gericht op politieke data en bestaat uit twee dingen. De eerste is een databank met alle politieke informatie vanaf 1945 tot aan 1995, www.polimedia.nl.

De tweede is www.kbkranten.politicalmashup.nl en hierin kun je zien hoe vaak een woord of begrip wordt genoemd in de krant. Van den Bosch: “Vaak komt hier iets uit, wat je eigenlijk al weet.” Op basis van www.polidocs.nl worden door politicologen veel scripties gemaakt. “De Tweede Kamer zet informatie knullig online, op deze site is het wel goed bij te houden.”

Predicting time-to-event is het derde project. Doel is om te onderzoeken hoe lang het duurt voordat iets gebeurt aan de hand van Twitter. “Bepaalde woorden komen in een bepaalde tijd voor een event vaker of minder vaak voor.’’ ANP is partner van dit project. De persdienst vult z’n kalender met events die hieruit worden voorspeld.

Het project Emotional tweets werkt aan de hand van hashtags; vrijwillig toegevoegde labels met informatie. “Hashtags worden veel gebruikt in combinatie met emoties. Het kan ofwel een emotie versterken of een emotie toevoegen.” De informatie is interessant voor bijvoorbeeld sociologen. “Nederland is een sarcastisch land, daarom is er een sarcasmefilter toegevoegd.”

Het laatste project heet www.twiqs.nl . Deze site kan zoeken en meeluisteren met tweets. “Niet alle tweets kunnen opgehaald worden, we hebben maar toegang tot een beperkt aantal.” Aan de hand van metadata verzamelt twiqs informatie.

Gerelateerde artikelen

conferentie-1x

Claimen en framen, dat was het thema van de conferentie 2023. Wie claimt en framet stuurt de dialoog, zet thema’s op scherp en maakt andere geluiden vaak monddood. Hoe gaan we hier als onderzoeksjournalisten mee om? Hoe bewegen we ons in een wereld van wantrouwen? Daarover ging het onder meer tijdens twee succesvolle en verrijkende conferentiedagen op vrijdag 17 en zaterdag 18 november 2023 in Gent.

conferentie-1x

Eind 2013 ontvangt de gemeenteraad van Birmingham, Engeland – een merkwaardige anonieme brief waarin melding wordt gemaakt van een complot van Islamisten om openbare scholen in een achterstandswijk over te nemen. Het geheime plan had de codenaam Operation Trojan Horse. De brief wordt intern snel ontmaskerd als nep, maar veroorzaakt toch landelijke paniek als die in maart 2014 lekt naar de pers. Anekdotes over leerkrachten die Salafistische gedachten in de hoofden van hun leerlingen pompen en hun vrouwelijke collega’s discrimineren, buitelen over elkaar heen in de media.

Sluit je aan bij de vereniging van onderzoeksjournalisten

En vergroot je kennis én netwerk