Titel: Crash course text mining
Datum en tijd: 16 november 2013, 14.00- 15.15 uur
Spreker: Antal van den Bosch
door Jolien Marinus
Veel kennis en info is vastgelegd in tekst. Er is meer techniek nodig met informatie over talen. “Het liefst taalonafhankelijk, zodat je taal kunt linken naar objectievere data”, aldus Antal van den Bosch.
“We hebben de bizarre ambitie om metaforen uit verschillende talen te ontdekken. Het doel van text mining is het automatiseren en analyseren van tekst. Journalisten kunnen hiermee geholpen worden, bijvoorbeeld met het zoeken in de veelheid van data en informatie. Ze kunnen geautomatiseerd een tekst doorzoeken, of worden geattendeerd op dingen, waar ze zelf nog niet aan hadden gedacht.
Van den Bosch probeert text mining uit te leggen aan de hand van een paar projecten. Het eerste project heet ‘Strikes that never happened’ en is volgens Van den Bosch een fantasieproject. Hierbij wordt er een gebeurtenis gekozen, iets wat impact heeft gehad. Deze gebeurtenis moet een begin en een eind hebben in tijd.
Voor dit project zijn 8 miljoen krantenpagina’s gescand. Het project maakte duidelijk dat het mogelijk is om gericht te zoeken binnen die enorme hoeveelheid informatie.
Het tweede project is gericht op politieke data en bestaat uit twee dingen. De eerste is een databank met alle politieke informatie vanaf 1945 tot aan 1995, www.polimedia.nl.
De tweede is www.kbkranten.politicalmashup.nl en hierin kun je zien hoe vaak een woord of begrip wordt genoemd in de krant. Van den Bosch: “Vaak komt hier iets uit, wat je eigenlijk al weet.” Op basis van www.polidocs.nl worden door politicologen veel scripties gemaakt. “De Tweede Kamer zet informatie knullig online, op deze site is het wel goed bij te houden.”
Predicting time-to-event is het derde project. Doel is om te onderzoeken hoe lang het duurt voordat iets gebeurt aan de hand van Twitter. “Bepaalde woorden komen in een bepaalde tijd voor een event vaker of minder vaak voor.’’ ANP is partner van dit project. De persdienst vult z’n kalender met events die hieruit worden voorspeld.
Het project Emotional tweets werkt aan de hand van hashtags; vrijwillig toegevoegde labels met informatie. “Hashtags worden veel gebruikt in combinatie met emoties. Het kan ofwel een emotie versterken of een emotie toevoegen.” De informatie is interessant voor bijvoorbeeld sociologen. “Nederland is een sarcastisch land, daarom is er een sarcasmefilter toegevoegd.”
Het laatste project heet www.twiqs.nl . Deze site kan zoeken en meeluisteren met tweets. “Niet alle tweets kunnen opgehaald worden, we hebben maar toegang tot een beperkt aantal.” Aan de hand van metadata verzamelt twiqs informatie.