Kenniscentrum

GIJC 2011: Koken met Cohen: textmining

Sinds Wikileaks willen we allemaal leren hoe we grote hoeveelheden documenten snel kunnen doorzoeken op ‘the smoking gun’. Een van de pioniers op dit terrein van text mining is Sarah Cohen, Knight Professor of the Practice of Journalism and Public Policy van Duke Sanford School of Public Policy en daarvoor van de Washington Post.

door Margo Smit

Cohen gaf tijdens haar workshop in Kiev een aantal tips:

‘In this session we are going beyond DocumentCloud,’ zei ze, en daarmee werd het een sessie voor de specialist. Maar ook met enkele tips voor de beginnende ‘snellezer’, uit de keuken van Cohen.

Let op: tijdens het aankomende VVOJ Congres in Eindhoven wordt er meer aandacht besteed aan text mining!

‘Sadly,’ aldus Cohen in Kiev, ‘most tools are in English, and most do only patterns, the computer doesn’t really read for you. And don’t depend on them for accuracy, don’t bet your life on them. Speech recognition has a 40 per cent accuracy, it misses 60 per cent. Text mining is about the same, so just use them for patterns. Then they are reasonably good.’

Cohen liet een paar van de mogelijk minder bekende text miners zien: Gnosis, een add on van Firefox, en OpenCalais, een open source machine waarmee ook DocumentCloud werkt.

Gate is de tool om in de gaten te houden, zegt Cohen.

‘It is British and is basically a collection of 30 different text mining tools, and this one is in many languages. It was an academic piece of software.

There are add ins for different languages, and it also takes non-latin characters. It has two downsides though: It is not easy to use, and you have to install it on your computer. But it is open source and a nice survey of what is around in text mining.’

Vervolgens toonde ze Voyeurtools.org.

‘It looks for patterns in scanned searchable pdfs (you have to do OCR first, Optical Character Recognition: be careful to check your text afterwards, for some words may not be read correctly…), but then it gives you word clouds and some nice basic information on what is in a document.

It will not read your document for you but gives you a basic view of what is in there. And that is nice.’

Ook wees ze op het Harvard institute for connotative social sciences en zijn tool ReadMe.

‘This is software for automated content analysis. You can upload a few sample documents and it gives you advice on what to do with your documents if you don’t have time to read yourself. This is really computer assisted, where the computer really assists you in dealing with your documents.’

Tot slot gaf ze nog twee hints voor de toekomst van text mining.

‘The next one to try for me is AlchemyAPI: a sort of text mining ‘desk’ to install. It is not for free but looks very promising. It does entity extraction, and it senses the tone of the document (whether it is a positive or negative document). Is a tool for companies, but can be useful for journalists too.’

Cohen gaat het uitproberen, en het mooie is dat we daarvan allemaal kunnen gaan meeprofiteren. Haar universiteit start in november met een proefkeuken.

‘Our Test Kitchen will be testing tools like this and file reports on these tools. You can ask questions to test a tool as well.’

In de gaten houden dus, en dan maar koken met Cohen.

Sluit je aan bij de vereniging van onderzoeksjournalisten

En vergroot je kennis én netwerk