Grüße aus Hamburg: graven in het Deep Web

VVOJ-leden uit Nederland en Vlaanderen zijn neergestreken op de wereldconferentie voor onderzoeksjournalistiek in Hamburg. Zij doen verslag van sessies die de Lage Landen moeten inspireren. In deze aflevering: graven in het deep web

door Casper van der Veen

Een beetje Googlen kan de gemiddelde (onderzoeks)journalist uiteraard wel. Maar hoe ver komen verslaggevers op het deep web? En wat is daar te vinden? Daarover sprak onderzoeksjournalist en onderzoeksdocent Albrecht Ude afgelopen donderdagochtend in een sfeervol scheepsruim tijdens de Global Investigative Journalism Conference 2019 in Hamburg.

Het “deep web” is kortgezegd dat deel van het web dat buiten het bereik ligt van zoekmachines. Laatstgenoemde websites vinden mogelijk de startpagina van een deep web-database, maar niet hun content. En die content is potentieel reuze-interessant voor de gemiddelde onderzoeker: het gaat om miljoenen databases, gesloten webfora en websites die met wachtwoorden versleuteld zijn. Volgens Ude bevat het “surface web” slechts 4 procent van alle content en is de overige 96 procent te vinden op het “deep web” – iets wat de docent demonstreerde met bovenstaande ijsberg-graphic

Deep web of Dark web?

Het deep web dient niet te worden verward met het dark web. Dat laatste is formeel wel onderdeel van het deep web, maar is een niet rechtstreeks toegankelijk deel van het internet waarvoor speciale software als Tor nodig is – en daar begint het pas. Het deep web is niet opzettelijk verborgen, maar simpelweg niet te doorzoeken door zoekmachines.

Ude legde treffend uit dat het doorzoeken van het deep web een andere zoekstrategie vereist. Hij toont dit aan de hand van het voorbeeld van de Duitse architect Volker Hauth, iemand die met de 9/11-terrorist Mohammed Atta heeft gestudeerd. Hoe vind je zijn contactinfo? Een naïeve Google-zoeker zou wellicht simpelweg op “Volker Hauth” en email zoeken. Ude laat zien dat deze tactiek niets oplevert, maar dat het evengoed mogelijk is Hauths contactinfo te vinden.

De sleutel voor het doorzoeken van het deep web is dat je niet zoekt op je onderwerp, maar op de relevante database die je hoopt te vinden – omdat die mogelijk informatie over je onderwerp bevat. In het geval van Hauth ging Ude naar startpage.com (een soort geanonimiseerde manier om Google te doorzoeken zonder je data met de omstreden techreus te delen) en zocht op Architektenkammer Hamburg. Dit levert een database op, waarin je kunt zoeken op architecten en waarin je de contactinfo van Hauth wél aantreft.

Slim nadenken

De les hiervan is dat je allereerst zelf slim moet nadenken: wáár denk ik mijn informatie te vinden? Zoek op een database die je nuttig lijkt en/of op een bedrijf of platform die zo’n database mogelijk host – en kijk of je daar slaagt. Andere tips die Ude hiervoor gaf waren:

Zoek in Google naar de categorie van je onderwerk en combineer je zoekopdracht met “database OR directory OR catalogue OR list”
Ga naar de Wikipedia-pagina van je onderwerp en kijk onderin bij External Links of je een zinvolle database vindt. Doe dit in het Engels, in je moedertaal én in de taal die relevant is voor het onderwerp (bijvoorbeeld Koreaans bij onderzoek naar Noord-Korea)
De Wikipedia-pagina List of academic databases and search engines
Het Datenbank-infosystem (DBIS): een database van 11.554 wetenschappelijke databases. Gebruik is niet gratis, maar voor een paar tientjes per jaar is toegang te regelen via een universiteit.

Tot slot deelde Ude een reeks nuttige databases, waarvan hij vindt dat iedere onderzoeker ze moet kennen. Het is raadzaam voor elke onderzoeksjournalist om kennis te nemen van de volgende websites:

Archive.org: het bekendste internetarchief, waar miljarden webpagina’s gevonden kunnen worden. Je kunt zoeken naar oude versies van pagina’s, ook van sites die verwijderd zijn. Vooral de Save Page-optie is nuttig om bewijsmateriaal te verzamelen.
Archive.is: website waar je zelf een website kunt archiveren, bijvoorbeeld als “back-up” voor je nieuws over een bepaald bedrijf openbaart.
IANA Root Zone Database (iana.org): database van waar en door wie domeinnamen van sites geregistreerd zijn.
Worldcat.org: de grootste bibliotheekcatalogus ter wereld. Dat lijkt wellicht niet direct nuttig, maar boeken worden geschreven door mensen en door deze site te doorzoeken is er veel informatie over mensen te vinden. Worldcat Identities werd door Ude een van de beste namenregisters die hij kent genoemd.
Common Vulnerabilities and Exposures: database waarop elk bekend veiligheidslek staat
TED Tenders Electronic Daily: website waar informatie over veel EU-subsidies en -banen
DOAJ.org: website waar je open access-journals kunt doorzoeken. Nuttig voor journalisten die over wetenschappelijk onderzoek schrijven.

Journalisten denken te makkelijk

De lezing van Ude toonde aan dat veel onderzoekers erg makkelijk denken over hun online zoekskills, maar dat er voor de meeste researchers nog veel te leren blijkt. Kennis hierover kan ontzettend waardevol zijn voor welke bronnen en informatie je kunt vinden over het bedrijf of onderwerp dat je onderzoekt.

De spreadsheets van de lezing van Ude plus andere tiplijsten over het doorzoeken van het deep web zijn te raadplegen op zijn persoonlijke website: www.ude.de Daar staan ook links naar de databases die Ude aanraadt.