De taxonomie van Metareporter
Metareporter houdt dit jaar, voor de derde keer op rij, de geschreven pers bij. Door alle berichten omtrent nieuwe media te categoriseren en taggen in de database, wordt een overzicht gecreëerd van de berichtgeving rondom nieuwe media in de Nederlandse dagbladen. Om een representatief beeld te schetsen is een selectie van twaalf dagbladen gemaakt. Dit zijn voor alle drie de jaren De Pers, NRC Handelsblad, Spits, Reformatorisch Dagblad, De Telegraaf, Het Parool, De Volkskrant, NRC Next, Het Financieele Dagblad, Metro, Trouw en Algemeen Dagblad. Deze berichten worden door een groep van ongeveer 60 studenten bijgehouden. Deze studenten zitten allen in de eindfase van de bachelor New Media aan de UvA.
De website Metareporter gebruikt om het categoriseren en taggen van de berichten in goede banen te leiden enkele methoden. Aan de hand van de afgelopen drie jaar kan naar de dataset gekeken worden en een analyse gemaakt worden van de kracht en zwakte van het gebruikte indexeringssysteem. In deze eerste analyse wordt de categoriserende kant van Metareporter besproken. Eerst wordt hiervoor op de theorie rondom taxonomieën ingegaan om vervolgens de praktijk van Metareporter hieraan te spiegelen.
Van oudsher worden in onder andere bibliotheken systemen bedacht om content te beheren. Bibliotheken waren daarbij altijd gebonden aan het fysieke object, het boek. De hieruit voortkomende systemen worden door David Weinberg1 beeldend bomen genoemd. Bomen die vertakkingen hebben.

Belangrijk van de metafoor van de boom, in relatie tot de indexeringstechnieken, is dat elk blaadje aan slechts één tak vast zit en elke tak slechts aan één boomstam. Hierdoor ontstaat de structuur van een boom. Hiermee komt naar voren dat een boek in een bibliotheek slechts op één plaats gezet kan worden. Het boek van Jamie Oliver in Italië staat bijvoorbeeld of wel bij de reisboeken of wel bij de kookboeken. Een geschiedschrijving van de westerse economie staat of wel bij de geschiedenisboekensectie of wel bij de economiesectie van de bibliotheek.
Clay Shirky verwijst in het artikel “Ontology is overrated: Categories, links and tags”2 eveneens naar deze archiveringsstructuur. Shirky doet dit aan de hand van de directories van Yahoo. Deze kennen ook enkel een hiërarchische structuur.

Het stroom diagram laat zien hoe deze structuur het boek in de bibliotheek indeelt. Tegelijk laat het ook zien hoe het boek door de indeling gescheiden wordt van andere boeken. Hierin schuilt de kracht van het categoriseren. Grote hoeveelheden kunnen door categoriseren overzichtelijk en inzichtelijk gemaakt worden. Voor het vinden van een kookboek hoeft niet de hele bibliotheek bekeken te worden, maar slechts die plank op de afdeling in de bibliotheek waar de reisboeken zich bevinden.
Daarnaast dragen categorie metadata in zich. Doordat een boek ergens staat krijgt het boek een context en zal het eerder in die context gebruikt worden.
Shirky beschrijft tevens welke voorwaarden er gelden om deze structuur goed te laten werken. Hiervoor zijn twee dingen van belang.
Ten eerste de gegeven content die beheerd moet worden. Deze moet klein van omvang zijn. De categorieën moeten formeel zijn. De entiteiten moeten zowel stabiel als beperkt zijn en tot slot moet het goed afgebakend zijn.
Ten tweede moeten de deelnemers aan een dergelijk classificatie model aan vier voorwaarde voldoen. Diegene die de indeling maakt moet hierin gespecialiseerd zijn. Dit zelfde geld voor de gebruiker. Tevens moeten de gebruikers gecoördineerd worden en er een autoriteit beslissingen nemen. Als aan deze zeven voorwaarden voldaan wordt moet een hiërarchisch indexeringssysteem goed werken (2005).
Metareporter gebruikt deels een categorisch systeem om de berichten in te delen. Dit deel zorgt voor het meegeven van de krant waarin het bericht staat, voor het katern waarin het bericht staat en tot slot voor de informatie welke journalist het bericht geschreven heeft.
Als de vier criteria van Shirky op de content van Metareporter toegepast worden valt op dat deze aan de criteria voldoet. De twaalf kranten zijn gegeven net als de termijn waarin de berichten geaggregeerd worden. Hierdoor ontstaat een aanzienlijke, maar nog steeds betrekkelijk kleine hoeveelheid data. Vervolgens zijn ook de katernen en journalisten vaste gegevens. De data is dus beperkt, stabiel, vast en afgebakend.
De gebruikers vervolgens voldoen ook aan de criteria van Shirky. Categorieën zijn van bovenaf (door een autoriteit) vastgelegd en staan vast. Daarbij mogen de derde jaars studenten, geïnstrueerd en voorzien van voorkennis, gezien worden als experts. Derhalve moet, volgens de criteria van Shirky, Metareporter goed gecategoriseerd zijn.
Eerder merkte ik op dat de kracht van categorieën zit in de hiërarchische structuur. Hoewel krant > katern > journalist zich laat lezen als een hiërarchische structuur is daarvan bij Metareporter geen sprake. Metareporter heeft niet twaalf hoofdcategorieën, de kranten, met daar onder als subcategorieën katernen en daar onder de journalisten, waardoor snel inzichtelijk wordt welke journalist waar en hoeveel schrijft. Metareporter heeft drie hoofdcategorieën: kranten, katernen en journalisten met respectievelijk 12, 148 en 504. De vraag is of bij invoeren en opzoeken in een categorie met 504 entiteiten niet eerder fouten zullen optreden. Daarnaast gaat ook de metadata door het niet hiërarchisch koppelen verloren. Metareporter verzuimt hiermee de voordelen van taxonomie optimaal te benutten. In feiten worden de categorieën niet als zodanig gebruikt, maar slechts als vaststaande tags. Wellicht moet Metareporter dus niet als taxonomie maar als folksonomie bekeken worden…
- Weinberger, D. “Taxonomies to Tags: From Trees to Piles of Leave.” Esther Dyson’s Monthly Report: Release 0.1. Volume 23, No. 2. http://cdn.oreilly.com/radar/r1/02-05.pdf [↩]
- Shirky, C. “ Ontology is Overrated: Categories, Links, and Tags.”d d 2005. http://www.shirky.com/writings/ontology_overrated.html [↩]


One Response to “De taxonomie van Metareporter”
Trackbacks
Leave a Reply