De classificering van metareporter

Bij Metareporter kijken we wat kranten over nieuwe media schrijven. We bekijken totaal twaalf kranten die samen per dag zo’n dertig berichten over nieuwe media onderwerpen publiceren. Drie maanden lang hebben we de nieuwe media-berichten uit de kranten geïndexeerd in onze database, wat betekend dat er een goede 2600 berichten in staan. Voor het doen van analyses op deze dataset is het van groot belang dat deze data goed doorzoekbaar is en elk artikel dus is opgeslagen met de juiste informatie erover. Dit proces van classificeren is op zich is niet lastig, het opzetten van een classificeringsschema daarentegen gaat flink wat denkwerk aan vooraf.

In zijn tekst ‘Ontology is Overrated: Categories, Links, and Tags’ legt Clay Shirky uit wat volgens hem de afwegingen zijn die gemaakt moeten worden over hoe een domein te classificeren. De voornaamste afweging die gemaakt dient te worden is de keuze tussen een vaste ontologische (categorie) indeling of een flexibelere manier van indelen bijvoorbeeld doormiddel van tags. Zoals je misschien gezien hebt maken we op Metareporter gebruik van beiden systemen, een aparte beslissing (overigens niet door mij gemaakt) die ik hier zal proberen te onderbouwen, na een korte filosofieles.

Epistemologie of kentheorie is het filosofisch vakgebied dat de vraag bekijkt wat kennis is en hoe kennisaanspraken gerechtvaardigd kunnen worden.(Leezenberg & de Vries, 2001) Sterk versimpeld houdt dit vakgebied zich dus bezig met de vraag ‘wat kunnen we weten?’. En hoewel waarschijnlijk weinig mensen zichzelf zulke filosofische vragen zullen stellen wanneer ze hun foto op Flickr van tags voorzien of een filmpje op Youtube plaatsen is dit wanneer je een classifiseringssysteem opstelt een van de belangrijskte vragen. Voordat je ook maar enige claim over data kunt maken is het belangrijk te weten wát je met zekerheid over deze data kunt zeggen. Over zaken als tijd, locatie, en omvang zijn goede afspraken gemaakt, deze zijn meetbaar en voor iedereen gelijk, de inhoud van bijvoorbeeld foto van een bloem kan voor iedereen anders zijn: De maker ziet er een detail van zijn tuin in, een fotograaf ziet een voorbeeld van een slechte witbalans en een hovenier ziet bloemen die niet goed samen gaan bij elkaar staan. Bij het maken van een classificeringssysteem zal er over deze vragen dieper nagedacht moeten worden en zullen er keuzes gemaakt moeten worden over welke data er voor elke entry in de dataset beschikbaar is en welke categorisering het beste zal gaan werken om de dataset te organiseren en te gebruiken.

Ontologie, ‘zijnsleer’, of –meer beschrijvend- ‘categorietheorie’ is de leer van wat er bestaat en hoe het bestaat.

‘The main thread of ontology in the philosophical sense is the study of entities and their relations. The question ontology asks is: What kind of things exists or can exist in the world, and what manner of relations can those things have to each other? Ontology is less concerned with what is than with what is possible.’ (Shirky, 2005)

Binnen de informatie technologie wordt vaak een gerelateerde definitie gebruikt die directer aansluit op de problemen binnen dat vakgebied. Deze definitie is ‘een uitputtend, conceptueel schema van een bepaald domein’ ofwel het logisch indelen van alle informatie binnen een bepaald domein. Deze gedachten liggen duidelijk aan het begin van het opzetten van een classificeringssysteem of categorisering. Waar epistemologie zich voornamelijk bezig houdt met de eigenschappen van een object, houdt ontologie zich bezig met de relaties tussen objecten en welke conclusies er getrokken kunnen worden uit het al dan niet bestaan van deze relaties. Hierin worden dus bestaande objecten ingedeeld in groepen, maar wordt ook nagedacht over welke objecten er mogelijk zouden kunnen bestaan of ontstaan die later in de classificering opgenomen zouden moeten worden.

Het nadenken over welke objecten er misschien opgenomen moeten worden in de classificatie lijkt in te houden dat de toekomst voorspelt zal moeten worden. Deels is dit waar, maar voor een veel groter deel is het een epistemologische kwestie: wanneer je je afvraagt wat je met zekerheid ergens over kan zeggen vraag je je ook af waarom je dat kunt zeggen(Bowker & Star, 1999). Wanneer we bijvoorbeeld de stad New York City (Om het hier wel [ongeveer] goed te doen: De stad New York City zoals deze op 21 december 2009 wordt erkend door de Verenigde Staten) nemen kunnen we zeggen dat deze stad New York City heet, De coördinaten van de stad, in welke staat en welk land de stad ligt, wanneer deze gesticht is en hoeveel inwoners de stad heeft. Van de eigenschappen die ik net genoemd heb is de naam cultureel bepaald (Spanjaarden noemen de stad bijvoorbeeld Ciudad de Nueva York), de staat waarin het ligt is politiek bepaald, evenals het land waarin de stad ligt. De coördinaten kunnen gaan veranderen als de stad groter of kleiner wordt, evenals het aantal inwoners. En hoewel er over het algemeen aangenomen wordt dat de stad in 1624 door de Nederlanders gesticht is als Nieuw Amsterdam, zullen er mensen zijn die zeggen dat er al een nederzetting bestond op die plek, en de datum dus een stuk eerder ligt. Vrijwel alle data is dus variabel. Nu we hier over nagedacht hebben kunnen we hierop anticiperen: hoe lang zal deze dataset gebruikt worden, door wie, welk tijdsbestek moet het beslaan en hoe groot is de kans dat de eigenschappen zullen veranderen en wat zullen de gevolgen hiervan zijn. Pas wanneer dit soort vragen beantwoordt zijn kan een goede ontologie gemaakt worden.

Clay Shirky stelt zich in de eerder genoemde tekst ongeveer dezelfde vragen om de keuze te maken tussen een ontologische, en een tag indeling van een dataset. Hij zegt dat een ontologische indeling goed werkt wanneer het domein klein is, vaste categorieën bevat, entries niet veranderen, en er duidelijke grenzen aan te geven zijn. De gebruikers moeten bestaan uit experts, dus mensen die verstand hebben van het domein van de dataset.  Voor Metareporter gaan slechts een deel van deze eigenschappen op. Het domein waarin we werken is duidelijk afgezet en relatief klein, de entries veranderen niet meer nadat ze geplaatst zijn en aangezien alle gebruikers van de database op academisch niveau met nieuwe media bezig zijn, kunnen we wel zeggen dat de gebruikers ook experts zijn. Van vaste categorieën kunnen we echter niet spreken, de voornaamste reden hiervan is dat de dataset nog leeg was op het moment dat de indeling gemaakt moest worden. En zoals Clay Shirky ook al opmerkte in zijn tekst: het is erg lastig gebleken om de gedachten van andere te lezen of de toekomst te voorspellen.

Er zijn twee manieren om een dataset op te bouwen, de top-down methode en de bottom-up methode. De top-down methode omvat de ontologische manieren om een domein te organiseren. Bij de bottom-up methode worden objecten zonder banden in een dataset geplaatst waarna de banden tussen de verschillende objecten aan de hand van overeenkomsten tussen de objecten gevormd worden. Een voorbeeld van dit laatste is systeem is bijvoorbeeld tagging.

De top-down methode is lange tijd de standaard geweest, de reden hiervan is dat in de tijd dat data nog niet virtueel, maar fysiek werd opgeslagen in bijvoorbeeld boeken. Hierdoor was het lastig om categorieën te herzien. Beter was om één keer goed na te denken over een indeling, en vervolgens deze aan te houden, omdat een herziening van een classificatie als gevolg had dat een hoop boeken fysiek verplaatst moesten worden. Bij virtuele datasets ontbreekt de fysieke factor en kan data vrij verplaatst worden:

‘there is no shelf. In the digital world, there is no physical constraint that’s forcing this kind of organization on us any longer. We can do without it’ (Shirky, 2005).

Het virtueel worden van data heeft ervoor gezorgd dat we niet meer vast zitten aan vaste categorieën, maar deze wanneer we willen aan kunnen passen.  Dit betekent niet dat het minder belangrijk is om van tevoren een goede indeling uit te denken, maar wel dat wanneer een dataset groeit, de indeling ervan eventueel aangepast kan worden. Ook betekent het ontbreken van de plank dat er geen vaste hiërarchie in de categorieën hoeft te zijn. Een artikel in de metareporter database kan zowel gevonden worden door eerst op datum en vervolgens op krant te zoeken, als andersom.

Krant & Datum

Bij Metareporter is ervoor gekozen de krant, datum, auteur en katern in een top-down classificering onder te brengen en onderwerp in een tag-systeem. Ik wil kort onderzoek welke afweging hieraan vooraf kan zijn gegaan en of dit goede afwegingen geweest zijn. Wellicht dat het ook een goede basis kan vormen voor een volgende editie van metareporter.

Om de berichten te sorteren op krant en datum is gekozen om geen subcategorieën te maken, maar rechtstreeks de metadata van de berichten te pakken: naam van de krant, en datum. Deze data is in principe onveranderlijk en niet cultuurgebonden. Het enige gevaar is dat kranten fuseren, splitsen of ophouden te bestaan, echter, omdat ‘er geen plank meer is’ kan dit nog zonder veel moeite aangepast worden.

Wanneer we naar de verdeling over deze twee categorieën kijken blijk dat het redelijk netjes verdeeld is:

postperkrantIn de grafiek van het aantal artikelen per krant is niets vreemds op te merken. Zowel de keuze enkel op metadata te categoriseren als de keuze van het onderzoeksgebied zijn hier goed gedaan te zijn. Daarbij is het handig dat er geen kranten gestopt zijn of anderszins gewijzigd. (Al stopte de telegraaf 20 december met de zondaguitgave, als dat tijdens het onderzoek was geweest hadden we een keuze over behandeling van de zondag-data moeten maken)

postsperdag2postsperdagIn de grafieken van het aantal artikelen per dag zien we een aparte beweging aan het einde van de rode grafiek, wanneer we kijken naar de blauwe grafiek, die op chronologische volgorde staat blijken dit de zondagen te zijn, op deze dag publiceert alleen de telegraaf. Gezien de aard van de metadata (dagen per week, een internationale afspraak) zou een andere categorisering op dit gebied echter onlogisch zijn. Een optie tot extra categorisering zou wel de dag van de week kunnen zijn. Veel kranten hebben afhankelijk van de dag van de week een special ergens over, of publiceren bijvoorbeeld in het weekend of op zondag niet. Op zaterdag verschijnen echter wel de meeste nieuwe media artikelen zoals te zien is in dit totaaloverzicht:

postsperdagvdweek

Auteur

Een andere categorie die direct op metadata ingedeeld is is die van de auteur, dit levert de volgende verdelingen op:

postperautor1Deze verdeling lijkt erg op die van de long-tail. Er zijn enkele bureau’s en redacties die heel veel berichten hebben geschreven, en ‘oneindig’ veel auteurs die slecht een of twee nieuwe media berichten hebben geschreven deze periode. Een betere verdeling zou naar mijn idee geweest zijn om bovenop de metadata een onderscheid te maken tussen ”onbekend’, ‘persbureau’, ‘redactie’ & ‘journalist’. Een dergelijke verdeling levert eerder een goed beeld op van de informatie, ook wanneer je per krant gaat kijken. Hieronder het totaaloverzicht in de voorgestelde verdeling.

postpersoortauteur

Katernen

postperkatern Ook de verdeling van de katernen lijkt erg op het long-tail model, ook hier kan echter wel meer met de data gedaan worden. Veel kranten geven hun eigen naam aan een katern dat eigenlijk voor een groot deel overeen komt met de indeling in andere kranten. Buitenland, binnenland & economie komen in elke kranten eigenlijk onder dezelfde naam voor, wanneer het echter over bijvoorbeeld entertainment gaat verschillen de namen enorm, soms zelfs binnen een krant afhankelijk van wat het hoofdonderwerp die dag is. De data hiervan wordt een heel stuk overzichtelijker wanneer er hier een hiërarchie in de data wordt aangebracht, Zo zouden we alle entertainment-katernen met nieuwe mediaberichten als volgt indelen:

katerncath

Hieronder komen dan de eigen namen van de katernen, we willen natuurlijk niet dat we die data verliezen. Wanneer we het op een dergelijke manier indelen kunnen we heel veel meer zeggen over de aard van de berichten, op dit moment is door de vele verschillende namen van de katernen deze indeling niet goed te gebruiken in de analyses

Tags

Als laatste is voor de onderwerpen van de berichten gekozen voor een tagsysteem, en dit is hiervoor waarschijnlijk ook de beste optie geweest. Hoewel met met een ‘expert groep’ de berichten indelen verschilt iedereen van mening wat het onderwerp van een bericht is, en hoe uitgebreid dit beschreven moet worden. Daarnaast is het onmogelijk te voorspellen welke onderwerpen er allemaal in het nieuws gaan komen en kunnen vele berichten onder meerdere onderwerpen geplaatst worden. Een tagsysteem heeft hier geen moeite mee, de verbindingen worden opgebouwd terwijl je de database vult. Het tagsysteem heeft echter wel lastig van de bekende problemen homonymie, polysemie, verschil in detail van omschrijving en spellingsfouten (Simons, 2008). Deze problemen wegen echter niet op tegen de problemen die er zouden ontstaan als er met vaste categorieën gewerkt zou worden: de hiërarchie van onderwerpen zou continu aangepast moeten worden en de data zou incompleet zijn omdat er concessies gedaan moeten worden bij plaatsen van een bericht binnen een categorie. Deze twee problemen bij elkaar zouden ervoor zorgen dat de data ronduit onbetrouwbaar wordt.

De grafiek van de verdeling van tags ziet er zo uit:

postpertag2

Deze grafiek heet weer de verdeling van de long-tail, en dat is hier wenselijk. In de tags die worden toegewezen zit een hierarchie. Een artikel over een spel wordt vaak getagd met ‘game’,’naam van het spel’,’thema artikel’, etc. Hierdoor komt game veel vaker voor dan de andere genoemde tags. Dit maakt dat de data makkelijk doorzoekbaar wordt, op een manier die grotendeels lijkt op die een ontologische indeling, hierdoor kunnen problemen met polysemie en homonie tijdens een analyse ook snel opgezocht worden en opgelost.

De ontologische indeling bestaat al honderden jaren, interactievere indelingen zoals het tag-systeem bestaan veel korter en er wordt nog volop aan gesleuteld om de eerder genoemde problemen weg te werken en het navigeren er doorheen makkelijker te maken. Maar nu al is het een zeer goed en veelgebruikt alternatief om de steeds groter wordende stroom aan informatie overzichtelijk te houden. Bij Metareporter is een goede keuze gemaakt door de verschillende methoden voor verschillende data te gebruiken.

Bronnen:

Bowker, G. C., & Star, S. L. (1999). Sorting Things Out. Opgeroepen op 06 16, 2009, van http://www.si.umich.edu/~rfrost/courses/matcult/content/sorting_things.pdf

Leezenberg, M., & de Vries, G. (2001). Wetenschapsfilosofie voor de geesteswetenschappen. Amsterdam: Amsterdam University Press.

Shirky, C. (2005). Ontology is Overrated: Categories, Links, and Tags. Opgeroepen op juni 6, 2009, van Clay’s Shirky’s Writings Acout the Internet: http://www.shirky.com/writings/ontology_overrated.html

Simons, J. (2008). Tag-elese or The Language of Tags. Opgeroepen op juni 6, 2009, van Fiberculture Journal: http://journal.fibreculture.org/issue12/issue12_simons.html

Dit artikel is geschreven door Bart Swaalf op Friday, January 22nd, 2010 en is terug te vinden onder Analyse, Metareports. Blijf op de hoogte van reacties middels RSS 2.0 feed. Je kunt een reactie achter laten, of een trackback vanaf je eigen site maken.

2 Responses to “De classificering van metareporter”

  1. inzethor on April 16th, 2010 at 1:34 pm

    harstikke goed dankjewel!

  2. Hauw Nio on June 15th, 2010 at 10:34 am

    Mijn compliment voor deze classificatie.
    Bedankt.

Leave a Reply

Recente nieuwsberichten

Recente reacties