De data achter politiek woordenspel
Meer informatie over de dataset, gebruikte methodes en hoe politiek woordenspel tot stand is gekomen.
Materiaal
Het materiaal dat de basis vormt van politiek woordenspel is een set van metadata en transcripten van de uitzendingen uit de zendtijd voor politieke partijen, beschikbaar gesteld door het multimediale archief van Beeld en Geluid. Dit archief is te raadplegen door onderzoekers in de CLARIAH Media Suite, een online onderzoeksplatform, dat onder andere de mogelijkheid biedt om TV-uitzendingen te doorzoeken. Met behulp van ASR (Automatic Speech Recognition) is de gesproken taal in de uitzendingen herkend en omgezet naar geschreven tekst.
In de ruim zeventig jaar dat de zendtijd voor politieke partijen bestaat, is de collectie door verschillende organisaties beheerd. Vanaf 1962 vond de archivering van het corpus plaats bij de Stichting Film en Wetenschap (SWF) dat later opging in het Nederlands Audiovisueel Archief (NAA), de voorloper van Beeld & Geluid. De collectie is vrijwel compleet vanaf 1986 maar kent in de periodes daarvoor hiaten. Zo is van de Boerenpartij, die van 1963 tot 1981 in de Tweede Kamer vertegenwoordigd was en een belangrijke rol speelde bij politieke verschuivingen in de jaren zestig, geen enkele uitzending aanwezig. Van de PPR (Politieke Partij Radikalen) ontbreken de uitzendingen uit de jaren zeventig.
Dataset
Bij de ontwikkeling van politiek woordenspel hebben we de dataset opgeschoond en bepaald materiaal niet meegenomen in de analyse. De dataset waarmee we begonnen bevatte 3151 items met videomateriaal. De opgeschoonde dataset waar politiek woordenspel mee is gemaakt bevat 2875 items.
Deze items zijn buiten beschouwing gelaten:
- Banden die compilaties van uitzendingen bevatten en daarmee niet aan één partij zijn toe te schrijven. Deze compilaties bevatten uitzendingen die wel losstaand zijn uitgezonden en op die manier in het corpus terug te vinden zijn.
- Banden met bronmateriaal dat niet als een uitzending in de zendtijd voor politieke partijen is uitgezonden. Het gaat hier bijvoorbeeld om ruw materiaal of de integrale opname van een partijcongres.
- Herhalingen van uitzendingen in korte tijd. Om geen vertekend beeld te krijgen, hebben we herhalingen uit de dataset gehaald. Uitzendingen die op kleine punten van elkaar verschillen zijn moeilijk automatisch weg te filteren en kunnen daarom in de dataset aanwezig zijn.
- Uitzendingen waarvan geen transcripten beschikbaar zijn. Vaak gaat het hier om storingen in de audio of om technische problemen in de archivering waardoor het materiaal niet te bekijken en te beluisteren is in de CLARIAH Mediasuite.
- Uitzendingen die geen gesproken tekst bevatten.
De laatste categorie - uitzendingen die geen gesproken tekst bevatten - is een genre waar verschillende partijen zich aan hebben gewaagd. In sommige gevallen worden er wel woorden gebruikt maar worden deze woorden niet uitgesproken. Zo maakte de PVV een anti-Islam spotje met provocerende teksten, grafisch in beeld gebracht. De Partij voor de Dieren laat beelden zien van dierenleed en natuurschade die voor zich spreken, helemaal zonder tekst, begeleid door muziek.
Data-analyse
In het politiek woordenspel kun je politieke reclamespotjes verkennen op taalgebruik. Om dit mogelijk te maken hebben we de transcripten van de uitzendingen geanalyseerd. Met behulp van de software Spacy selecteerden we de zelfstandige naamwoorden die politici gebruiken. De woorden zijn daarbij teruggebracht tot hun lemma, om verschillende varianten binnen het taalgebruik te combineren. Het woord ‘tafels’ wordt dan bijvoorbeeld teruggebracht tot ‘tafel’. Zo kun je een begrip opzoeken dat op meerdere manieren in spotjes voorkomt. Vervolgens kun je in de citatensectie zien op welke manier het woord is gebruikt en welke veranderingen daarbij hebben plaatsgevonden in de geschiedenis.
Zelfstandige naamwoorden geven veel kennis over thematiek binnen de taal. Na het verkennen van de bijvoeglijke naamwoorden, persoonlijke voornaamwoorden en locaties, hebben we ons daarom toegespitst op die woordsoort. In totaal gaat het om 16.825 unieke woorden. We bekeken welke woorden met elkaar worden geassocieerd binnen hetzelfde onderwerp met behulp van een topic model. Dit deden we om een globaal beeld te vormen van de dataset en inspiratie op te doen voor verdere verkenningen. Sommige onderwerpen binnen het topic model zijn vaag gedefinieerd. Dat betekent dat deze onderwerpen alledaagse woorden bevatten zoals ‘dag’ en ‘keer’. Andere onderwerpen zijn concreter. Bijvoorbeeld een onderwerp dat het woord ‘gemeente’ verbindt met ‘provincie’, 'dorp' en 'stad' en met grote kans verwijst naar het thema lokaal bestuur. Het is belangrijk om te vermelden dat topic modellen geen context meenemen in hun associaties en woorden in werkelijkheid op positieve, neutrale en negatieve manieren besproken kunnen worden. Politici gebruiken woorden binnen verschillende contexten en onderwerpen. De associaties vormen dan ook een startpunt voor verder onderzoek waarbij je als gebruiker wordt uitgenodigd om de citaten en verdere context mee te nemen in het vormen van een beeld.
ReFrame
Politiek woordenspel is een onderdeel van het onderzoeksproject ReFrame, dat als doel heeft om de praktijk van (her)gebruik van audiovisuele data en digitale tools in audiovisuele journalistieke producties te onderzoeken.
Aan ReFrame werken verschillende partijen mee, waaronder de Universiteit Utrecht, Beeld & Geluid en het lectoraat Creative Media for Social Change van de Hogeschool van Amsterdam. Binnen ReFrame zijn verschillende datastories en journalistieke producties ontwikkeld en is er onderzoek gedaan naar de totstandkoming daarvan.
Colofon
Aan politiek woordenspel werkten mee:
- Tamara Witschge, lector Creative Media for Social Change (Hogeschool van Amsterdam)
- Maaike van Cruchten, onderzoeker / ontwerper Creative Media for Social Change (Hogeschool van Amsterdam)
- Frank Kloos, onderzoeker / ontwerper Creative Media for Social Change (Hogeschool van Amsterdam)
- Shannon Bakker, zelfstandig datajournalist, Journalistiek met Cijfers
- Sahra Mohamed, zelfstandig datajournalist en poëziecriticus
- Angela Luong, Information Designer
- James Peter Perrone Jefferies, Front-end Developer, Voorhoede
- Declan Rek, Lead Front-end Developer, Voorhoede
Contact
Heb je opmerkingen, tips of vragen over politiek woordenspel? Stuur een mailtje naar m.van.cruchten@hva.nl