Abonneer Log in

Stemtesten: wetenschap en media

Samenleving & Politiek, Jaargang 12, 2005, nr. 3 bijlage (maart), pagina 32 tot 49

Een wetenschappelijk schaamlapje in het stembusgangspektakel?
Of de trivialisering van wetenschap ter eer en glorie van haar mediatisering?

De stembusgang van 18 mei 2003 en 13 juni 2004 staan geboekstaafd als de meest gemediatiseerde en gepeilde verkiezingen ooit. Op uiteenlopende manieren poogden de media het politieke gebeuren van de federale en regionale verkiezing dichter bij de burger te brengen. Enerzijds was er een inflatie van infotainment, duiding en debatten in allerlei programmaformats, anderzijds poogde men de verkiezingen via peilingen en voorspellingen reeds in een zeer vroeg stadium te ensceneren. Over de rol van de audiovisuele media in de politieke berichtgeving vloeide al heel wat inkt. Critici hebben het over de verkleutering, opleuking, banalisering, anekdotisering en personalisering van het politieke debat, terwijl de bagatellisering en normalisering van het Vlaams Blok, zeker in 2003, een ander hot item was. Hoewel niet al deze kritieken hout snijden, de media alvast niet voor alle zonden van Israël en alles wat misloopt verantwoordelijk gesteld kunnen worden en er zeker niet van beschuldigd kunnen worden het democratisch gehalte van de samenleving te ondergraven, is en blijft een fundamenteel, genuanceerd en onderbouwd debat over de maatschappelijke rol en impact van de media op z’n plaats. Desondanks komt het vooral het mediasysteem zelf toe om zijn optreden en functioneren kritisch te evalueren en zijn maatschappelijke verantwoordelijkheid op te nemen.
Wat ons betreft verdient de andere tendens, namelijk de trivialisering van wetenschap ter eer en glorie van de media waarbij de (media)vorm hoe langer hoe meer de (wetenschappelijke) inhoud determineert, zeker evenveel aandacht. Opvallend tijdens de laatste twee verkiezingsslagen was de massale inzet van (pseudo)wetenschappelijke instrumenten - gaande van peilingen, voorspellingen, stemtesten, expertenpanels, kiezersmarkten, internetpanels tot grootschalige (radio)debatten - om de stembusgang dichter bij de mensen te brengen en om het politieke debat levendiger en aantrekkelijker te maken. Het lijkt erop dat deze drempelverlaging gedeeltelijk gelukt is. In combinatie met de opendebatcultuur en de talrijke verkiezingsprogramma’s op televisie droegen de peilingen, voorspellingen en, vooral, Doe de stemtest-shows bij tot een (nooit eerder gezien) alomtegenwoordig gepalaver over politici, politiek en programmapunten van politieke partijen. Dat politiek voorwerp van gesprek was en enorm leefde bij jan en alleman, was een terechte vaststelling. Samen met politics-as-business voor de media, in de vorm van hoge kijkcijfers en hoge krantenoplages, lijkt de populariserende missie vanuit deze optiek en op het eerste gezicht dan ook geslaagd. Voor de media misschien wel, maar niet noodzakelijk voor de wetenschap.
Dat (sociale) wetenschappers via hun medewerking aan het mediagebeuren een bijdrage pogen te leveren aan het populariseren van hun wetenschappelijke kennis over de politiek is uiteraard uitermate positief. Dat hierbij toegevingen dienen te gebeuren aan de wetmatigheden van het hedendaagse mediasysteem is evident. Op radio en televisie doceer je niet, terwijl kranten terecht geen taaie boekdelen vragen, maar vlot leesbare artikels. De vraag blijft evenwel hoe ver wetenschappers in hun populariseringsdrift kunnen gaan. Twee van de grondleggers van de surveymethodologie, Moser en Kalton (1958), stellen dat (wetenschappelijke) medewerking aan politiek (verkiezings)onderzoek uitsluitend gerechtigd is om aan te tonen dat de gebruikte methodologie ernstig en deugdelijk is. In hun toonaangevende boek Designing social inquiry geven King, Keohane en Verba (1994) aan dat onderzoek slechts als wetenschappelijk geduid kan worden, wanneer aan vier vereisten voldaan is: (1) centraal staan de gevolgde methodes en regels; (2) de doelstelling is veralgemening; (3) de gehanteerde procedures zijn publiek; (4) de conclusies zijn onzeker, hetgeen bij de presentatie ook wordt aangegeven. Hierbij moet de representativiteit van een steekproef bewezen worden aan de hand van vergelijkingen met relevante en gekende populatiegegevens, terwijl de adequaatheid van een meting niet alleen beweerd moet worden, maar expliciet aangetoond aan de hand van de klassieke testen van geldigheid en betrouwbaarheid. Dat alle aspecten van wetenschappelijke deugdelijkheid niet op tv of op radio kunnen gecommuniceerd worden, is begrijpelijk. Maar dit betekent nog niet dat de met deze studies verbonden universitaire onderzoeksgroepen zich kunnen onttrekken aan de toets van wetenschappelijke deugdelijkheid. Onze opvatting is dan ook dat alle noodzakelijke informatie om de wetenschappelijke kwaliteit van de studie te kunnen beoordelen door de betreffende onderzoeksgroep publiek gemaakt moet worden. Het moet openlijk beschikbaar zijn, hetzij op een webstek, hetzij door middel van een publicatie of onderzoeksrapport kort volgend op het media-event.
De vraag die we in dit artikel willen behandelen is of de gebruikte technieken wel de rudimentaire toets der wetenschap doorstaan. De inzet is immers de geloofwaardigheid van het sociologische en politicologisch wetenschappelijk systeem. De maatschappelijke zinvolheid en meerwaarde van sociologisch en politicologisch onderzoek in het politieke debat staat of valt immers met de mate dat het aan de ultieme bestaansreden van wetenschap kan voldoen. Meer concreet dat het aan de eisen van precisie en systematiek beantwoordt en het de regels van sociaal-wetenschappelijk onderzoek volgt zowel betreffende de adequaatheid en transparantie van de gebruikte instrumenten als betreffende de onderliggende assumpties die men (kan) maken over de sociale werkelijkheid. Alleen in dit laatste geval kan aanspraak worden gemaakt op wetenschappelijke expertise en slechts dan kan wetenschap nog een bijdrage bieden aan een kwaliteitsvol publiek debat. We verdedigen dan ook de stelling dat wanneer wetenschappers - door de beperkte middelen die ze ter beschikking krijgen - niet in staat zijn om aan de eisen van wetenschappelijkheid tegemoet te komen, ze de eer best aan zichzelf houden. Waarom willen de media trouwens zo graag een professor in hun midden of in de aanhef van een artikel? Toch juist omdat het de media en hun producten wetenschappelijke legitimatie biedt! Maar wat wanneer blijkt dat er methodologisch heel wat schort aan de vele ingezette instrumenten, die door wetenschappers en universiteiten gelegitimeerd werden? Brengen we zo de politiek dichter bij de burger? Indien sociale wetenschappers nog ernstig genomen willen worden in onze samenleving zullen zij dan ook op hun wetenschappelijke strepen moeten staan en de wetenschap niet trivialiseren ter eer en glorie van haar mediatisering.
Dat de grens tussen integriteit en trivialiteit smal is, blijkt uit het inflatoire gebruik van allerhande (pseudo)wetenschappelijke instrumenten tijdens de laatste verkiezingsperiodes. Hierbij kunnen we twee types peilingsmiddelen onderscheiden. Aan de ene kant zijn er de ingezette instrumenten die op dit moment de toets der wetenschappelijkheid niet kunnen doorstaan, of uitsluitend wanneer er ongeziene (en niet haalbare) financiële middelen tegenaan zouden gegooid worden. De vraag kan in alle ernst gesteld worden waarom wetenschappers of universiteiten hun naam verbinden met kiesmarkten, internetpanels of kiesvoorspellingen. Aan de andere kant zijn er technieken die, indien methodologisch adequaat ingezet, aan de wetenschappelijke toets hadden kunnen voldoen. Jammer genoeg lijken de recente Vlaamse varianten van peilingen en stemtesten de wetenschapsproef niet te doorstaan. We willen dan ook argumenteren waarom dit zo is en hoe dit zou kunnen verholpen worden.

1. Niet-wetenschappelijke infotainment of hoe ‘bad money drives out good money’

Het is een gekende wet in de economie dat mensen bad money - geld dat mensen niet vertrouwen - zoveel mogelijk gebruiken om courante betalingen te doen, terwijl men good money - geld waarvan men aanneemt dat het zijn waarde zal behouden - poogt bij te houden. Iets soortgelijks lijkt in de infotainmentwereld aan de gang: meer betrouwbare onderzoekstechnieken, die veel geld kosten, worden vervangen door goedkope pseudowetenschappelijke technieken. Of deze nu wetenschappelijk betrouwbaar zijn of niet, doet er blijkbaar niet veel toe. Het criterium is de kostprijs. Wat telt is een maximaal effect in het publieke verkiezingsdebat met een minimum aan kosten. Zo werd er gedurende de afgelopen verkiezingen, onder de categorie brood en spelen, lustig op los geëxperimenteerd met kiesmarkten, internetpanels en kiesvoorspellingen. Ten eerste organiseerde de toenmalige Financieel Economische Tijd een kiesmarkt. Deelnemers, die een beperkte som inzetten, kopen en verkopen aandelen van politieke partijen. Volgens de marktlogica zouden de koersen de verwachte verkiezingsresultaten weerspiegelen. Zich baserend op een aantal zogezegd wetenschappelijke publicaties veronderstelt de beurskrant dat de ‘markt altijd gelijk’ heeft en dat de kiezersmarkt tot betere voorspellingen leidt dan de traditionele peilingen. Ten tweede ontwikkelden Het Laatste Nieuws - De Nieuwe Gazet een vorm van internetpanel dat dagelijks gevraagd werd zijn stemintentie te geven. Vervolgens trok een professor uit de waargenomen verschuivingen allerhande (gewichtige) conclusies met betrekking tot de verkiezingscampagne en de politieke orde van de dag. Tot slot werd nog een ander nieuwigheidje, meer bepaald de kiesvoorspelling, geïntroduceerd tijdens de verkiezingsperiode van 2003. In de aankondiging verklaarde de betrokken academicus zijn methode zelfs superieur aan de peilingen. Hier vraagt men niet naar het stemgedrag van respondenten, maar laat men experts en burgers een prognose maken van de verkiezingsuitslag. De respondent wordt niet langer als kiezer, maar als ervaringsdeskundige beschouwd.
Het voornaamste voordeel van al deze nieuwe technieken is dat ze uitermate goedkoop, ja zelfs nagenoeg kosteloos, zijn. Elk van de methodes heeft echter ernstige, niet ondervangbare, tekorten. Bij de kiesmarkten en expert-voorspellers gaat het om een bijzondere groep met specifieke competenties en ervaringswerelden Maar starten we met het internetpanel en de burger-voorspellers. Beide technieken worden gekenmerkt door panelvertekening, meer bepaald zelfselectie. Respondenten kiezen er zelf voor om mee te spelen. Geen van de technieken baseert zich aldus op een toevalssteekproef van kiezers, waardoor geen enkele vorm van statistische analyse kan opgaan, laat staan dat men kan komen tot veralgemeende uitspraken voor de gehele populatie.1 Voorts is een omvangrijk deel van de onderzoekspopulatie niet opgenomen in het steekproefdesign, waardoor bepaalde groepen in de samenleving die op de stembusdag toch gaan kiezen niet kunnen worden bevraagd. In een samenleving waarin niet iedereen op de informatiesnelweg zit, treft de onderdekking van de gebruikte steekproeven dan ook vooral de bejaarde, vrouwelijke, laag opgeleide, werkloze of allochtone kiezer. Uitgesloten van het internet tellen deze sociale groepen gewoonweg niet mee in de zogenaamd wetenschappelijke constructie van de kiesverrichting. Aangezien de betreffende kenmerken verbonden zijn met (potentieel) stemgedrag is een vertekening van de (voorspelde) resultaten dan ook het gevolg. In het geval van stemplicht doen zelfselectie en onderdekking het paneldesign als instrument om de verkiezingskoorts te peilen dan ook de das om. In de wetenschappelijke literatuur is al aangevoerd dat dit allemaal geen probleem is indien we gewoon het verband tussen twee of meer variabelen willen bestuderen en niet de proportionele aandelen binnen een bepaalde populatie. Deze veronderstelling is evenwel slechts correct wanneer men kan bewijzen dat de relatie tussen twee of meer variabelen in elke laag van de bevolking hetzelfde is. Zeker bij politiek gedrag is dit niet het geval. Eveneens wordt wel eens aangevoerd dat er geen redenen zijn om aan te nemen dat de deelnemers van het panel anders zouden reageren dan de niet-deelnemers op een aantal campagnegebeurtenissen. Zulke stelling is wetenschappelijk gesproken echter de wereld gewoonweg op z’n kop zetten. De redenering dient omgekeerd. Wat aangetoond moet worden, is dat de non-respons toevallig is. Uit talrijk onderzoek naar non-respons weten we echter dat een aantal belangrijke sociale categorieën niet (kunnen) participeren en dat deze sociale categorieën duidelijk verschillen van diegenen die wel participeren aan onderzoek op het vlak van politieke kenmerken, attitudes en gedragingen. De conclusie is dan ook even eenvoudig als problematisch: de vertekening is niet toevallig en daardoor wetenschappelijk niet te negeren.
Verder hebben kiesmarkten en voorspellingen nog andere tekorten. Vooreerst is het nog maar de vraag wie en hoeveel mensen aan de kiesmarkt of voorspellingen mee doen. Zo bleek vooral het kiesmarktinstrument vrij gevoelig te zijn aan manipulatie. Daarnaast gaat de kiesvoorspelling uit van experten, aan wie men het vermogen toedicht electorale ontwikkelingen te kunnen voorzien. Hoewel sommige experten misschien meer inzicht hebben in de complexiteit van de dynamiek van politieke opiniestromingen, is het nog maar de vraag of zij zoveel beter als om het even wie, laat staan met een aan zekerheid grenzende waarschijnlijkheid, ‘het volk’ of ‘de massa’ zouden aanvoelen of doorgronden. Voorts is en blijft een voorspelling niet meer dan een gok, waar men beter geen wetenschappelijk aureool aan toedicht. In tegenstelling tot feitelijke gegevens laten voorspellingen zich dan ook niet optellen. En trouwens, wat is dan wel niet de betekenis van die ‘metagok’? Zo schieten we toch ook niets op met de gezamenlijk voorspelde uitslag van een paardenkoers. De som van alle gokken blijft een gok, meer zelfs, het resulteert slechts in een buitengewoon behoudsgezinde gok. De optelling leidt immers steeds weer tot een ‘regressie naar het midden’ ofwel de grootste gemene deler.
De resultaten van de voorspellingen van experten en burgers bevestigen de reserves. Zowel experten als burgers sloegen de plank stevig mis. Vooral de burgers, maar ook de experten, blonken uit door behoudsgezindheid, wat hen bij verkiezingen met ingrijpende stemverschuivingen uiteraard duur te staan komt. Men kan natuurlijk aandragen dat ze, desondanks, een aantal trends toch goed ‘voorspeld’ hebben. In de juiste richting ja, maar niet veel meer dan dat. Uit het experiment blijkt alvast dat het een illusie is te denken dat voorspellingen een alternatief kunnen vormen voor opiniepeilingen. De reden ligt hier niet zozeer in de tegenvallende trefzekerheid, wel in het feit dat de voorspellingen, maar evengoed de kiesmarkten, (zelf)referentieel tewerk gaan. De voorspellers/beleggers baseren zich immers op andermans voorspellingen en, boven alles, op de beschikbare resultaten van peilingen. De tendensen die zichtbaar zijn in de peilingstatistieken worden zo eenvoudigweg, enigszins naar eigen inzichten gecorrigeerd, doorgetrokken naar de toekomst. De toegevoegde waarde van een voorspelling is kortom minimaal, de recyclagewaarde maximaal.
En dat is nog niet alles. Zelfs al zou er sprake zijn van een bijzonder adequate voorspelling van de uitslag, dan nog heeft de publieke opinie of de politiek er niets aan, aangezien pas achteraf duidelijk wordt welke uitspraken profetisch bleken te zijn en welke niet. Kortom, je koopt er niets mee. Ontspannend vermaak, maar geen wetenschap. Daarom is het raadzaam verkiezingsvoorspellingen of kiesmarkten te laten voor wat ze zijn en waar ze thuishoren: in het schap der kans en spelen van de gokindustrie. Op basis van de criteria van wetenschappelijkheid moeten de ingezette onderzoekstechnieken van kiesmarkten, internetpanels of kiesvoorspellingen dan ook als gebuisd beschouwd worden.

2. De aantrekkingskracht van peilingen

Nooit zijn we met meer peilingen naar partijvoorkeur overdonderd dan de laatste jaren in België. Poll-resultaten domineren de frontpagina’s van kranten. La Libre Belgique peilt driemaandelijks; De Standaard en VRT hielden vier metingen in de aanloop van de verkiezingen; Le Soir organiseerde drie peilingen; en Knack, Humo en Het Laatste Nieuws droegen ook hun steentje bij. Meer dan ooit lijkt men, in de aanloop naar verkiezingen, geïnteresseerd in de partijpolitieke psyche van de burger. De belangrijkste oorzaken van deze peilingsdrang kunnen in verband gebracht worden met de ingrijpende veranderingen in zowel de socio-politieke werkelijkheid als het medialandschap.
Ten eerste heeft het individualiseringsproces ertoe geleid dat verkiezingsresultaten almaar minder voorspelbaar zijn. Voor een almaar omvangrijkere groep is de electorale voorkeur ontkoppeld van sociale scheidslijnen zoals sociale positie, religie of buurt. Steeds meer is het kiespubliek in beweging: de volgzame en loyale burger maakt plaats voor een zelfstandig kiezend individu, wat mooi tot uiting komt in de dalende partijtrouw en partij-identificatie. En juist die onzekerheid roept om het meten van de politieke temperatuur, liefst permanent. Een tweede verklaring van de aantrekkelijkheid van peilingen ligt in hun mediatiek gehalte. Dergelijke instrumenten brengen politiek, zowel qua vorm als inhoud, op maat van en onder de regie van de media zelf. Vooreerst stellen peilingen de media in staat om zelf een actualiteit in scène te plaatsen. De media bestellen als het ware hot news, wat op zijn beurt zelfreferentieel uitmondt in een inflatie aan aanvullende en commentariërende reacties. Peilingen zijn aldus het ideale instrument om, op gezette en uitgekiende momenten, politieke feiten te creëren die naadloos aansluiten bij de hedendaagse mediawetten. In een dergelijk format zijn wetenschappelijke nuances en deontologische reserves echter meestal ver te zoeken. De derde, waarschijnlijk voornaamste, reden van de populariteit van peilingen voor de media is hun ongelooflijke marketingwaarde. Eerder dan om hun informatiewaarde lijken peilingen en (peilingen bij) stemtesten vooral ingezet te worden als marketinginstrument in de concurrentiestrijd tussen zenders en kranten. Dat een dergelijke vorm van doorgedreven commodificatie van politiek lonend is voor de media, blijkt uit de enorme weerklank alsook de hoge kijkcijfers en oplages van zulk infotainment. Of zoals treffend geblokletterd in De Morgen: ‘Ook al voorspellen ze niks, peilingen zijn sexy’.
Of ze nu sexy zijn of niet, peilingen blijven bittere ernst. Peilingen hebben immers performatieve kracht. Ze construeren een sociale werkelijkheid, ze zetten iets in beweging en hebben zo een substantieel effect op de verkiezingssfeer en het politieke systeem zelf. De resultaten van de campagnepeilingen beïnvloeden immers de aannames en, bijgevolg ook, het gedrag van zowel kiezers en politici. In het geval van politieke partijen geven goede of slechte cijfers in de polls een indicatie om welbepaalde thema’s al dan niet te bespelen, om al dan niet de verkiezingsstrategie en campagne aan te passen, zelfs al dan niet als onafhankelijke partij op te komen. De effecten van de stemtestpeiling op bepaalde partijstandpunten was overduidelijk in 2004. Het gedrag van politici spreekt boekdelen, peilingen doen er wel toe. De politiek houdt er wel degelijk, meer dan hen waarschijnlijk lief is, rekening mee.

Wat zijn peilingen waard ?

Op zich is er niets mis met de toenemende transparantie van de politieke werkelijkheid. Dat de positie, marktwaarde, scorende thema’s en electorale kanonnen van politieke partijen publiekelijk gemaakt worden, dat partijen daardoor strategischer gaan handelen of dat mensen bewuster, ja zelfs uitermate strategisch, met hun stem omgaan, kunnen we alleen maar toejuichen. Als zodanig kunnen peilingen dan ook een meerwaarde aan de democratie bieden. Het surplus van (de popularisering van) opiniepeilingen aan het politieke debat is evenwel recht evenredig met hun wetenschappelijkheid en accuraatheid. En daar knelt meestal het schoentje. Veel peilingen lijken eerder thuis te horen in het rijtje van brood en spelen. Gezien de inzet van verkiezingen en de performatieve kracht van peilingen kunnen we evenwel niet voorbijgaan aan een dergelijke trivialisering van de wetenschap.
Aangezien men pretendeert uitspraken te doen over de feitelijke politieke werkelijkheid, staat of valt de geloofwaardigheid van een peiling met haar wetenschappelijkheid. Dit impliceert, ten eerste, dat men al het mogelijke doet om de mogelijke foutenbronnen, die zich bij enquêtes kunnen voordoen, tot een minimum te beperken en, ten tweede, een zo doorzichtig en accuraat mogelijke verwerking en presentatie van de gegevens nastreeft. Alvorens we hier op ingaan, presenteren en bespreken we kort enige peilingen gerealiseerd in de directe aanloop naar de Antwerpse gemeenteraadsverkiezingen in 2000 (tabel 1), de federale verkiezingen in 2003 (tabel 2) en de regionale verkiezingen van 2004 (tabel 3). In een bijdrage in De Tijd gaf Jaak Billiet reeds de relatieve waarde van deze peilingen aan. Zo maken statistische testen - zogenaamde chikwadraat-testen - duidelijk dat op één mogelijke uitzondering na geen van allen afkomstig zijn uit dezelfde populaties waaruit de verkiezingsuitslagen komen. Een veelgehanteerde maat om de accuraatheid van een peiling te meten is het gemiddelde van de verschillen tussen de daadwerkelijke kiesuitslag van een partij en de gemeten uitslag van die partij in de peiling. Deze maatstaf ‘gemiddelde fout per partij’ (GFP) geeft aan dat de peilingen bij de Antwerpse gemeenteraadsverkiezingen veel minder accuraat waren dan de resultaten van de peilingen van de federale verkiezingen 2003. De peilingen van de regionale verkiezingen 2004 waren op hun beurt dan weer duidelijk minder accuraat dan die van 2003.

Tabel 1: Resultaten politieke peilingen Antwerpse gemeenteraadsverkiezingen (in %)1 _ _

1/ In de analyse worden drie pre-electorale peilingen opgenomen evenals de resultaten van de voorspellende exit poll. (1) De telefonische peiling bij 750 Antwerpenaars op verzoek van Knack en VTM die door Market Analysis & Synthesis tussen 4 en 9 september werd uitgevoerd. (2) Een telefonische rondvraag bij 1000 Antwerpenaars door het onderzoeksbureau Field Research in opdracht van De Nieuwe Gazet uitgevoerd één week voor de verkiezingen. (3) Een telefonische enquête bij ongeveer 2000 respondenten door Dimarso in opdracht van de VRT en De Financieel Economische Tijd afgenomen één week voor de verkiezingen.

Tabel 2: Resultaten politieke peilingen en verkiezingsprognoses federale verkiezingen 2003 (in %)

Tabel 3: Resultaten politieke peilingen Vlaamse verkiezingen 2004 (in %)

Bij de Antwerpse gemeenteraadsverkiezingen was, naast het aanhoudende succes van het Vlaams Blok, het flagrante falen van het politiek marktonderzoek en de voorspellende exit poll één van de meest in het oog springende verschijnselen. Zoals uit de GFP-maat blijkt, werd de bal door alle peilingen serieus misgeslagen. Niet vreemd dat een vooraanstaande marktonderzoeker, Jan Callebaut, zelfs het failliet van het (politiek) marktonderzoek uitsprak. De meest schokkerende vaststelling was dat geen enkele peiling in staat was om de voornaamste trend van de verkiezingen, namelijk de verdere opgang van het Vlaams Blok, te vatten. Het Vlaams Blok bleef schromelijk onderschat, Agalev werd consequent en duchtig overschat, terwijl SP keer op keer ondergewaardeerd werd.
In tegenstelling tot de vrij hallucinante resultaten voor Antwerpen gaven de peilingen van de federale verkiezingen de voornaamste trends relatief goed weer: het forse verlies van Agalev, de sterke winst van sp.a-spirit, het flirten van N-VA met de kiesdrempel en de strijd om het marktleiderschap tussen VLD, CD&V en sp.a. Desondanks slaagden ze er niet in om hét politieke feit van de verkiezingen, namelijk het onder de kiesdrempel duiken van Agalev, te vatten. Eens te meer werd Agalev in alle peilingen overschat. Daarnaast bleken de drie traditionele partijen op één lap te liggen waardoor uitspraken over marktleiderschap, rekening houdende met de geldende betrouwbaarheidsintervallen, eigenlijk irrelevant waren.
Met dezelfde methodologie en onderzoekbureaus gaat het in 2004 weer ernstig verkeerd. Al kondigt De Morgen op basis van een mix van de resultaten van de verschillende peilingen het succes van de politieke peiling af, dan geven de peilingresultaten in tabel 3 toch een ander beeld: geen enkele peiling voorzag de werkelijke groei van het Vlaams Blok, de CD&V/N-VA evenals sp.a/spirit werden consequent overschat, terwijl Groen! onderschat werd.
Het minst wat je kan zeggen is dat peilingen een geschakeerd beeld van de politieke werkelijkheid bieden en, zeker wanneer je nog eens rekening houdt met de betrouwbaarheidsintervallen, heel wat interpretatievrijheid laten. Kortom, eenieder leest er het zijne in en iedereen heeft weer eens (gedeeltelijk) gelijk. Te meer dat dit vijgen na Pasen zijn. De week voor de verkiezingen is zowel bij de geïnteresseerde kiezer als bij partijen immers ambiguïteit troef. Wat is de wetenschappelijke waarde van die peilingen? Welke peiling moet men nu vertrouwen? Handel als kiezer maar eens adequaat op basis van zo’n uiteenlopende resultaten. Voor partijen biedt dergelijke ambiguïteit wel het voordeel van de nodige strategische speelruimte. Het flexibel inzetten van peilingen werd bijvoorbeeld naarstig toegepast door Agalev in 2003. Hoewel deze partij in de politieke debatten steeds de rampzalige resultaten van de VRT-Standaard-peiling nuanceerde door te verwijzen naar andere, minder faliekante, peilingen, sprak haar ultieme reddingscampagne ‘groen is van doen’ voor zich.
De vraag naar de maatschappelijke verantwoordelijkheid van opiniepeilers en betrokken wetenschapper mag gerust gesteld worden. Een democratie is niet gebaat bij een inflatie van simulatiewerkelijkheden, waarin een (goedkope) peiling al te veel als een marketinginstrument in de strijd tussen de zenders of kranten wordt ingezet eerder dan als een fragiele seismograaf die de registratie van ware krachtsverhoudingen tussen partijen op maximale wijze tracht na te streven. Zonder enige notie van werkelijkheidswaarde en zonder enige verwijzing naar wetenschappelijke juistheid als onomstotelijk referentiepunt, dat door eenieder als uitgangspunt aanvaard wordt, is een democratisch debat immers bij voorbaat uitgesloten. Tenzij men wil en kan leven in een postmoderne werkelijkheid waarin elk gegoochel met cijfers aanvaardbaar is, waarin alles steeds tegelijkertijd waar en onwaar is en waarin elke werkelijkheid maar een illusie of machtsconstruct blijkt te zijn. Ondanks alle mooie praatjes is leven, laat staan democratie, in een dergelijke cynische wereld zonder enig algemeen aanvaarde (wetenschappelijke) ijkpunten gewoonweg onmogelijk. Om die reden is permanente kwaliteitsbewaking van die wetenschappelijke handvaten dan ook onontbeerlijk en een taak van de universiteiten en hun medewerkers.

De vertekende realiteit van peilingen

Hoe kunnen we dit vertekend beeld van de electorale werkelijkheid verklaren? De doelstelling van een peiling is om op basis van een beperkt aantal respondenten representatieve uitspraken te doen over de kiesintentie van de gehele stemgerechtigde populatie. Het achterliggende idee is vrij eenvoudig. Op basis van een bevraging van een doordachte, meestal gestratificeerde, en zorgvuldig gerealiseerde toevalssteekproef van respondenten kan men, de betrouwbaarheidsmarges in beschouwing genomen, adequate uitspraken doen over de gehele populatie. Dat is de theorie, de praktijk is minder vanzelfsprekend. De onderliggende assumpties voor veralgemeenbaarheid betreffen immers de trekking van een toevalssteekproef alsook een onvertekende realisatie ervan. Tussen de gewenste toevalssteekproef, het steekproefdesign en gerealiseerde steekproef ligt evenwel een wereld van valstrikken, waarbij selectieve uitval de voornaamste bedreiging vormt voor de kwaliteit van de data. De drie voornaamste bronnen van selectieve uitval, en bijgevolg vertekening, zijn onderdekking, zelfselectie en non-respons.
Onderdekking ontstaat wanneer een deel van de onderzoekspopulatie niet is opgenomen in het steekproefdesign en dus niet kan worden bevraagd. Aangezien ‘face-to-face’-interviews bij de mensen thuis doorgaans te duur zijn, wordt in de huidige peilingen meestal een toevlucht genomen tot de telefonische enquêtes, hetgeen gekenmerkt wordt door een grotere onderdekking. Bij de huidige toepassing van de telefonische enquête worden immers uitsluitend de vaste telefoontoestellen gebeld, wegens de haast onmogelijkheid om personen met een gsm tot medewerking te bewegen. Uit de stemplichtige doelpopulatie vallen bijgevolg diegenen weg die geen vaste telefoonaansluiting hebben of die een gsm hebben. Studies wijzen uit dat deze uitval omvangrijk en selectief is. Sonja Rispens en Henk van Goor stellen vast dat vooral personen met lage, marginale en geïsoleerde sociale posities vaker slachtoffer zijn van onderdekking in telefonische enquêtes, evenals personen in maatschappelijke hogere posities als gevolg van geheime nummers (indien er geen toevallige selectie van de samenstelling van een telefoonnummer wordt gemaakt, random digit dialing). Maar er is meer. Om de kosten te drukken hebben nogal wat marktonderzoekbureaus lijsten van telefoonnummers van mensen die al ooit eens zijn bevraagd en aangegeven hebben dat ze nog wel eens willen meewerken. M.a.w. deze respondenten hebben zichzelf kandidaat gesteld om mee te werken. Het is niet toevallig wie dat wil doen. Zij vormen dan ook geen representatieve doorsnede van de kiesgerechtigde bevolking.
Een ander steeds weerkerend fenomeen, wat onderzoekers de nodige hoofdbrekens oplevert, is de foutenbron van non-respons. Ten eerste gaat het om het hete hangijzer van unit non-respons als voornaamste bron van vertekening. Bepaalde mensen wensen immers niet deel te nemen aan de enquête. Hoewel de meeste (opdrachtgevende) tijdschriften, kranten of televisiezenders nog steeds met geen woord reppen over het aandeel non-respons schommelt dit tussen zowat de 70% en de 84% bij telefonische enquêtes. Anders gezegd, van 6.686 gecontacteerde Vlamingen voor de VRT-De Standaard-UA-enquête van 3 juni 2004 weigerden of kwamen 5.648 Vlamingen niet in aanmerking. Uiteindelijk participeerden er 1.038 Vlaamse kiezers, waarvan er volgens de krant nog eens 15% weigerden een antwoord te geven op de vraag omtrent hun toekomstig stemgedrag - de zogenaamde item non-respons. De politieke temperatuur van Vlaanderen werd dus berekend op 886 bereidwillige respondenten.
Problematisch is niet zozeer het beperkt aantal respondenten, wel dat bereidheid tot medewerking aan de peiling niet op toeval berust. Dikwijls heeft men het over middle class bias: welbepaalde bevolkingsgroepen zoals de middenklasse blijken in de gerealiseerde steekproef oververtegenwoordigd, terwijl anderen zoals personen uit de lagere sociale strata juist ondervertegenwoordigd zijn. Daarnaast blijkt dat vooral respondenten met politiek gezien niet zo onbelangrijke kenmerken zoals politieke desinteresse en politiek wantrouwen weigeren mee te werken aan peilingen. Statistische kunstgrepen kunnen aan de niet-representativiteit van de staal niet voldoende verhelpen, wat ook mag beweerd worden door de marktonderzoeksbureaus. Hierbij dient aangestipt te worden dat ook de zin en geldigheid van veelvuldig gepresenteerde ‘foutenmarges’ of ‘betrouwbaarheidsintervallen’ vervalt wanneer niet aan de assumptie van toevallige non-respons voldaan is. In dergelijke situatie geeft de weergave van statistische ondergrenzen en bovengrenzen slechts een schijnbaar aureool van wetenschappelijkheid en precisie.
Een bijkomend probleem stelt zich met de openbaarheid van de procedures. Bij publicatie in kranten op radio en tv is de informatie om de kwaliteit van het onderzoek te beoordelen quasi nihil. Op de webstek van Febelmar verschijnt de noodzakelijke info slechts weken zoniet maanden na publicatie. Voor het onderzoek dat gebeurde naar aanleiding van de stemtest in 2004 weigerde de VRT en TNS-Dimarso om de noodzakelijke technische gegevens vrij te geven, met als argument dat het geen politieke enquête betrof en dat dit dus niet zou moeten. Vanwege de participerende universiteiten werd ook niets vernomen.

Peilingen: momentopname of voorspelling?

Item non-respons kan veroorzaakt zijn door een eenvoudige weigering of door het feit dat de respondent het echt nog niet weet. Naar aanleiding van de verkiezingen van 2004 werd uit onderzoek van het Instituut voor Sociaal en Politiek Opinieonderzoek (ISPO-K.U.Leuven) duidelijk dat drie maanden voor de verkiezingen nog een goede 50% van de kiezers meedeelt niet zeker te zijn van zijn stem op 13 juni 2004 (Swyngedouw, Billiet, Goeminne, 2004). Ook hier zijn interessante verschillen tussen de uiteenlopende (presentatiewijzen van) peilingen waar te nemen. In 2003 bleken slechts twee peilingen het aandeel van de twijfelende en weigerende kiezers aan te geven, terwijl voor de VRT/Standaard/UA de twijfelende kiezer toen zelfs niet leek te bestaan. Bij de laatste peiling voor de verkiezingen van 2004 ontdekt de VRT/Standaard/UA ze dan uiteindelijk wel. Een week voor de verkiezingen bleek nog een kwart (25,1%) van het electoraat niet te weten voor wie het zou gaan stemmen. De al dan niet weergave van de weigeraars en onbesliste kiezers in de presentatie van de peilingresultaten geeft daarnaast ook onrechtstreeks een antwoord op het debat over de status van zo’n peilingen.
De centrale vraag in dit debat is of peilingen opgevat dienen te worden als een voorspelling of een momentopname. Hoewel alle bureaus en (kranten)redacties steeds weer beklemtonen dat hun peiling slechts de politieke stemming tracht te meten op een gegeven moment, presenteerde slechts één tijdschrift zijn resultaten consequent op dergelijke wijze. Alleen Knack beschouwde in 2003 immers de onbesliste kiezers en weigeraars als substantiële categorieën in de presentatie van de kiesintentieresultaten op het moment van de bevraging. Alle andere peilingen presenteerden slechts het deel van besliste kiezers en kiezers met een lichte voorkeur als het electoraat. Dergelijke meting/weergave is misleidend. Een adequate momentmeting van de politieke stemming zou immers vaststellen dat er voor een enorm omvangrijke groep gewoonweg nog geen partijpolitieke stemming is! Uit deze nogal gekunstelde presentatie spreekt een voorspellingsdrang, wat eveneens bevestigd wordt door de gehanteerde benaming van ‘politieke barometer’ in De Standaard. Het minste wat men kan zeggen is dat een illusie van voorspelling wordt gecreëerd. Om deze voorspelling waar te maken, presenteert men niet de gemeten electorale werkelijkheid, maar slechts de deelwerkelijkheid van overtuigde kiezers.
Daarnaast kunnen ook kritische vragen gesteld worden bij de toegevoegde waarde van dergelijke werkwijze. Degelijke ‘barometers’ geven immers mooi weer hoe de overtuigde kiezers neigen te stemmen, maar laten de meest prangende kwestie en onzekere factor van de twijfelaars onbeantwoord. Desondanks is het juist die groep van twijfelaars die hun (verrassende) stempel kunnen drukken op de kiesuitslag alsook de inzet vormen van partijstrategieën en politieke communicatie in de laatste weken voor de verkiezingen. Dit proces van ontwikkeling van een partijvoorkeur bij de twijfelaars alsook de ontwikkelingen in de stemverschuivingen in de periode voorafgaand aan de parlementaire verkiezingen zullen als gevolg van het onaangepaste steekproefdesign ook nooit volledig duidelijk worden. Om adequate uitspraken over zulke longitudinale kwesties te doen, is immers uitsluitend een representatief paneldesign geschikt. Slechts door steeds weer opnieuw dezelfde representatieve toevalssteekproef op verschillende momenten te bevragen, krijg je immers zicht op de reële wijzigingen in kiesintentie en evolutie van de twijfelaars. Bij van elkaar onafhankelijke steekproeven op verschillende opeenvolgende momenten blijft de interpretatie van de wijzigende kiesintentieresultaten uitermate hachelijk, aangezien deze verschuivingen zowel op reële veranderingen kunnen wijzen alsook louter het gevolg kunnen zijn van de opeenvolgende verschillende steekproeffouten.
Samengevat kunnen we met andere woorden noch qua methode, noch qua inferentie, noch qua openbaarheid van procedures de peilingen bezwaarlijk beschouwen als wetenschappelijk. Dat de media ze gebruiken in hun concurrentiestrijd om de kijker, lezer of luisteraar is hun zaak. Dat sociale en politieke wetenschappers er hun naam aan verbinden, is een andere zaak. De vraag stelt zich dan ook waarom wetenschappers en universiteiten er hun naam aan willen blijven verbinden?

3. Stemtesten als leidraad voor de eigen voorkeur?

Meer heisa was er rond de talloze stemtesten. Hoewel er reeds in 1999 digitale stemadviezen waren, kenden deze partijprogramma-voorkeur-testen, bij de laatste verkiezingen, een boom als gevolg van de rechtstreekse Doe de stemtest-televisieshow. In dit in 2003 éénmalige verkiezingsprogramma heeft men getracht, op basis van een wetenschappelijk onderbouwde test, de kijkers de kans te geven om na te gaan bij welke politieke partij hun overtuigingen het nauwst aansluiten. In Doe de stemtest 2003 gebeurde dit aan de hand van 36 concrete programmapunten over allerlei onderwerpen, waarbij de antwoorden omgezet werden in scores op basis waarvan het algemene partijprofiel berekend werd, uitgedrukt in de vorm van een rangordeaffiniteit. Zomaar eventjes 350.000 mensen deden de test tijdens deze gelegenheidsuitzending, terwijl ook de gelijknamige site ongelooflijk veel hits wist te halen. Naast de vele andere ludieke stemprogramma’s was Stemadvies van De Standaard Online de tweede, door deels dezelfde wetenschappers ontworpen, populaire test. Stemadvies verschilt op een aantal punten van Doe de stemtest: het bestond in 2003 uit meer vragen (45); de vragen zijn geen programmapunten, maar door de opstellers zelf opgesteld op basis van hun algemene kennis van het politieke landschap; de ontwikkelde stellingen zijn daardoor algemener en minder direct uitgedrukt; de vragen werden niet ter goedkeuring aan de partijvoorzitters voorgelegd; en de surfers konden meer nuance in de antwoorden leggen. Stemadvies werd door de opstellers dan ook als meer intellectualistisch omschreven, terwijl Doe de stemtest voor een zo breed mogelijk publiek toegankelijk moest zijn. In 2004 werd de Doe de stemtest uitgebreid tot 99 vragen, geclusterd rond drie thema’s van telkens 33 vragen arbitrair gelabeld als: levenskwaliteit, geld en normen en waarden. Het kijkcijfersucces was nog omvangrijker dan in 2003 en meer dan een miljoen mensen zouden aan de Doe de stemtest zijn begonnen.
Als zodanig is er niets mis met het achterliggende idee van dergelijke testen. Op een leuke manier de kijker inzicht in de programma’s of ideologische standpunten van partijen bieden, het kan alleen het publieke debat omtrent politiek vooruit helpen. Te meer dat zo’n inhoudelijke testen de zwevende en twijfelende kiezers enige richting en houvast kunnen geven. Het blijft evenwel een vraagteken of de ontwikkelde testen ook daadwerkelijk de pretentie om de burger z’n partijvoorkeur te bepalen op basis van puur inhoudelijke keuzes en partijstandpunten waarmaken. Enerzijds is de achterliggende logica van zulke testen niet onproblematisch, anderzijds schuilen er problemen in de concrete operationalisering waarbij de opstellers de complexiteit van het partijlandschap tot een beperkt aantal stellingen moeten herleiden en, vervolgens, het antwoordpatroon omzetten in een partijprofiel.
Het uitgangspunt van de stemtest is een rationeel-inhoudelijke logica. Het gaat, ten eerste, uit van het feit dat kiezers, als ze daar naar worden gevraagd, over van alles en nog wat een mening hebben. Deze aanname is evenwel betwistbaar. Zo lijkt het weinig waarschijnlijk dat kiezers over alles daadwerkelijk een mening hebben en is het nog maar de vraag of al hun opvattingen (even) belangrijk zijn om hun stemvoorkeur op inhoudelijke gronden te kunnen bepalen. Ten tweede verwijst partijvoorkeur naar veel meer dan de inhoud, ook de evaluatie van de vorm, uitstraling en overtuigingskracht van partijen is van belang bij stemkeuze. Dat de feitelijke uitgebrachte stem bij de stembusgang zoveel complexer is en door zoveel andere dan inhoudelijke factoren bepaald wordt dan de inhoudelijk-rationele logica van de stemtest doet uitschijnen, verklaart waarschijnlijk dat de begeleidende professoren halsstarrig weigerden te spreken van een ‘stemadvies’.
Het instrument heeft de pretentie om, wanneer de burger naar eer en geweten antwoordt op de stellingen, de partij waar men inhoudelijk het dichtst bij staat aan te geven. Het is niet de bedoeling aan te geven welke stem iemand logischerwijs zou (moeten) uitbrengen. Of ze die minder ambitieuze pretentie dan wel waarmaken, moet het voorwerp van een ernstige wetenschappelijke toets zijn, waar de waarde van dit prille informatieve instrument kritisch bekeken wordt. ‘De stemtest is geen wetenschappelijk instrument’ schrijven de ontwikkelaars in De Tijd op 15 mei 2003. Maar waarom zijn er dan professoren nodig in de programma’s? De nieuwsredacteurs zijn toch mans en vrouws genoeg om zelf een niet-wetenschappelijk nieuwsprogramma te presenteren? Neen, op z’n minst wil men bij het grote publiek de indruk wekken van wetenschappelijkheid en wenst de openbare omroep - overigens terecht - een wetenschappelijke toets. Het gaat hier immers niet om een vrijblijvende show, de gevolgen zouden wel eens groot kunnen zijn.
Of dergelijke stemtesten hun expertfunctie op een wetenschappelijke wijze vervullen, kan nagegaan worden door ze aan een aantal validiteittesten te onderwerpen. Zonder deze toets hier zelf uit te voeren, geven we alvast enige krijtlijnen aan voor zo een test alsook een verkennende schets van de toetsingscriteria voor de evaluatie van dergelijke stemprogramma’s. In essentie bestaat het testinstrument uit drie fases, die elk gekenmerkt worden door specifieke methodologische problemen. In een eerste stap selecteert men, gebruik makend van een grondige inventarisatie van de partijprogramma’s, een zo ruim mogelijk aantal karakteristieke issues waarop welbepaalde partijen programmatisch van elkaar verschillen. Hier staat de inhoudsvaliditeit van het instrument op het spel. In de tweede stap mondt de selectie van issues uit in de constructie van een ondubbelzinnige en uitgebalanceerde vragenlijst. Naast alle gekende heikele kwesties van eenduidige vraagverwoording die gepaard gaan met de constructie van elke vragenlijst, gaat het hier vooral om de overlap tussen de stellingen ofwel de overbodigheid ervan. De omzetting van issues in een evenwichtige reeks van geprononceerde stellingen hangt dan weer samen met het discriminerend vermogen van de stemtest. In de derde fase dienen de verzamelde antwoordpatronen, tot slot, omgezet te worden in een weergave van hun partijprofielen. Hier zijn de methodologische kwesties van begripsvaliditeit, weging van de stellingen en de ijking van het instrument aan de orde. Op elk van deze problemen gaan we kort in.
In de eerste stap waar de politieke onderwerpen geselecteerd worden, is het belangrijk dat alle relevante politieke twistpunten in de test opgenomen zijn. Dit betreft de inhoudsvaliditeit of de volledigheid van de stemtest. Problematisch is de situatie waarin welbepaalde keuzebepalende thema’s oververtegenwoordigd zijn, andere ondervertegenwoordigd of, nog erger, als bepaalde belangrijke verkiezingsthema’s gewoonweg geheel ontbreken. Onontbeerlijk is alvast dat alle relevante sociaal-politieke breuklijnen in de vragenlijst vertegenwoordigd zijn. Uit Nederlands onderzoek blijkt echter dat de stemprogramma’s zich veelal laten leiden door een een- of tweedimensionale schaal, terwijl de sociale werkelijkheid toch wel wat complexer is. Daarnaast is het verleidelijk om vooral pakkende, makkelijke en anekdotische issues te bevragen ten nadele van meer complexe, doch uitermate belangrijke, issues die te ingewikkeld zijn voor de format van de test. Zo gaven de opstellers in 2003 alvast toe dat zes stellingen m.b.t. de sociaaleconomische thema’s misschien toch wat weinig was. Zeker al je weet dat de verkiezingen vooral over harde thema’s zoals sociale zekerheid, gezondheidszorg en tewerkstelling gingen. Of dat de partijvoorzitters nu al dan niet hun fiat geven voor zulk een vragenlijst is wetenschappelijk hoogst irrelevant. Politiek des te meer. Maar het knip- en plakwerk van partijvoorzit(s)ters zou juist de inhoudsvaliditeit in het gedrang kunnen brengen. Eveneens bleek uit de gepikeerde reacties van sommige partijen alvast dat deze keuze van stellingen een netelige bedoening is.
Naast de selectie van goede issues is natuurlijk ook de vraagverwoording niet onbelangrijk voor het discriminerend vermogen van de stemtest. Dit betreft de tweede fase: de constructie van een ondubbelzinnige en evenwichtige vragenlijst. Zo is het nog maar de vraag of de stellingen uit de stemtests wel een erg nauwkeurige weergave zijn van de partijstandpunten en of partijprogramma’s zich al laten samenvatten tot eenvoudige stellingen waar men voor of tegen is. Ten eerste gaat het hier om de vraagverwoording. Zo blijft de stemtestvragenlijst methodologisch uitermate krakkemikkig. Veel stellingen zijn uitermate vaag, dubbelzinnig, tweeledig, wollig of ongenuanceerd en bij momenten zelfs ronduit suggestief en anekdotisch.2 Naar de feitelijke betekenis van de vraag en de inhoudelijke intentie van de onderzoekers heeft de respondent menigmaal het raden. Duidelijkheid en eenduidigheid - toch basisvoorwaarden om stellingen nog maar te kunnen beantwoorden - zijn soms ver te zoeken. Andere stellingen zijn dan weer uitermate scherp gesteld, waarbij simplisme het lijkt te halen op nuance. Alles samengenomen is de kwaliteit van de vraagstelling van de stellingen, wetenschappelijk gezien, zeer sterk te bediscussiëren. Ten tweede bleek de vragenlijst redelijk ‘ongebalanceerd’ te zijn. Volgzaamheid resulteerde (we vullen de vragenlijst gewoon in met steeds het eens zijn, gedenkt de 5 à 10% ja-zeggers uit Jaak Billiets onderzoek) in een relatieve bevoordeling van de paars-groene partijen ten nadele van de oppositie. Een derde probleem betreft de kwestie van een evenwichtige vragenlijst, waarbij vooral het gebrek aan discriminerend vermogen en de overlap tussen stellingen centraal staan. Zo zijn stellingen waarover consensus onder alle partijen bestaat niet op hun plaats. Er moet worden vermeden dat veel stellingen steeds op eenzelfde manier dezelfde partij(en) tegenover de andere partij(en) discrimineren, waardoor partijen uit hetzelfde kamp als het ware samenklonteren. Elke partij heeft daarom tenminste één en liefst meerdere stellingen nodig waarin ze een uniek standpunt tegenover alle andere partijen inneemt. Wat alleszins voorkomen moet worden is het profiel van welbepaalde partijen bovenal bepaald wordt door profielloosheid, waardoor ze niet meer lijken te zijn dan een restcategorie. Tot slot mag het profiel van een partij niet overgedetermineerd worden door één of twee thema’s. Wetenschappelijkheid vereist dat dit discriminerend vermogen aangetoond wordt. In 2004 zou het dit moeten doen voor elk van de drie onderdelen én voor het geheel van de test.
In de derde fase moeten de verzamelde antwoordpatronen, tot slot, worden omgezet in een weergave van hun partijprofielen. Hier zijn de methodologische kwesties van begripsvaliditeit, weging van de stellingen en de ijking van het instrument aan de orde. Op elk van deze problemen gaan we kort in. Met begripsvaliditeit bedoelen we of de toedeling van de posities aan de partijen werkelijk overeenkomt met de positie waar de partijen staan. Over een en ander kan wel gediscussieerd worden en het is niet steeds zo eenvoudig, zoals blijkt uit discussies in Nederland naar aanleiding van soortgelijke partijprogrammatesten. De makers moeten hier duidelijk hun kaarten op tafel leggen, zodat een tegensprekelijk debat mogelijk wordt. In de loop van de Doe de stemtest verschenen een aantal opiniestukken die de operationalisering of omzetting van de antwoorden naar het stemprofiel zogenaamd kraakten. Vermoedelijk betreft het hier geen unieke oplossingen, maar wat het wel aangeeft is dat er een gebrek aan transparantie is over hoe één en ander juist te werk gaat en wat z’n geldigheid is. De vraag die mathematisch gesteld moet worden is of de scores op de manifeste items inderdaad een geldige en betrouwbare meting vormen van het onderliggend latent concept. Anders gezegd, het gaat over de ijking van het instrument. In 2004 wordt dit een meetmodel met drie eerste-ordefactoren (levenskwaliteit, geld en normen en waarden) en vervolgens een tweede-ordefactor - de gezamenlijke partijprofielscore. Dit bewijs is te leveren door bij een naar partijvoorkeur representatieve staal van kiezers de test af te nemen en vervolgens de meetmodellen te testen.3 De hele discussie van 2003 met betrekking tot Spirit en Agalev had op deze manier vermeden kunnen worden. Terecht of onterecht - het blijft nu in het midden - moest men in 2003 echt wel heel donkergroene standpunten op de stemtest innemen alvorens men Agalev als stemadvies kreeg, lichtgroene standpunten brachten de postmateriële kiezers bij Spirit terecht.
In deze meetmodellen komt natuurlijk de vraag naar voor van de weging van de items. Wat zeker is, is dat de weging zoals ze in 2003 gebeurde irrelevant is. Er moet niet gewogen worden met het gewicht dat de partijen aan een onderwerp geven. Als er al gewogen wordt moet dit gebeuren met het gewicht dat de kiezer zelf aan een onderwerp geeft. Zo is het weinig waarschijnlijk dat veel kiezers een kwestie zoals ‘de provincies moeten worden afgeschaft’ - zoals opgenomen in de Doe de stemtest van 2004 in het luik ‘levenskwaliteit’ - zwaar laten wegen in hun partijbeoordeling. We zijn ons ten zeerste bewust dat weging een heikel punt is en zal blijven, maar ook hier dient duidelijkheid geschept te worden en dienen de keuzes wetenschappelijk gemotiveerd. Een mogelijke oplossing ligt erin dat de gebruiker zelf z’n gewichten bepaalt bij de vragen om op die manier de mate van (on)belangrijkheid van de kwestie aan te geven. In tegenstelling tot Doe de stemtest werd deze methode al op goed doordachte wijze toegepast in het Stemadvies van 2004. Wat ons inziens zeker niet kan is dat in de loop van de campagne de gewichten (zgn. puntwaarden) nog worden aangepast. Ofwel hebben we te doen met een instrument dat het partijprogramma meet en dat volledig losstaat van de campagne. Ofwel begeven we ons op glad ijs en komen we in een totaal andere problematiek terecht, met name die van een stemadvies gekaderd in een verkiezingscampagne.
De verst doorgedreven test van geldigheid en betrouwbaarheid bestaat er natuurlijk in om twee soortgelijke instrumenten te ontwikkelen en de resultaten van de testen met elkaar te vergelijken. We namen de proef op de som. Aangezien gedeeltelijk dezelfde wetenschappers de Stemtest en Stemadvies ontwikkelden, vroegen we een niet-representatieve staal van kennissen beide testen te doen. Het resultaat was vrijwel eenduidig. In de meeste gevallen werd hen een (totaal) andere partijvoorkeur voorgehouden. Het eindoordeel kan op dit moment niet anders zijn dat de verschillende stemtesten of stemadviezen op vele vlakken tekort schieten en momenteel niet de toets van de wetenschappelijkheid kunnen doorstaan. Dit is ons inziens jammer. We denken dat het een taak is van sociale wetenschappers om op gepopulariseerde wijze een bijdrage te leveren aan de goede werking van de democratie. Instrumenten als Doe de stemtest of Stemadvies hebben als zodanig zeker de potentie om daartoe bij te dragen. Maar daarvoor is het nodig stringentere methodologische regels toe te passen, die bovenal openbaar zijn. We beseffen dat hiertoe de nodige financiële middelen en tijd aan onderzoekers zullen moeten gegeven worden. Gegeven de kostprijs van televisieprogramma’s en de taak van de openbare omroep kan dit moeilijk onoverkoombaar zijn.

4. Besluit: media, wetenschap en democratie

Een van de tekens des tijds is de vermarkting van de politiek in het medialandschap. Politiek wordt business. Een van de oorzaken is de toenemende onzekerheid binnen het electorale systeem ten gevolge van de afnemende partij-identificatie en hogere volatiliteit onder de kiezers. De media spelen op hun beurt in op deze toestand van onzekerheid en onvoorspelbaarheid. Ze hebben immers maar al te goed begrepen dat zij onder deze omstandigheden mee politieke actualiteiten en feiten kunnen creëren. Het gevolg is een inflatie van peilingen en testen van allerlei slag en pluimage. Daarnaast zijn zulke peilingen ook aantrekkelijk in de concurrentie tussen kranten of omroepen, hetgeen de ontwikkeling van zulke instrumenten in de slag om de lezer, kijker of luisteraar alleen maar stimuleert. Binnen het wetenschappelijk bedrijf staat niet de marktwaarde centraal, maar is de vraag naar de adequaatheid, geldigheid en betrouwbaarheid van zulke peilingen en testen aan de orde. De laconieke reactie op vragen naar de kwaliteit van de veel ingezette instrumenten zijn ons inziens dan ook misplaatst. Peilingen, stemtesten en andere methodes hebben immers een potentiële invloed op het politieke (mis)fortuin van politieke partijen. Het zijn geenszins onschuldige tijdsverdrijvers of speeltjes zonder maatschappelijke gevolgen.
Opvallend is dat de meeste media deze ingezette instrumenten met een aureool van wetenschappelijkheid willen omkleden. Wetenschappers worden gevraagd tot participatie. Een beperkt aantal instrumenten zijn echter vanuit wetenschappelijk oogpunt onmogelijk te verdedigen. In eerste instantie denken we hierbij aan websurveys, expertenpanels of kiesvoorspellingen. Andere instrumenten zoals de traditionele peilingen of de programmaprofieltesten zouden de toets van de wetenschappelijkheid echter moeten kunnen doorstaan - althans in theorie. Nochtans zijn er veel methodologische kritieken te formuleren en mangelt het zeker aan de openbaarheid van de procedures. In het algemeen willen we de stelling verdedigen dat sociale wetenschappers geen baat hebben bij het ondersteunen van mediagebeurtenissen die de toets der wetenschappelijkheid niet kunnen doorstaan. De verleukte wetenschap moet er zich voor hoeden niet het schaamlapje te zijn van politieke spelletjesprogramma’s louter ter volksvermaak. Het gaat toch niet op dat de media - juist door de aanwezigheid van professoren of een universiteit - claimen dat de ingezette instrumenten wetenschappelijk en objectief zijn, maar dat de betrokken wetenschappers kost noch moeite sparen om te onderstrepen dat het niet om een wetenschappelijke test gaat.
Democratie is en blijft een bloedernstige zaak. Onderzoekers zullen met hun wetenschappelijke knowhow pogingen moeten blijven ondernemen om de bevolking te betrekken bij de res publica. Populariserende media-activiteiten zijn daarvoor zeker een probaat middel. Maar willen we ernstig genomen (blijven) worden, dan zal de populariseringsmissie zich binnen de krijtlijnen en vereisten van de wetenschappelijkheid moeten voltrekken. Media en wetenschap dienen zich bewust te zijn van hun maatschappelijke verantwoordelijkheid en hun eigen finaliteit. Voor de media is het de uitdaging vorm en inhoud, informatie en entertainment in evenwicht te krijgen/houden. Voor de wetenschap is de inzet een aanvaardbare wetenschappelijke presentatie van haar bijdrage aan de (onzekere) zoektocht naar sociale en politieke inzichten ten dienste van het open en vrije democratische debat.

Koen Abts, Marc Swyngedouw en Jaak Billiet
Instituut voor Sociaal en Politiek Opinieonderzoek (ISPO) - K.U.Leuven

Noten
1/ In principe hoeft een webpanel niet vertekend te zijn: wanneer we te doen zouden hebben met een (deel)populatie die in haar geheel effectief toegang heeft tot het internet, computergeletterd is en van wie we het internetadres hebben. Universiteitsstudenten zijn zo’n deelpopulatie. Een tweede mogelijkheid bestaat erin om een representatieve steekproef uit de stemgerechtigde Vlaamse kiezers te nemen en bij allen een computer met internetaansluiting te plaatsen. Tevens dient elkeen opgeleid in het gebruik ervan. De kosten hiermee gemoeid zijn zo hoog dat deze methodologie zeker niet kan aangewend worden voor een éénmalig of een beperkt aantal onderzoeken. De Nederlandse ervaring maakt duidelijk dat dit zelfs problematisch is voor permanent commercieel onderzoek (cf. UvA - W. Saris), daarenboven stelt dit dan weer andere methodologische problemen die buiten het kader van dit artikel vallen.
2/ Slechts enkele voorbeelden. Stemtest 2003: ‘Zware misdadigers moeten onder bepaalde omstandigheden vervroegd kunnen vrijkomen.’ Kritiek: Iedereen kan dus zijn eigen stelling beantwoorden, want onder bepaalde omstandigheden zal verschillend ingevuld worden. Stemtest 2004: ‘Wat kies je: een bloeiend verenigingsleven of goed en veel openbaar vervoer?.’ Dit is geen tegenstelling en bestaat daarenboven uit twee items die beiden tot de postmateriële kant van de materialisme-postmaterialisme-tegenstelling kan gerekend worden. Meer algemeen vormen de meeste van de ‘Wat kies je’-vragen van 2004 een methodologisch probleem wegens geen reële politieke tegenstellingen. Tot slot - maar buiten het strikt methodologische - kan men vragen stellen naar de maatschappelijke aanvaardbaarheid van sommige stellingen. Bijvoorbeeld: ‘Alle vreemdelingen die permanent in Vlaanderen wonen, zijn verplicht een taalcursus te volgen.’ Deze stelling is puur populisme aangezien ze wettelijk onmogelijk waar te maken is (bv. uitsluiting EU-vreemdelingen). Daarenboven versterkt ze de misvatting onder de bevolking dat zulk een maatregel mogelijk te realiseren is.
3/ Twee mogelijkheden stellen zich hier. Ten eerste kunnen deze testen voorafgaandelijk aan het publiek maken van het instrument gebeuren op basis van een representatieve steekproef uit de kiesgerechtigde bevolking. Ten tweede vormen de zogenaamde respresentatieve steekproeven van ‘hoe Vlaanderen antwoordt’ zoals gegeven bij de uitzendingen van de Doe de Stemtest-shows een post-factum dataset om de testen op uit te voeren. Dit laatste wel in de veronderstelling dat het hier om werkelijk wetenschappelijk verantwoorde steekproeven gaat.

Bibliografie
- Rispens S., van Goor H., (2000) Een vertekend beeld van de maatschappij? Een onderzoek naar selectieve uitval in een telefonische enquête ten gevolge van onderdekking en non-respons. in Sociologische Gids, 6 (XLVII), p. 448 - 474
- Swyngedouw M., Billiet J., Goeminne B., (2004) Het electoraal landschap bij de aanvang van de verkiezingscampagne 2004. Een korte nota. ISPO-bulletin, K.U.Leuven: Leuven

stemtesten - verkiezingen - media en politiek

Samenleving & Politiek, Jaargang 12, 2005, nr. 3 bijlage (maart), pagina 32 tot 49