Survey-onderzoek
Wat is survey-onderzoek?
Een steekproef trekken
Schattingen maken
Demonstratie: het maken van schattingen
Onzekerheidsmarge bepalen
Demonstratie: betrouwbaarheidsintervallen

Wat is survey-onderzoek?

Survey-onderzoek, enquête-onderzoek, opinie-onderzoek, peiling, poll, ...
Het zijn allemaal verschillende namen voor hetzelfde. Het gaat om onderzoek waarbij op systematische wijze vragen worden gesteld aan een (vaak groot) aantal mensen. Die vragen meten meningen, motieven, gedrag of andere kenmerken van die mensen. Met de antwoorden kunnen vervolgens de karakteristieken van een groep mensen in kaart worden gebracht.

Bij survey-onderzoek gaat het niet om de individuele personen, maar om het gedrag van de groep als geheel. Die groep noemen we de Populatie We beschrijven de populatie in de vorm van kengetallen zoals aantallen, percentages of gemiddelden.

Voorbeeld: een luisteronderzoek
Een voorbeeld van een survey-onderzoek is een luisteronderzoek van een lokale omroep. De populatie bestaat uit alle inwoners in een gemeente vanaf een zekere leeftijd (bijvoorbeeld vanaf 13 jaar). In zo’n onderzoek kunnen we vragen of mensen wel eens naar de lokale omroep luisteren en hoeveel uur per week ze luisteren. Met de antwoorden kunnen we vervolgens uitrekenen welk percentage mensen in de gemeente wel eens naar de omroep luistert en hoeveel uur ze gemiddelde luisteren.

Een steekproef trekken

Als we de mening of het gedrag van een groep in kaart willen brengen, dan ligt het op het eerste gezicht voor de hand om onze vragen aan elk lid van de groep voor te leggen. Zo ging dat vroeger altijd. En zo gaat het nu nog steeds bij volkstellingen die in veel landen elke 10 jaar worden gehouden. Miljoenen mensen ondervragen kost echter veel tijd en geld. Daar komt ook nog bij dat veel mensen er niet van gediend om voortdurend te worden lastig gevallen.

De nadelen van het volledig onderzoeken van een groep mensen kunnen we verminderen door alleen een steekproef uit de groep te onderzoeken. Ook op basis van onderzoek van slechts een steekproef van mensen kunnen we conclusies trekken over de groep als geheel. Dit is echter alleen mogelijk als de steekproef op wetenschappelijk verantwoorde wijze is getrokken Hiervoor moet aan twee voorwaarden zijn voldaan:

  • We moeten de mensen in de steekproef selecteren met een echte lotingsmechanisme.

  • Elke persoon in de groep moet zelfde kans hebben om in de steekproef getrokken te worden.
Een steekproef die door loting tot stand komt, noemen we ook wel een kanssteekproef. En als er met gelijke kansen wordt geloot, dan noemen we dat een aselecte steekproef.

Merk op dat het ook mogelijk is om met ongelijke kansen te loten. Dan wordt het wat ingewikkelder om schattingen te berekenen voor kengetallen als percentages en gemiddelden. Dit valt buiten bet bestek van deze website.


Schattingen maken

Met de gegevens uit de steekproef kunnen we schattingen maken van kenmerken in de populatie. Als we een aselecte steekproef hebben getrokken, dan is een percentage in de steekproef een goede schatting voor een percentage in de populatie. En een gemiddelde in de steekproef is een goede schatting voor het gemiddelde in de populatie.

Wat is een goede schatting? Schattingen voor een aselecte steekproef hebben twee belangrijke eigenschappen:

  • Deze schattingen zijn zuiver. Als je het onderzoek ene heleboel keer zou herhalen, dan zou je zien dat de schattingen gemiddeld goed uitkomen op de waarde in de populatie die je wilt schatten. Er vindt geen systematisch onder- of overschatting plaats.
  • De omvang van de steekproef bepaalt de nauwkeurigheid van de schatting. Daarbij geldt dat de nauwkeurigheid toeneemt naarmate de steekproef groter is.
Er bestaat geen verband tussen de nauwkeurigheid van een schatting en de omvang van de populatie. Het is dus niet zo dat je voor een grotere populatie een grotere steekproef nodig hebt om dezelfde nauwkeurigheid te bereiken.


Demonstratie: het maken van schattingen

De demonstratie hieronder laat zien wat de invloed van de steekomvang is op de nauwkeurigheid van de schatter.

In het land Samplonië staan de verkiezingen voor de deur. Vooral de Nationale Ouderen Partij (NOP) lijkt veel aanhang te hebben. In een opinieonderzoek wordt geschat hoeveel procent van de kiezers gaat stemmen op die partij. Om te kijken hoe nauwkeurig die schatting is, herhalen we het trekken van de steekproef een groot aantal malen. Voor elke steekproef wordt het percentage stemmers op de NOP bepaald. Zo krijgen we een hele reeks schattingen. Daarvan wordt een histogram gemaakt.

Van al die schattingen wordt het gemiddelde berekend. Hieraan kunnen we zien dat de schatter zuiver is. Het gemiddelde ligt dicht in de buurt van het werkelijke percentage stemmers in de hele populatie (25,4%).

Als we een grotere steekproefomvang kiezen, zullen we zien dat de schattingen dichter bij het werkelijke percentage in de populatie liggen.

Om een reeks simulaties uit te voeren, moeten we eerst de omvang van de steekproef instellen. Dat kan door klikken op het groene vierkantje onder Steekproef. Na elke keer klikken verschijnt een andere waarde. Er kan worden gekozen uit een omvang van 200, 400 of 800. Door klikken op Start wordt de simulatie gestart.


Onzekerheidsmarges

Met gegevens uit een steekproef kunnen we schattingen maken van allerlei kenmerken in de populatie. En schatting komt nooit exact overeen met de waarde in de populatie. Maar hij kan er wel dicht in de buurt liggen. Maar wat is dicht in de buurt?

Omdat we loten bij het trekken van de steekproef, kunnen de theorie van de kansrekening toepassen. Die zegt dat grootheden als het gemiddelde en het percentage in de steekproef bij benadering een zogenaamde Normale verdeling hebben. Dit betekent dat we kunnen uitrekenen hoe ver eens schatting af kan liggen van de werkelijke waarde. Zo krijgen we een betrouwbaarheidsinterval

Een betrouwbaarheisinterval geeft een ondergrens en een bovengrens waartussen de werkelijke waarde met een zeer grote waarschijnlijkheid zal liggen. Meestal wordt voor die waarschijnlijkheid een waarde van 95% genomen. We krijgen dan het 95%-betrouwbaarheidsinterval. We kunnen dan zeggen dat met 95% zekerheid de werkelijke waarde in het interval zal liggen.

Voorbeeld: een luisteronderzoek

Om te bepalen hoeveel mensen naar een lokale omroep luisteren, trekken we een steekproef van 1000 inwoners. Daaruit blijkt dat 30% daarvan regelmatig naar de lokale omroep luistert. Het bijbehorende 95%-betrouwbaarheidsinterval heeft een ondegrens van 27% en een bovengrens van 33%. Dat betekent dat met een zeer grote waarschijnlijkheid het percentage luisteraars in de gehele populatie zal liggen tussen de 27% en 33%.

Er is een direct verband tussen de breedte van het betrouwbaarheidsinterval en de omvang van de steekproef. Naarmate we een grotere steekproef nemen, zal het betrouwbaarheidsinerval nauwer worden. We kunnen dan een nauwkeuriger schatting maken.

Bij het publiceren van de uitkomsten van survey-onderzoek is het belangrijk om niet alleen schattingen te vermelden maar ook de onzekerheidsmarges. Daarmee krijgen de gebruikers een duidelijk beeld van de nauwkeurigheid van de cijfers.

Voorbeeld: een Amerikaans opinieonderzoek

In een opinieonderzoek op 17 maart 2003 werd aan een steekproef van 776 Amerikanen (telefonische) gevraagd of ze het eens waren met de oorlogsverklaring van Amerika aan Irak. 665 was het er mee eens.

Naast de cijfers wordt ook de onzekerheidsmarge vermeld (margin of error). Deze is gelijk aan 4,5%. Dit betekent dat het betrouwbaarheidsinterval loopt van 61,5% tot 70,5%. We kunnen dus vaststellen dat het aantal voorstanders in de populatie met grote waarschijnlijkheid zal liggen tussen 61,5% en 70,5%.


Demonstratie: betrouwbaarheidsintervallen

De demonstratie hieronder laat zien wat de invloed van de steekomvang is op de breedte van het betrouwbaarheidsinterval.

In het land Samplonië staan de verkiezingen voor de deur. Vooral de Nationale Ouderen Partij (NOP) lijkt veel aanhang te hebben. In een opinieonderzoek wordt geschat hoeveel procent van de kiezers gaat stemmen op die partij. Vervolgens wordt het 95%-betrouwbaarheidsinerval uitgerekend. In de grafiek hieronder geven wet dit interval weer als een horizontaal donkerblauw lijnstuk.

We herhalen dit proces een groot aantal malen, We kunen dan twee aspecten van betrouwbaarheidsintervallen naderen onderzoeken:

  • De breedte van de intervallen. Naarmate de steekproefomvang groter is, zal de breedte van het interval kleiner zijn. We kunnen nauwkeuriger schatten.

  • De betrouwbaarheid. Er worden 95%-betrouwbaarheidsintervallen berekend. Dat houdt in dit gemiddeld in 95% van de gevallen het betrouwbaarheidsinterval het te schatten populatiegemiddelde (25,5%) zal moeten bevatten.

Om een reeks simulaties uit te voeren, moeten we eerst de omvang van de steekproef instellen. Dat kan door klikken op het groene vierkantje onder Steekproef. Na elke keer klikken verschijnt een andere waarde. Er kan worden gekozen uit een omvang van 200, 400 of 800. Door klikken op Start wordt de simulatie gestart.

De simulatie blijft doorlopen tot we op de rode knop naast Stop klikken. Rechtsboven wordt het percentage intervalen bijgehouden dat het te schatten populatiegemiddelde bevat.

Uit de experimenten kunnen we concluderen dat in principe de betrouwbaarheid niet afhangt van de omvang van de steekproef, maar de nauwkeurigheid wel.