Achtergronden | Wegen
Waarom wegen?
Vaak is de steekproef geen goede afspiegeling van de populatie waaruit hij is getrokken. De belangrijkste oorzaak is het optreden van non-respons. Ook als een steekproef via het Internet is geselecteerd, kan dit probleem zich voordoen. Personen zonder internet-aansluiting zijn immers uitgesloten van het onderzoek. Het is dan niet verantwoord om zonder verdere correcties conclusies te trekken uit de verzamelde gegevens.
Een veel toegepaste methode om de uitkomsten te corrigeren is het uitvoeren van een weegprocedure. Daarbij wordt aan elke persoon die mee heeft gedaan aan het onderzoek een gewicht toegekend. Personen in groepen die ondervertegenwoordigd zijn in de steekproef, krijgen een gewicht groter dan 1. En personen in oververtegenwoordigde groepen krijgen een gewicht kleiner dan 1. Voor het berekenen van de percentages worden daarna niet meer simpelweg de personen in de diverse groepen geteld. In plaats daarvan worden de bijbehorende gewichten opgeteld.
Benodigd: hulpvariabelen
Het uitvoeren van een weging staat of valt met de beschikbaarheid van geschikte hulpvariabelen. Dat zijn variabelen die we hebben gemeten in de steekproef; en waarvoor tevens de verdeling in de populatie bekend is. Voorbeelden van dit soort variabelen zijn geslacht, leeftijd, burgerlijke staat en provincie. Het Centraal Bureau voor de Statistiek kan de verdeling van dit soort variabelen in de populatie leveren.
Door de procentuele verdeling van een hulpvariabele in de steekproef te vergelijken met die in de populatie, kunnen we een indruk krijgen in hoeverre de respons representatief is met betrekking tot de hulpvariabele. Zijn er substantiële verschillen tussen beide verdelingen, dan moeten we concluderen dat de steekproef, althans voor deze variabele, niet representatief is. Het is dan zinvol deze hulpvariabele in de weging te gebruiken.
Wegen met één hulpvariabele
Om wegen met één hulpvariabele te illustreren, zullen we een eenvoudig voorbeeld gebruiken. In een online-onderzoek vragen we naar de leeftijd van de respondenten. Omdat we de verdeling over de geslachten de in de gehele bevolking kennen, kunnen we de verdelingen van dit kenmerken in de steekproef vergelijken met die in de populatie.
|
Jong |
Middelb |
Oud |
Populatie |
30% |
40% |
30% |
Steekproef |
60% |
30% |
10% |
De steekproef bestaat voor 60% uit jongeren, voor 30% uit mensen van middelbare leeftijd en voor 10% uit ouderen. Die percentages zijn duidelijk anders in de gehele populatie. Zo bestaat de populatie voor 30% uit jongeren. Die jongeren zijn dus duidelijk oververtegenwoordigd in het onderzoek. We kunnen concluderen dat het onderzoek niet representatief is met betrekking tot leeftijd.
We kunnen nu de steekproef representatief maken met betrekking tot het kenmerk leeftijd door de jongeren een gewicht te geven dat gelijk is aan
30,0 / 60,0= 0,500.
We hebben deze waarde gekregen door het populatiepercentage te delen door het bijbehorende steekproefpercentage. Voor personen van middelbare leeftijd wordt het gewicht dan
40,0 / 30,0 = 1,333.
Het gewicht voor de ouderen wordt
30,0 / 10,0 = 3,000.
Dat de jongeren een gewicht kleiner dan 1 krijgen, is niet verwonderlijk. Ze zijn oververtegenwoordigd in de steekproef. In feite telt na weging elke jongere in de steekproef mee voor een halve jongere. Ouderen zijn ondervertegenwoordigd en krijgen een gewicht groter dan 1. Elke oudere in de steekproef telt mee voor drie ouderen.
Zouden we nu op grond van de (gewogen) steekproef het percentage jongeren willen schatten, dan vinden we
0,500 x 60% = 30%
en dat is precies het percentage jongeren in de populatie. Evenzo komen de andere leeftijdscategorieën precies goed uit. De gewogen steekproef is dus representatief met betrekking tot de variabele geslacht.
Wegen met twee hulpvariabelen
Zijn er meer hulpvariabelen, dat wordt de zaak ingewikkelder. Ook dan kunnen we indeling in groepen maken op basis van de hulpvariabelen. Hebben we één hulpvariabele, dan zijn er evenveel groepen als de hulpvariabele categorieën heeft. Bijvoorbeeld: bij de variabele geslacht zijn er twee groepen: mannen en vrouwen. Bij meer variabelen is het aantal groepen het product van de aantallen categorieën per variabele.
Stel we hebben ook nog de beschikking over de hulpvariabele leeftijd in drie categorieën (jong, middelbaar en oud). Dan is er bij wegen naar de hulpvariabelen leeftijd en geslacht een groep voor elke combinatie van leeftijd en geslacht. Er zijn dus 2 x 3 = 6 groepen: jonge mannen, middelbare mannen, oude mannen, jonge vrouwen, middelbare vrouwen en oude vrouwen.
Kennen we nu de procentuele verdeling in de populatie over de aldus gevormde groepen dan kunnen we voor elke groep een gewicht bepalen.
We hebben dan bereikt dat de steekproef representatief is geworden met betrekking tot zowel leeftijd als geslacht. Sterker nog, de steekproef is ook representatief voor geslacht binnen elke leeftijdscategorie en, omgekeerd, voor leeftijd binnen elk geslacht.
Wegen met nog meer hulpvariabelen
Het is belangrijk om zoveel mogelijk hulpvariabelen te gebruiken, want dan wordt de steekproef in zoveel mogelijk opzichten representatief. Immers als de steekproef representatief is met betrekking tot heel veel hulpvariabelen, dan zal hij misschien ook wel steeds meer representatief worden met betrekking tot de doelvariabelen van het onderzoek (de variabelen waar het onderzoek in wezen over gaat).