Inleiding in statistiek (3/4): Steekproef en populatie

Bijleren: wiskunde 6 min

Statistiek is een moeilijk woord voor het verzamelen, ordenen, analyseren en interpreteren van gegevens. In voorgaande blogs stonden het gemiddelde, de mediaan en de modus en delen volgens variabelen centraal. Deze blog gaat over het verzamelen van gegevens: wat zijn een steekproef en populatie?

Steekproef en populatie

Populatie

Als je iets wilt onderzoeken, beslis je allereerst wie of wat je wilt gaan onderzoeken. Dit is je doelgroep, de populatie.

Populatie = de verzameling van alle elementen die interessant zijn voor een onderzoek.

Bijvoorbeeld: Je hebt een onwijs goed idee bedacht: een vitaminepil voor honden. Je hebt ook al een naam bedacht: VitaHond. Voor je het idee op de markt kunt brengen, moet je eerst onderzoek doen. Hoe is het energiepeil van honden eigenlijk? Je zou de pil in Nederland en België willen verkopen. Je onderzoekspopulatie is dan: alle honden in Nederland en België. Dus geen katten en ook geen honden uit andere landen. Neem je hun gegevens wel mee, dan krijg je een verkeerd onderzoeksresultaat.

Steekproef

steekproef statistiek

Alle honden in Nederland en België... Dat is nogal een klus. Heel leuk in theorie, maar in de praktijk is dat niet te doen. Het zou veel te veel tijd en geld kosten. Daarom onderzoek je maar een gedeelte van de populatie: een steekproef, ook wel monster genoemd. Je onderzoekt dus niet álle honden in Nederland en België.

Kaderfouten

Maar je kunt niet zomaar 500 willekeurige honden onderzoeken. De steekproef moet een perfecte weergave zijn van de populatie. Klinkt ingewikkeld, we leggen het uit:

  • Als je alleen honden onderzoekt terwijl het 35°C is, zul je een laag energiepijl krijgen wat geen juist beeld geeft.
  • Onderzoek je alleen puppy's, dan krijg je een veel hoger energieniveau dan de werkelijkheid.

In die gevallen is de steekproef niet representatief. Hij klopt niet, en geldt dus niet voor alle honden in het algemeen. Daarom is het belangrijk dat de steekproef een afspiegeling is van de werkelijkheid. Als de steekproef geen perfecte weergave is van de populatie, is het onderzoek onbetrouwbaar. We spreken dan van een kaderfout.

kaderfouten statistiek

Het indelen van steekproeven

Indeling door toeval

Aselecte steekproef

In een aselecte steekproef heeft elk element van de populatie evenveel kans om gekozen te worden. Hoe groot de kans is dat een element gekozen wordt in de steekproef, is bekend of kun je uitrekenen.

Bijvoorbeeld: Je bent klassenvertegenwoordiger en je wilt met een enquête de mening van de klas peilen. Het is een aselecte steekproef als je de volledige klassenlijst gebruikt om je steekproef te bepalen.

Selecte steekproef

Bij een selecte steekproef worden de elementen niet via toeval gekozen uit de populatie. De elementen hebben dan niet evenveel kans om gekozen te worden.

Bijvoorbeeld: Eén van de leerlingen staat nog niet op de lijst, en kan daardoor niet gekozen worden voor de steekproef.

Indeling door oplegging van beperkingen

Restrictieve steekproef

Bij een restrictieve steekproef bepaal je bewust een beperking. Dit wordt gedaan om kaderfouten te vermijden.

Bijvoorbeeld: Bij VitaHond zou het niet eerlijk zijn als puppy's mee mochten doen met het onderzoek. Zij hebben veel energie, en zouden de uitkomst voor de gemiddelde hond veel hoger laten uitvallen. Een restrictieve steekproef is daarom betrouwbaarder. De beslissing is als volgt: alleen volwassen honden mogen mee doen aan het onderzoek.

Niet-restrictieve steekproef

Als er geen voorwaarden of beperkingen zijn, is het een niet-restrictieve steekproef.

Soorten steekproeven

soorten steekproeven statistiek

Gemakkelijkheidssteekproef

Het zal je niet verbazen, maar dit is de makkelijkste steekproef. Bij een onderzoek met deze steekproef zijn er geen voorwaarden, beperkingen en de steekproef is zelfs niet representatief voor de grote groep. Zo'n steekproef wordt vaak gebruikt in de verkenningsfase van een onderzoek.

Bijvoorbeeld: Je bent met VitaHond bezig en je maakt op zaterdag een lange wandeling. Onderweg kom je verschillende mensen met een hond tegen. Steeds stop je even om te vragen naar het energielevel van de hond. Je zet het antwoord in je telefoon. Bij thuiskomst heb je aardig wat informatie. Maar de honden die buiten wandelen hebben vaak meer energie dan thuiszittende honden. Toch heb je al wat verkennende informatie.

statistiek steekproeven

Beoordelingssteekproef

Deze steekproef bestaat uit individuen die de populatie vertegenwoordigen. De elementen zijn dus gekozen op basis van kenmerken en kwaliteiten.

steekproeven statistiek

Bijvoorbeeld: voor VitaHond is het criterium alleen volwassen honden.

Sneeuwbalsteekproef

Gelukkig is dit onderzoek ook goed uit te voeren in de zomer ;) Soms moet je iets onderzoeken wat behoorlijk zeldzaam of moeilijk vindbaar is. Het is dan lastig om onderzoekselementen te vinden. Heb je iets of iemand gevonden? Dan gebruik je dat element om aan volgende elementen te komen.

Bijvoorbeeld: voor VitaHond wil je alleen honden onderzoeken die al eens een vitaminepil hebben gehad. Je weet dat je buurman zijn hond wel eens een vitaminepil heeft gegeven. Je onderzoekt zijn hond. Vervolgens vraag je aan de buurman of hij nog iemand kent die zijn hond weleens vitaminepillen geeft. Hij kent nog drie mensen. Je onderzoekt ook hun honden, en stelt hen dezelfde vraag. Zo kom je aan steeds meer onderzoekselementen.

statistiek sneeuwbalsteekproef

Volledig aselecte steekproef

Je weet al wat een aselecte steekproef is: als de elementen evenveel kans hebben om gekozen te worden. Een 'volledig aselecte steekproef' klinkt dan een beetje dubbel. Het verschil is: bij een aselecte steekproef gebruik je bijvoorbeeld een lijst van twintig leerlingen, en je 'prikt' er vijf om te onderzoeken. De leerlingen die in het midden staan, hebben dan eigenlijk toch iets meer kans om gekozen te worden.

Bij een volledig aselecte steekproef voorkom je dit door een lijst te maken in Excel. Daar zet je alle onderzoekselementen in. Vervolgens kun je via de techniek random numbers generations laten bepalen welke elementen je daadwerkelijk gaat onderzoeken. Je hebt er dan totaal geen invloed op, vandaar dat het een volledig aselecte steekproef is. Het is alleen wel moeilijk om zo'n volledige lijst te maken.

aselecte steekproef statistiek
Tip: lees hier hoe je een aselecte steekproef kunt maken in Excel!

Systematische steekproef

Ook bij deze steekproef maak je gebruik van een lijst. Je maakt alleen geen gebruik van random number generations. In plaats daarvan bereken je een interval. De interval bereken je als volgt:

Quotiënt van de populatie (N) en de steekproefgrootte (n) = het steekproefinterval

Als je de interval weet, neem je een willekeurig getal tussen 1 en de steekproefinterval. Dit is het beginpunt.

Bijvoorbeeld: In Nederland en België zijn 3,7 miljoen honden. Voor je onderzoek wil je 10.000 honden onderzoeken. De steekproefinterval is dan: 3,7 miljoen / 10.000 = 370. Dan neem je een willekeurig getal tussen 1 en 10.000, bijvoorbeeld: 430. De honden die je moet onderzoeken zijn dan: 430, 800, 1170, 1540, etc.

systematische steekproef

Gestratificeerde steekproef

Bij een gestratificeerde steekproef verdeel je de populatie eerst in groepen. De steekproef vorm je door een paar elementen uit elke groep te kiezen. Je kiest willekeurig. Deze steekproef is erg handig als je wilt dat elke groep of soort vertegenwoordigd is in je onderzoek.

Bijvoorbeeld: Je verdeelt alle honden in groepen per ras. Vervolgens selecteer je uit elke groep een aantal honden om te onderzoeken. Zo weet je zeker dat elk ras onderzocht is.

gestratificeerde steekproef

Cluster

Let op: deze steekproef lijkt erg op de gestratificeerde steekproef, maar is net even anders. Ook hier wordt de populatie eerst in groepen verdeeld. Je steekproef bestaat uit alle leden van enkele groepen. Je selecteert de groepen willekeurig.

Bijvoorbeeld: Je hebt van alle asielen in Nederland en België lijsten gekregen met welke honden zij hebben. Je kiest willekeurig een paar asielen uit, en daar onderzoek je alle honden.

statistiek cluster

Gefeliciteerd, nu ben je een expert in steekproeven! Nieuwsgierig naar de volgende blog in deze statistiekserie? Houd onze blog in de gaten!

Nouchka van BijlesHuis heeft een voorliefde voor cijfers en berekeningen. In deze reeks helpt ze jou om enkele concepten van statistiek beter te begrijpen. Vragen over dit artikel? Stuur een mailtje naar nouchka@bijleshuis.nl en ze geeft je met plezier meer uitleg! En natuurlijk kunt u terecht bij BijlesHuis voor individuele bijles wiskunde of statistiek.

Laat hieronder je gegevens achter en blijf zo op de hoogte van onze nieuwste artikelen! Je ontvangt verder geen reclame of andere e-mails.

statistiek bijles wiskunde beter begrijpen steekproef populatie