Deze blog gaat niet alleen over hondjes, maar vooral over het begrijpen en berekenen van betrouwbaarheidsintervallen. Deze zul je tegenkomen in SPSS of statistiek als je steekproeven wil gaan doen. Met een steekproef bedoelen we een representatief gedeelte van een populatie om te onderzoeken. Een populatie is de groep van alle subjecten waarop een onderzoek van toepassing is. Stel je bijvoorbeeld voor dat je de snuffelvaardigheid van honden in Nederland wil onderzoeken. In dat geval bestaat de populatie uit alle honden in Nederland.
Echter zal je ontzettend lang met je onderzoek bezig zijn indien je echt alle honden in Nederland zou moeten gaan testen (Wist je dat de hondenpopulatie in Nederland uit meer dan 1,5 miljoen honden bestaat?) Vandaar dat je met steekproeven werkt, dat gaat toch net iets sneller. Om een goede test uit te kunnen voeren moet je een selectie van honden nemen die representatief is voor de populatie. Op deze manier kan je toch resultaten krijgen die geldig zijn voor de hele populatie! Deze representativiteit regel je met de hulp van steekproeftrekkingen. Misschien ken je die laatste term al van onze eerdere blog over steekproeven en populaties.
1. Waarom zijn er betrouwbaarheidsintervallen nodig?
Als je je steekproef hebt gedaan, kun je hier voor je onderzoek mee aan de slag. De volgende stap is nu om een aantal ‘parameters’ te berekenen. Parameters zijn eigenschappen in de statistiek die steekproeven beschrijven, zoals het gemiddelde. Dit moet je doen omdat je geïnteresseerd bent in de parameters of eigenschappen van de populatie. Deze ken je nog niet, maar door het nemen van een representatieve steekproef, kun je ervan uitgaan dat jouw berekende parameters voor de steekproef ook representatief zullen zijn voor de parameters van de populatie. In principe beschouw je de parameters van de steekproef als schattingen van de echte populatieparameters waar je geïnteresseerd in bent. Zo kan je bijvoorbeeld voor jouw hondenonderzoek geïnteresseerd zijn in het gemiddelde aantal minuten dat een hond snuffelt om een lekker hondensnackje te vinden dat ergens in de tuin is verstopt.
Het mag dus duidelijk wezen dat wanneer je met een steekproef een parameter zoals het gemiddelde berekent, het altijd om een schatting gaat. Daarom kan je niet helemaal zeker zijn over de echte waarde van de parameter. De echte waarde blijft onbekend omdat het nemen van een steekproef niet hetzelfde is als het meten van de gehele populatie. Om de resultaten van je onderzoek toch goed te kunnen bespreken, is het belangrijk om te weten hoe betrouwbaar jouw schatting is en met wat voor foutenmarge je rekening moet houden. En dát is waar het betrouwbaarheidsinterval zich aandient!
2. Wat betekent een betrouwbaarheidsinterval?
Een betrouwbaarheidsinterval bestaat concreet gezien uit twee waardes: een laag cijfer en een hoog cijfer. Samen geven ze het bereik van een parameter weer. Je hebt bijvoorbeeld een gemiddelde berekend van 25 minuten met een betrouwbaarheidsinterval van [15, 35]. Het bereik van 15 tot 35 minuten laat zien hoe groot je foutenmarge is. De parameter zit altijd in het midden van dit interval omdat de foutenmarge symmetrisch is, zowel positief als negatief. Daarom is de notatie ervan meestal als volgt: 25 ± 10 minuten. “10” is de foutenmarge. Hoe kleiner de foutenmarge, hoe preciezer het betrouwbaarheidsinterval, want dan is het bereik waarbinnen jouw geschatte parameter kan vallen immers kleiner.
Normaliter gaat een betrouwbaarheidsinterval ook samen met een specifiek percentage. Er wordt bijvoorbeeld standaard gesproken over een ’95% betrouwbaarheidsinterval’. Ook al is dit de standaard, kom je soms ook betrouwbaarheidsintervallen van 90% of 99% tegen. Deze percentages representeren het betrouwbaarheidsniveau en zijn belangrijk voor de interpretatie van de betrouwbaarheidsintervallen.
3. De correcte interpretatie van betrouwbaarheidsintervallen (zoals 95%)
Misschien neig je ernaar om een betrouwbaarheidsinterval van bijvoorbeeld 95% te interpreteren als: “er is 95% kans dat de echte populatieparameter binnen het betrouwbaarheidsinterval van [15, 35] valt”. Wees hier niet te snel mee, dat is namelijk niet correct! Bij specifieke betrouwbaarheidsintervallen valt de echte populatieparameter namelijk óf in óf buiten het interval. Maar je hebt geen idee welke van de twee het daadwerkelijk is!
Wat je wél kan weten is wat er theoretisch gebeurt wanneer je herhaaldelijk steekproeven zou nemen. Daarom is de correcte (technische) interpretatie als volgt: er is 95% kans dat betrouwbaarheidsintervallen op basis van willekeurige steekproeven de echte populatieparameter bevat. Concreet betekent dit: stel dat je 100 keer nieuwe willekeurige steekproeven neemt van je populatie. Elke keer bereken je het steekproefgemiddelde en het betrouwbaarheidsinterval. Van deze 100 zullen in principe 95 betrouwbaarheidsintervallen de echte populatieparameter bevatten. Hetzelfde geldt voor betrouwbaarheden van 90%: voer 10 steekproeven uit, dan zullen 9 intervallen de correcte parameter bevatten, maar ééntje niet.
Dit betekent tegelijkertijd ook dat de echte populatieparameter bij een paar van die betrouwbaarheidsintervallen niet binnen dat bereik valt. Anders gezegd: zelfs als je jouw steekproef helemaal volgens de regels hebt uitgevoerd, parameters en betrouwbaarheidsintervallen hebt berekend zoals het moet, dan bestaat er nog steeds een minimale kans dat je er toch naast zit (zonder dat je het weet). Dit is de reden waarom de peilingen voor bijvoorbeeld de Tweede Kamer verkiezingen, die ook werken met behulp van steekproeven, niet altijd de uiteindelijke winnaar voorspellen. Raar, toch?
4. Het berekenen van het betrouwbaarheidsinterval
Betrouwbaarheidsintervallen kun je berekenen door statistische software zoals SPSS. Je kan het ook zelf berekenen aan de hand van een rekenmachine of calculator op het internet. Je gebruikt het gemiddelde als voorbeeld, omdat het een parameter is die vaak voorkomt. Echter kun je ook voor andere parameters betrouwbaarheidsintervallen berekenen, zoals bijvoorbeeld proporties. Elke parameter heeft een eigen formule. Maar de interpretatie blijft gelijk. De standaardformule voor het berekenen van een betrouwbaarheidsinterval voor het steekproefgemiddelde is als volgt:
Stap voor stap ziet het er zo uit:
4.1 Een oude bekende keert terug: de z-score
Wellicht komt de z-score je bekend voor, vooral als je onze eerdere blog over de normaalverdeling gelezen hebt. De z-score geeft aan binnen hoeveel standaardafwijkingen je zit als jouw observaties zouden normaliseren naar de standaardnormale verdeling. Van alle waardes van een variabele met de normaalverdeling vallen ongeveer 68%, 95% en 99,7% respectievelijk binnen 1, 2 en 3 standaardafwijkingen van het gemiddelde. Bij het berekenen van betrouwbaarheidsintervallen gebruik je deze eigenschap om een betrouwbaarheidsinterval met een precies betrouwbaarheidsniveau te berekenen.
Eerder in deze blog hebben we gesteld dat een standaard betrouwbaarheidsinterval een betrouwbaarheidsniveau van 95% heeft. Dit is dus bijna hetzelfde als ongeveer 2 standaardafwijkingen. De precieze z-score die hier nodig is, is 1,96 (we spreken van ‘ongeveer’ 2 als je afrondt naar 2, maar in de formule gebruik je de precieze waarde). Deze kritieke z-score gebruik je in de formule. In geval van een betrouwbaarheidsinterval van 90% of 99% is de kritieke z-score respectievelijk 1,65 en 2,58. Deze waardes komen van de standaardnormale tabel of z-tabel. Dit is een wiskundige tabel waarin kan worden opgezocht hoeveel % van een verdeling gelijk is aan een bepaalde z-score. Klik hier voor een voorbeeld. Als je de kritieke z-scores niet op wil zoeken, kun je ze ook uit je hoofd leren. Het gaat namelijk altijd om dezelfde vaste waardes (bijvoorbeeld 1,96 voor een 95% betrouwbaarheidsinterval).
4.2 De standaardfout van het gemiddelde
Tot nu toe hebben we gesproken over het steekproefgemiddelde en de kritieke z-score. Er blijft nog één onderdeel over: de standaardfout van het gemiddelde. Deze bereken je aan de hand van de standaardafwijking van de populatie (σ) en het aantal subjecten in je steekproef (n):
Voor de bovenstaande berekening van het betrouwbaarheidsinterval moet je dus de standaardafwijking van de populatie weten. Deze is net zoals het gemiddelde ook een parameter van de populatie, die je hoogstwaarschijnlijk niet zeker zal weten. Hier zul je dus ook op een creatieve manier mee moeten omgaan. Om dit te doen kijk je ten eerste naar de grootte van je steekproef.
4.2.1 Als de steekproef groter dan of gelijk aan 30 is
Je kan, als je steekproef groot genoeg is, de standaardafwijking van de populatie simpelweg vervangen door de standaardafwijking van de steekproef (s). Normaliter is de vuistregel voor ‘groot genoeg’ dat n (het aantal subjecten in de steekproef) groter dan 30 is, of gelijk aan 30. De berekening van 95% betrouwbaarheidsinterval verloopt dan concreet genomen zoals onderstaande formule:
4.2.2 Als de steekproef kleiner dan 30 is: de t-verdeling
Ken je de standaardafwijking van de populatie (σ) niet en is de n kleiner dan 30? Dan zul je wat extra hulp nodig hebben. Je kan dan niet langer gebruik maken van de link met de normaalverdeling. Als alternatief bestaat er de t-verdeling, anders bekend als de studentverdeling, vernoemd naar het pseudoniem van de wiskundige die de verdeling bedacht heeft.
De t-verdeling lijkt zoals je ziet erg veel op de normaalverdeling. Zodra n groter is dan 30, is de t-verdeling in principe zo goed als hetzelfde. Maar als n kleiner dan 30 is (zoals je op de afbeelding kan zien), dan wordt de t-verdeling platter en krijgt zowel rechts als links een grotere staart. Dit betekent dat de t-verdeling beter rekening houdt met waardes die verder wegvallen van het gemiddelde. Dat is realistischer voor kleinere steekproeven dan de normale verdeling. Daarom hebben we de vuistregel dat je z-score gebruikt voor n ≥ 30 en de t-score voor n < 30.
Wist je dat je in jouw cursus statistiek misschien de ‘t-test’ kan tegenkomen? Dat is een methode voor de hypothesetoetsing van een gemiddelde (of twee). Deze test is ook gebaseerd op de t-verdeling.
Ook de kritieke t-score kan je, net zoals de kritieke z-score, opzoeken in de standaardnormale tabel voor de t-verdeling.
Dit resulteert in de formule hieronder:
In tegenstelling tot de z-score kan je de kritieke t-score niet uit je hoofd leren. Je kan het wel altijd opzoeken in de t-tabel:
Je kan de t-score opzoeken met het volgende stappenplan:
5. Het klein houden van betrouwbaarheidsintervallen: de steekproefgrootte
Het betrouwbaarheidsinterval reflecteert hoe betrouwbaar je schatting is en hoe groot de mogelijke foutenmarge zal zijn. Het is daarom goed om deze zo klein mogelijk te houden. In sommige gevallen wil je vanwege praktische redenen dat je betrouwbaarheidsinterval niet groter is dan een bepaald bereik. Maar hoe zorg je hiervoor? Dit kun je doen vóór je de steekproef uitvoert, door te berekenen hoe groot de steekproef zal moeten wezen om zeker te zijn van een bepaalde maximale interval.
Deze wiskundige truc komt van de formule van de standaardfout: n zit daar per slot van rekening in de noemer. Bij een breuk kan je door de noemer te verhogen de uitkomst verkleinen terwijl de teller gelijk blijft. Zo is ¼ stuk taart kleiner dan ½ stuk taart. Kortom: om het betrouwbaarheidsinterval te verkleinen moet je de steekproefgrootte verhogen. 😉
Nu kan je op basis van hetzelfde principe ook de benodigde steekproefgrootte berekenen als je het maximum bereik van het betrouwbaarheidsinterval wil beperken. Om dit te doen zet je de formule van de foutenmarge (E) om naar een formule voor de benodigde steekproefgrootte. Dit leidt tot de volgende formule:
E representeert de gewenste foutenmarge, z de kritieke z-score (zoals 1,96 voor een 95% betrouwbaarheidsinterval) en σ de standaardafwijking van de populatie (dat je voor deze formule moet kennen!) Stel je voor dat je in het eerdergenoemde voorbeeld een foutenmarge van maximaal 2 minuten wil hebben. De standaardafwijking ken je als 10 minuten. Dan zul je uitkomen op een minimum van 96 honden om de gewenste foutenmarge te halen met een 95% betrouwbaarheidsniveau.
Kijk, nu weet je alles over betrouwbaarheidsintervallen! Zoals de honden na hun snuffelzoektocht hun snack hebben gevonden, verdien jij nu ook een beloning, toch?
Mocht je betrouwbaarheidsintervallen toch nog niet helemaal begrijpen, of heb je moeite met andere onderdelen zoals de normale verdeling of heb je problemen met wiskunde en/of statistiek in het algemeen? Bij BijlesHuis kun je vrijblijvend een bijlesdocent wiskunde of statistiek aanvragen die je maar al te graag wil helpen!
Laat hieronder je gegevens achter en blijf zo op de hoogte van onze nieuwste artikels! Je ontvangt verder geen reclame of andere e-mails.