Inleiding in statistiek (4/4): Centrum- en spreidingsmaten

Bijleren: wiskunde 5 min

Welkom bij de laatste blog ‘inleiding in de statistiek’. Eerder bespraken we de basisbeginselen van statistiek, de variabelen en steekproef en populatie. Vandaag bekijken we uitvoerig wat centrummaten en spreidingsmaten inhouden.

Hierbij komen veel termen aan te pas zoals: standaardafwijking, gemiddelde en variatie. Na het lezen van deze blog is je statistiekkennis weer een level omhoog gegaan.

Als steekproef van deze blog gebruiken we het formaat van tien honden in een asiel. De ‘deelnemers’ betreffen tien honden die allemaal genummerd en gemeten zijn (zie onderstaande afbeelding). Aan de hand van deze schattige diertjes weet jij straks precies wat centrummaten en spreidingsmaten inhouden.

statistiek: centrummaten en spreidingsmaten

Belangrijk: Voordat we starten, wijzen we je graag eerst op het feit dat centrum- en spreidingsmaten verschillen bij populatie en steekproef. In dit voorbeeld werken we met een steekproef, dus gebruiken we logischerwijs formules voor steekproeven. Wanneer er een afwijkende notatie of formule aanbod komt voor populatie, geef ik dat expliciet aan.

Wat zijn Centrummaten?

Zo bereken je het gemiddelde

Wil je het gemiddelde berekenen? Dan tel je alles bij elkaar op en vervolgens deel je dat door het aantal waarden. In het geval van de honden tellen we eerst alle lengtes van de gekozen honden bij elkaar op. Vervolgens delen we dat door tien (omdat er tien honden zijn). Als het goed is kom je uit op een gemiddelde van 77,50 centimeter.

statistiek: gemiddelde

Mocht het zo zijn dat we met de gehele populatie werken – alle honden in het dierenasiel – is de notatie van het gemiddelde anders:

statistiek: gemiddelde
n = steekproefgrootte en N = populatiegrootte

Zo verkrijg je de mediaan

De mediaan verkrijgen is vrij eenvoudig. Eerst orden je de waarden op grootte. Vervolgens neem je de middelste. Zijn er twee middelste? Dan neem je het gemiddelde van die twee. In het geval van de hondjes is dit 78,50 centimeter.

statistiek:mediaan
mediaan
statistiek: mediaan

Wat is de modus?

De meest voorkomende waarde, noemen we de modus. Echter is het bij de asielhonden zo dat er uitsluitend verschillende waarden zijn. We kunnen in dit geval dus niet spreken van een modus.

Indien hondje 7 niet 34cm maar 38cm zou zijn - exact hetzelfde als hondje 3 - hebben twee honden dezelfde grootte. Dit zou betekenen dat de meest voorkomende waarde 38cm is. Met andere woorden: dat zou de modus zijn.

statistiek: centrummaten en spreidingsmaten

Alles over spreidingsmaten

Dit is de range

De eenvoudigste spreidingsmaat is de range. Dit betreft het verschil tussen de hoogste en de laagste waarde. Men noemt de range ook wel de variatiebreedte, spreidingsbreedte of bereik.

In het geval van de honden is x₈ (de hoogste waarde) gelijk aan 122 cm. De kleinste hond noemen we de laagste waarde (x₇) en is gelijk aan 34 cm. Het verschil tussen beide is de range: 88 cm.

x₈ - x₇ = 122 - 34 = 88

statistiek: centrummaten en spreidingsmaten

Wat heb je aan kwartielen?

We weten dat als we alle getallen van laag naar hoog ordenen, de middelste waarde de mediaan is. De mediaan wordt ook wel het tweede kwartier Q2 genoemd. Kortgezegd verdelen medianen getallen in twee gelijke groepen. Uit die twee groepen wordt nog een keer de middelste waarde gepakt. Op deze manier kom je bij het eerste kwartiel Q1 en het derde kwartiel Q3. De kwartielen bij de honden zien er als volgt uit: Q1=55, Q2=78,50 en Q3=100.

In een notendop: kwartielen zeggen meer over de spreiding van de waarden.

statistiek: centrummaten en spreidingsmaten

Betekenis interkwartielafstand

Een lang woord met een eenvoudige betekenis: de interkwartielafstand bereken je door het verschil tussen het derde en eerste kwartiel uit te rekenen. In het voorbeeld van het honden is dat 45.

statistiek: interkwartielafstand

Wat is semi-interkwartielbereik?

Nog zo’n mond vol: semi-interkwartielbereik. Dit is simpelweg de helft van de interkwartielafstand. In ons voorbeeld dus 22,50.

statistiek: semi-interkwartielbereik

Decielen uitleg

Bij decielen deel je de reeks door 10. In ons voorbeeld met 10 waarden is elke waarde dus een deciel. Je noteert dat met D1, D2 etc.

Verschil percentielen decielen

Bij een forse getallenreeks kan je rechtstreeks door 100 delen. Bij decielen deel je door 10. Dit noteer je als volgt: P1, P2, etc.

Samenstelling vijf-getallen-samenvatting

De opsomming van de kwartielen van een dataset noemt men de vijf-getallen-samenvatting. Dit bestaat uit de volgende begrippen in deze volgorde: minimum waarde, eerste kwartiel, mediaan, derde kwartiel, maximum. Dit ziet er visueel uit als een boxplot.

statistiek: centrummaten en spreidingsmaten
De vijf-getallen-samenvatting is 34 cm, 55 cm, 78,50 cm, 100 cm, 122 cm in ons voorbeeld.

Variantie = mate gegevensverspreiding

De variantie – ook wel aangeduid als - vertelt ons in welke mate de gegevens zijn verspreid. Het gemiddelde en de variantie geven een prima algemeen beeld over de cijfers. Is de variantie hoog? Dan zit er meer ruimte tussen de waarden. Stel dat er bij de asielhonden een lage variatie is, hebben de hondjes bijna allemaal dezelfde lengte.

Berekeningen variatie:

statistiek: variantie

Toepassing berekeningen variantie:

  1. Het gemiddelde vind je in bovenstaande afbeelding; het is gelijk aan 77,50.
  2. Het verschil van het gemiddelde berekenen we met elke lengtemaat van de asielhonden.
statistiek: variantie

3. Vervolgens kwadrateer je de berekende verschillen.

statistiek: variantie

4. Dan neem je de som van de waarden.

statistiek: centrummaten en spreidingsmaten

5. Deel door n-1. (n = steekproefgrootte)

statistiek: centrummaten en spreidingsmaten

bedraagt dus 1004,95.

Opmerking: Onze berekening is de steekproefvariant. Wanneer we de volledige populatie hadden uitgekozen zou de formule als volgt zijn:

statistiek: centrummaten en spreidingsmaten
n = de steekproefgrootte en N = populatiegrootte.

Standaardafwijking: vierkantswortel van variantie

De standaardafwijking, ook wel standaarddeviatie genoemd, betreft de vierkantswortel van de variantie. Je gebruikt de oorspronkelijke meeteenheid.

De standaardafwijking s is de vierkantswortel van de variantie. Je keert terug naar de oorspronkelijke meeteenheid. In ons geval is de standaardafwijking: 31,70 cm.

statistiek: standaardafwijking

Zouden we met een volledige populatie werken? Dan gebruiken we dit:

Variatiecoëfficiënt: resultaten vergelijken

Wil je gemakkelijk resultaten van verschillende onderzoeken vergelijken? Dan gebruik je de Variatiecoëfficiënt (VC) die wordt uitgedrukt in een percentage. Hoe hoger de uitkomst, hoe groter de spreiding rondom het gemiddelde.

Kort gezegd is de variatiecoëfficiënt een verhouding tussen de standaardafwijking en het gemiddelde. In het onderstaande geval is dat 41%.

statistiek: variatiecoëfficiënt

In een ander hondenasiel, asiel B, is de variatiecoëfficiënt 24%. Hierdoor stellen we vast dat de resultaten bij asiel A een grote spreiding rondom het gemiddelde toont.

Nouchka van BijlesHuis is een ster in cijfers en berekeningen. In de reeks ‘inleiding in de statistiek’ helpt ze concepten van statistiek beter te begrijpen. Vragen naar aanleiding van dit artikel? Mail naar nouchka@bijleshuis.be en je vragen worden z.s.m. beantwoord! En natuurlijk kun je bij BijlesHuis terecht voor bijles statistiek of wiskunde.

Laat hieronder je gegevens achter en blijf zo op de hoogte van onze nieuwste artikels. Je ontvangt verder geen reclame of andere e-mails.

statistiek studeren studietips wiskunde beter begrijpen wiskunde