Analyseren van wereldwijde gezondheidsinformatie

Op deze pagina zul je big data over globale gezondheidstrends verkennen, analyseren en samenvatten met behulp van een interactieve tool voor datavisualisatie.

Big data is een veelgebruikte term voor extreem grote datasets die worden gebruikt om patronen te ontdekken in menselijk gedrag, interacties en gezondheid, evenals in milieuwetenschappen en vele andere gebieden. Het analyseren van grote datasets kan overweldigend zijn, maar computerprogramma's kunnen onderzoekers helpen informatie te extraheren, trends te identificeren, verbanden te leggen en problemen via het gebruik van big data op te lossen.

    Geen Afbeelding
  1. Bekijk deze interactieve dataset.
    1. Wat betekent ieder bolletje?
    2. Wat staat er op iedere as? Klik hier voor een hint.
      Als je de gegevens op deze pagina bekijkt, staat het label voor de verticale as bovenaan. (Als je deze rechtstreeks op Google.com bekijkt, bevindt deze zich aan de linkerkant waar deze gewoonlijk is.)
    3. Wat betekenen de kleuren?
    4. Wat zegt de grootte van een bolletje?
    5. Wat kun je met de schuifregelaar onder de grafiek doen?


  2. Als deze interactieve grafiek niet goed laadt kun je, hem ook bekijken op Google.com.

  3. Analyseer de data. Klik in de bovenstaande grafiek op de afspeelknop of verplaats de schuifregelaar.

    Bespreek het volgende: Geen Afbeelding
    1. Wat zegt deze interactieve dataset over de wereldwijde trends in levensverwachting door de tijd heen (gemiddeld)
    2. Hoe zit het met de wereldwijde trends in vruchtbaarheid door de tijd heen (gemiddeld)?
    3. Verplaats de schuifregelaar naar 1960 (helemaal naar links). Beschrijf de groep bolletjes van het cluster met oranje gegevenspunten rechtsonder in de grafiek. Wat zegt dit over trends in dit deel van de wereld op dat moment?
    4. Verplaats de schuifregelaar naar 2015 (helemaal naar rechts). Beschrijf de groep bolletjes van het cluster met roze gegevenspunten rechtsonder in de grafiek. Wat zegt dit over trends in dit deel van de wereld op dat moment?
    5. Beweeg de schuifregelaar heen en weer over de tijd en selecteer een land dat een trend volgt die je interessant vindt. Beschrijf wat dit zegt over de levensverwachting en vruchtbaarheid van dit land tijdens deze periode.

In het gewone spraakgebruik worden de woorden 'data' en 'informatie' door elkaar gebruikt. Maar in de informatica hebben deze woorden specifieke technische betekenissen.


Data bieden mogelijkheden om trends te identificeren, verbanden te leggen en problemen aan te pakken. Informatie is het resultaat van de analyse van die gegevens.


Met de data uit de grafiek bij 1. kunnen we sommige vragen beantwoorden, maar andere niet. We kunnen bijvoorbeeld wel zien hoe vruchtbaarheidspatronen en levensverwachting verschillen van het ene continent tot het andere. Maar omdat de getoonde data geen banen laat zien, zien we niet hoe de levensverwachting wordt beïnvloed door het werk dat mensen doen.

  1. Landen met een hoger vruchtbaarheidscijfer hebben een lagere levensverwachting. Dit soort relatie wordt een correlatie genoemd. Dit patroon in de gegevens wordt duidelijk als je naar de grafiek kijkt, maar het zou niet zo in het oog springen zijn als je alleen naar de data keek.
    Wat zegt dit patroon (eventueel) over het oorzakelijke verband tussen vruchtbaarheidscijfers en levensverwachting?

    Een correlatie is een bepaald soort informatie, namelijk een afhankelijkheid tussen twee variabelen. Bekijk de afbeeldingen hieronder: als de ene variabele stijgt, daalt de andere. Of omgekeerd. En geen correlatie kan natuurlijk ook.

    Geen Afbeelding
    Geen Afbeelding
    Geen Afbeelding
    negatieve correlatie
    positieve correlatie
    geen correlatie

  2. Bedenk een scenario waarin hoge vruchtbaarheidscijfers een lage levensverwachting veroorzaken. Verzin vervolgens een scenario waarin een lage levensverwachting een hoge vruchtbaarheid veroorzaakt.

Gegevens op zich vertellen je niet wat wat veroorzaakt. Er kan een correlatie zijn tussen twee dingen, maar dit betekent niet dat het ene het andere veroorzaakt. Mensen zeggen vaak: 'Correlatie impliceert causaliteit'. Er is aanvullend onderzoek nodig om inzicht te krijgen in de precieze aard van een relatie, zoals oorzakelijk verband.


Inzicht is een betekenisvolle conclusie die wordt getrokken uit het analyseren van informatie.


Bekijk hier een verzameling even vrolijke als onzinnige valse verbanden - Gebruik previous/next page om meer voorbeelden van valse verbanden te zien.


Vaak bevat één enkele bron niet de gegevens die nodig zijn om een serieuze conclusie te trekken. Het kan nuttig zijn om gegevens uit verschillende bronnen te combineren. Misschien merkte je bij de relatie tussen de vruchtbaarheids- en levensverwachtingsgegevens dat een patroon in een dataset vaak een nieuwe onderzoeksvraag oproept. Zoals: 'Is een van deze zaken gecorreleerd met het gemiddelde inkomen in het land?'. Om zo'n vraag te beantwoorden zou je naar een economische database kunnen zoeken, datasets downloaden en zoeken naar aanvullende correlaties. Er kunnen verschillende fasen zijn waarin je iets in de data ontdekt en meer gegevens verzamelt en onderzoekt, voordat je een betrouwbaar inzicht hebt over causaliteit


Twee grappen over correlatie en causaliteit van XKCD...(Engelstalig)


  1. Geen afbeeldingenVat je bevindingen samen
    Schrijf met je partner twee alinea’s over de levensverwachting en vruchtbaarheid in de getoonde periode voor een land dat je zelf kiest.

  1. Gebruik het internet om onderzoek te doen naar een land. Bepaal welke activiteiten de levensverwachting en vruchtbaarheid in deze periode waarschijnlijk hebben beïnvloed. Wees specifiek. Was er oorlog in een tijd dat de levensverwachting daalde? Waren er verbeteringen in de kraamzorg op een moment dat de vruchtbaarheid toenam?

Terug Volgende