Op deze pagina zul je big data over globale gezondheidstrends verkennen, analyseren en samenvatten met behulp van een interactieve tool voor datavisualisatie.
Big data is een veelgebruikte term voor extreem grote datasets die worden gebruikt om patronen te ontdekken in menselijk gedrag, interacties en gezondheid, evenals in milieuwetenschappen en vele andere gebieden. Het analyseren van grote datasets kan overweldigend zijn, maar computerprogramma's kunnen onderzoekers helpen informatie te extraheren, trends te identificeren, verbanden te leggen en problemen via het gebruik van big data op te lossen.
In het gewone spraakgebruik worden de woorden 'data' en 'informatie' door elkaar gebruikt. Maar in de informatica hebben deze woorden specifieke technische betekenissen.
Data bieden mogelijkheden om trends te identificeren, verbanden te leggen en problemen aan te pakken. Informatie is het resultaat van de analyse van die gegevens.
Met de data uit de grafiek bij 1. kunnen we sommige vragen beantwoorden, maar andere niet. We kunnen bijvoorbeeld wel zien hoe vruchtbaarheidspatronen en levensverwachting verschillen van het ene continent tot het andere. Maar omdat de getoonde data geen banen laat zien, zien we niet hoe de levensverwachting wordt beïnvloed door het werk dat mensen doen.
Een correlatie is een bepaald soort informatie, namelijk een afhankelijkheid tussen twee variabelen. Bekijk de afbeeldingen hieronder: als de ene variabele stijgt, daalt de andere. Of omgekeerd. En geen correlatie kan natuurlijk ook.
Gegevens op zich vertellen je niet wat wat veroorzaakt. Er kan een correlatie zijn tussen twee dingen, maar dit betekent niet dat het ene het andere veroorzaakt. Mensen zeggen vaak: 'Correlatie impliceert causaliteit'. Er is aanvullend onderzoek nodig om inzicht te krijgen in de precieze aard van een relatie, zoals oorzakelijk verband.
Inzicht is een betekenisvolle conclusie die wordt getrokken uit het analyseren van informatie.
Bekijk hier een verzameling even vrolijke als onzinnige valse verbanden - Gebruik previous/next page om meer voorbeelden van valse verbanden te zien.
Vaak bevat één enkele bron niet de gegevens die nodig zijn om een serieuze conclusie te trekken. Het kan nuttig zijn om gegevens uit verschillende bronnen te combineren. Misschien merkte je bij de relatie tussen de vruchtbaarheids- en levensverwachtingsgegevens dat een patroon in een dataset vaak een nieuwe onderzoeksvraag oproept. Zoals: 'Is een van deze zaken gecorreleerd met het gemiddelde inkomen in het land?'. Om zo'n vraag te beantwoorden zou je naar een economische database kunnen zoeken, datasets downloaden en zoeken naar aanvullende correlaties. Er kunnen verschillende fasen zijn waarin je iets in de data ontdekt en meer gegevens verzamelt en onderzoekt, voordat je een betrouwbaar inzicht hebt over causaliteit