Test jezelf: Big data

Op deze pagina ga je jezelf voorbereiden op vragen over data.

De grootte van een dataset beïnvloedt de hoeveelheid informatie die eruit gehaald kan worden. De datasets waar je in deze cursus mee werkt, zijn klein vergeleken met de 'big data' die gebruikt worden om trends te bekijken in zoekopdrachten op internet, milieuonderzoek of financiële technologie. Grote datasets met miljarden of triljarden gegevens zijn moeilijk te verwerken met één computer en vereisen soms parallelle berekeningen op meerdere systemen; schaalbaarheid wordt een probleem omdat de rekencapaciteit van een systeem invloed heeft op hoe datasets verwerkt en opgeslagen kunnen worden.

Wetenschappers die vogels bestuderen, maken vaak kaartjes vast aan migrerende vogels. De volgende data wordt verzameld voor iedere vogel op regelmatige momenten:
  • Datum en tijd
  • Lengte- en breedtegraad
  • Hoogte
  • Temperatuur

Welke van de volgende vragen over een individuele vogel kan niet beantwoord worden met behulp van alleen de data van deze kaartjes?
Hoeveel tijd brengt de vogel ongeveer door in de lucht en op de grond?
Trekt de vogel in groepen met andere vogels die gevolgd worden?
Beïnvloedt de temperatuur de migratieroute van de vogel?
Wat voor effect heeft de industriële vervuiling op de migratieroute van de vogel?
Met behulp van computers doorzoeken onderzoekers vaak grote datasets om interessante patronen in de gegevens te vinden. Welke van de volgende stellingen is geen voorbeeld waarbij het zoeken naar patronen nodig is om de gewenste informatie te verkrijgen?
Een online winkelbedrijf analyseert de aankoopgeschiedenis van klanten om hen nieuwe producten aan te bevelen.
Een middelbare school analyseert de aanwezigheidsgegevens van studenten om te zien wie er een waarschuwing moet krijgen.
Een bank analyseert de aankoopgeschiedenis van credit cards om gevallen van identiteitsdiefstal te vinden.
Een universiteit analyseert de eindexamenscores van middelbare schoolleerlingen om hun mogelijke succes op de opleiding te bepalen.
Een autobedrijf gebruikt een app om de reistrends van zijn klanten te volgen. De verzamelde gegevens kunnen gefilterd en gesorteerd worden op geografische locatie, tijd en datum, afgelegde kilometers en reistarief .
Welk van de volgende vragen is niet te beantwoorden met deze gegevens?
Op welk moment van de dag is het het drukst voor het bedrijf in een bepaalde stad?
Vanaf welke geografische locatie komen de langste ritten?
Hoe beïnvloedt de concurrentie van lokale taxi-bedrijven de omzet in een bepaald district?
Hoeveel geld heeft het bedrijf verdiend in een bepaalde maand?
Een online muziekdownloadbedrijf slaat informatie op over aankopen die zijn klanten hebben gedaan. Elke dag wordt de volgende informatie openbaar gemaakt op een database van de website van het bedrijf.
  • De dag en datum waarop ieder lied gekocht is.
  • De titel van het lied.
  • De steden waar het lied gekocht is.
  • Het aantal keer dat een lied gekocht is in een stad.
Een gedeelte van de database is hieronder weergegeven. De database is gesorteerd op datum en titel van het nummer.
Dag en datum Titel Stad Aantal keer gekocht
Ma 10/07/17 Despacito Lelystad 117
Ma 10/07/17 Malibu Utrecht, IL 53
Ma 10/07/17 Malibu Zandvoort 197
Ma 10/07/17 Bad Liar Boxtel 11
Di 11/07/17 Despacito Heerenveen 241


Welke van de volgende gegevens kunnen niet bepaald worden met alleen de informatie in de database?
Het meest gekochte lied in een bepaald week.
De stad met het minste aantal aankopen op een bepaalde dag.
Het totale aantal steden waar een bepaald lied gekocht is in een bepaalde maand.
Het totale aantal liedjes die gekocht zijn door een bepaalde klant in een bepaald jaar.
Terug Volgende