De grootte van een dataset beïnvloedt de hoeveelheid informatie die eruit gehaald kan worden. De datasets waar je in deze cursus mee werkt, zijn klein vergeleken met de 'big data' die gebruikt worden om trends te bekijken in zoekopdrachten op internet, milieuonderzoek of financiële technologie. Grote datasets met miljarden of triljarden gegevens zijn moeilijk te verwerken met één computer en vereisen soms parallelle berekeningen op meerdere systemen; schaalbaarheid wordt een probleem omdat de rekencapaciteit van een systeem invloed heeft op hoe datasets verwerkt en opgeslagen kunnen worden.
Wetenschappers die vogels bestuderen, maken vaak kaartjes vast aan migrerende vogels. De
volgende data wordt verzameld voor iedere vogel op regelmatige momenten:
- Datum en tijd
- Lengte- en breedtegraad
- Hoogte
- Temperatuur
Welke van de volgende vragen over een individuele vogel kan
niet
beantwoord worden met behulp van
alleen de data van deze kaartjes?
Hoeveel tijd brengt de vogel ongeveer door in de lucht en op de grond?
Dit kan bepaald worden aan de hand van de hoogte.
Trekt de vogel in groepen met andere vogels die gevolgd worden?
Dit kan bepaald worden aan de hand van de lengte- en breedtegraad van
meerdere vogels.
Beïnvloedt de temperatuur de migratieroute van de vogel?
Dit kan bepaald worden aan de hand van de temperatuur.
Wat voor effect heeft de industriële vervuiling op de migratieroute van
de vogel?
Correct, er worden geen gegevens verzameld over vervuiling in de
omgeving van de vogel.
Met behulp van computers doorzoeken onderzoekers vaak grote datasets om interessante patronen in de gegevens
te vinden. Welke van de volgende stellingen is geen voorbeeld waarbij het zoeken naar patronen nodig is om de
gewenste informatie te verkrijgen?
Een online winkelbedrijf analyseert de aankoopgeschiedenis van klanten om hen nieuwe
producten aan te bevelen.
Dit is een voorbeeld van zoeken naar patronen om gewenste informatie
te verkrijgen.
Een middelbare school analyseert de aanwezigheidsgegevens van studenten
om te zien wie er een waarschuwing moet krijgen.
Correct, het is niet nodig om naar patronen te zoeken, de data moeten
alleen gesorteerd worden om een lijst studenten te krijgen met lage aanwezigheid.
Een bank analyseert de aankoopgeschiedenis van credit cards om gevallen van
identiteitsdiefstal te vinden.
Dit is een voorbeeld van zoeken naar patronen om gewenste informatie
te verkrijgen.
Een universiteit analyseert de eindexamenscores van middelbare schoolleerlingen om hun
mogelijke succes op de opleiding te bepalen.
Dit is een voorbeeld van zoeken naar patronen om gewenste informatie
te verkrijgen.
Een autobedrijf gebruikt een app om de reistrends van zijn klanten te volgen. De verzamelde
gegevens kunnen gefilterd en gesorteerd worden op geografische locatie,
tijd en datum, afgelegde kilometers en reistarief .
Welk van de volgende vragen is niet te beantwoorden met deze gegevens?
Op welk moment van de dag is het het drukst voor het bedrijf in een
bepaalde stad?
Filteren op geografische locatie en sorteren op tijd levert deze informatie.
Vanaf welke geografische locatie komen de langste ritten?
Door te sorteren op afgelegde kilometers en daarna de geografische locatie te noteren
kan je deze informatie vinden.
Hoe beïnvloedt de concurrentie van lokale taxi-bedrijven de omzet in een bepaald
district?
Correct, er is geen informatie over de andere bedrijven beschikbaar.
Hoeveel geld heeft het bedrijf verdiend in een bepaalde maand?
Filteren op datum en de tarieven opsommen levert deze informatie.
Een online muziekdownloadbedrijf slaat informatie op over aankopen die zijn klanten
hebben gedaan. Elke dag wordt de volgende informatie openbaar gemaakt op een database van de
website van het bedrijf.
- De dag en datum waarop ieder lied gekocht is.
- De titel van het lied.
- De steden waar het lied gekocht is.
- Het aantal keer dat een lied gekocht is in een stad.
Een gedeelte van de database is hieronder weergegeven. De database is gesorteerd op datum en
titel van het nummer.
Dag en datum |
Titel |
Stad |
Aantal keer gekocht |
Ma 10/07/17 |
Despacito |
Lelystad |
117 |
Ma 10/07/17 |
Malibu |
Utrecht, IL |
53 |
Ma 10/07/17 |
Malibu |
Zandvoort |
197 |
Ma 10/07/17 |
Bad Liar |
Boxtel |
11 |
Di 11/07/17 |
Despacito |
Heerenveen |
241 |
Welke van de volgende gegevens kunnen
niet bepaald worden met
alleen de informatie in de database?
Het meest gekochte lied in een bepaald week.
Deze informatie kan gevonden worden door de aankopen van ieder lied in een bepaalde week
op te sommen.
De stad met het minste aantal aankopen op een bepaalde dag.
Deze informatie kan gevonden worden door de aankopen van iedere stad op een bepaalde dag
op te sommen.
Het totale aantal steden waar een bepaald lied gekocht is in een
bepaalde maand.
Deze informatie kan gevonden worden door een lijst te maken met alle
steden voor alle aankopen van een bepaald lied in een bepaalde maand.
Het totale aantal liedjes die gekocht zijn door een bepaalde klant in een bepaald jaar.
Correct, er is geen data over individuele klanten.