door: Remko van den Dool, Paul Hover & Reinout Moes
'Big data' staan al enige tijd als bijzonder kansrijk bekend. Sommigen vergelijken big data zelfs met het belang dat olie had in de vorige de eeuw. Omdat onderzoekers data als ‘grondstof’ gebruiken, verdient big data serieuze aandacht. Al was het maar vanwege beperkingen bij de traditionele dataverzameling. Maar wat is nu precies de betekenis van big data voor (breedte)sportonderzoek? Hoe kunnen we vergezichten over het immense potentieel vertalen naar concrete stappen om ermee aan de slag te gaan? Het Mulier Instituut heeft als antwoord een rapport geschreven over de (on)mogelijkheden van big data voor de sportsector1. In deze focus op big data staan wij overigens niet alleen. Ook de Kennis- en Innovatieagenda Sport 2015-2020 van het Topteam sport voorziet grote mogelijkheden voor het gebruik van big data.
In onze zoektocht naar de concrete waarde van big data voor de sport zijn we gestart met de vraag wat big data eigenlijk zijn. Big data vormen namelijk geen eenduidig concept. Doorgaans betreft het veel, ongestructureerde data, die verschillende vormen kan aannemen. Bij wijze van selectie is het zaak uit te maken welke vormen belangrijk zijn voor sportonderzoek. We beperken ons daarbij overigens tot onderzoek naar breedtesport. Na literatuuronderzoek kwamen we uit bij vier bronnen.
(Beweeg)apps en draagbare meters (wearables) zijn waardevol om data over de mate van beweging te verzamelen. De betekenis neemt duidelijk toe als aanvullende informatie via een vragenlijst wordt verkregen. Hierdoor zijn uitkomsten beter te interpreteren. Discussie blijft bestaan over data die buiten een specifieke onderzoekssetting zijn verkregen, de talloze uploads van sportprestatiedata door sportenthousiastelingen. Het levert informatie op over gebruikers van een specifieke app of draagbare meter, die bereid zijn (een deel van) hun data met de app-producent te delen (die data weer met onderzoekers delen).
Beperkingen
Voor ‘traditionele’ onderzoekers is deze bron daarmee te selectief. Maar soms kan ondanks de beperkingen dit soort informatie waardevol zijn. Bijvoorbeeld voor gemeenten die snel inzicht willen waar in hun gebied wordt hardgelopen. In het kader van het SIA-Raak project Voor iedereen een app hebben we overigens recent in een ‘klassiek’ onderzoek2 het gebruik van apps in de sport onderzocht. We vonden dat 31 procent van de volwassenen een electronisch hulpmiddel gebruikt.
"Door de beschikbaarheid op internet kost het verzamelen van tekst, video en geluid veel minder tijd"
Bij media onderscheiden we sociale media en traditionele media. Onderzoek naar traditionele media profiteert sterk van de big data-revolutie. Door de beschikbaarheid op internet kost het verzamelen van tekst, video en geluid veel minder tijd. Door (geautomatiseerde) technieken voor inhoudsanalyse zijn de analysemogelijkheden spectaculair verruimd. Deze technieken zijn echter nog volop in ontwikkeling. Typische vraagstukken voor de sport liggen voor media op het gebied van gender en etniciteit.
Sociale media
Voor de analyse van sociale media zijn vooral Twitterberichten bruikbaar. Kranten en televisie zijn dol op sociale media om citaten te verzamelen over een actueel onderwerp. Veel serieuze vraagstellingen om via sociale media te beantwoorden zijn er echter niet. Kansen bestaan wel om de ‘temperatuur’ rond sportevenementen te meten.
"Evenementenbezoekers zijn zowel via smartphone-abonnementen als via camerabeelden te tellen"
Een speciale categorie van big data hebben we observaties in de openbare ruimte genoemd. Dit kan gaan om het oppikken van signalen (wifi, bluetooth etc.) maar ook om camera's die het gedrag van groepen analyseren. Evenementenbezoekers zijn zowel via smartphone-abonnementen als via camerabeelden te tellen. Dit soort observaties kennen veel (onderzoekstechnische) problemen maar voegen ook informatie toe waar met vragenlijstonderzoek niet aan is te komen.
Dataregisters vormen steeds vaker een onmisbare bron voor onderzoekers. Ook voor sport zijn meerdere databestanden beschikbaar. Deze bieden ongekende mogelijkheden voor nadere analyses, vooral door koppeling aan andere bronnen zoals enquêtes. Uiteraard zijn dit soort bestanden ook onderling te verbinden. Hoewel veel dataregisters (deels) openbaar zijn, is de toegankelijkheid van registers vanwege commerciële belangen en privacybescherming een obstakel. Maar desondanks is deze vorm van big data analyse het verste ontwikkeld. Om te bestuderen tegen welke problemen we in de praktijk aanlopen bij het gebruik van databases hebben we de hiernavolgende case uitgewerkt.
Onderzoek naar verband voetbaluitslagen Premier League en ongewenst gedrag
Met openbare bronnen hebben we bestudeerd of er een verband bestaat tussen de voetbaluitslagen in de Engelse Premier League en ongewenst gedrag door supporters. Voor onze analyse hadden we de beschikking over maandelijkse registratiecijfers van delicten per district, voetbaluitslagen en Twitterdata. Met de Twittergegevens hebben we bepaald wat de thuisbasis van een specifiek team is waar het ongewenst gedrag tot uiting zou kunnen komen.
Onderzoekers hebben namelijk kunnen achterhalen in welk district de (voetbal)Twitteraars woonden, inwoners van districten die overwegend over een specifieke club twitterden werden als fans hiervan beschouwd. Om de onderzoeksvraag te beantwoorden hebben we de databronnen op elkaar afgestemd. Zo is het uiteraard belangrijk om van dezelfde periode/jaar uit te gaan.
Andere zaken die aandacht vroegen waren de algenoemde definitie van de thuisbasis en de omvang/grilligheid van districten van de delictregistratie (mate overlap met de thuisbasis). De criminaliteitscijfers van de delicten zijn op maandbasis. Weekcijfers zouden echter de voorkeur hebben omdat deze fijnmaziger zijn.
De uiteindelijke uitkomst is dat we geen verband tussen voetbaluitslagen en ongewenst gedrag vonden. Onze eindconclusie is dat het beantwoorden van een vraag met (big) data behoorlijk complex is. Dit los van de vraag of er data beschikbaar zijn die passen bij de te onderzoeken vraagstelling.
Kennis optimaliseren
In ons voorbeeld zien we dat soms meerdere, complexe bewerkingsslagen nodig zijn om tot resultaten te komen. Daarnaast komen bij big data vragen naar boven over de representativiteit, met name bij sociale media. Ook de verkrijgbaarheid van met name commerciele data is een aandachtspunt. Tot slot bestaat de mogelijkheid dat big data analyses kleine, toevallige verbanden opleveren die zonder kennis van het veld tot verkeerde conclusies kunnen leiden. We stellen los van deze beperkingen vast dat big data een belangrijke bron zijn voor (toekomstige) informatie over (breedte)sport. Daarom investeert het Mulier Instituut de komende tijd om de kennis hierover te optimaliseren.
Noten:
1. ‘Big data en (breedte)sport. Kansen voor sportonderzoek.’ Het is tot stand gekomen door literatuur te raadplegen en interviews te houden met enkele experts. Zie verder hier
2. Zie hier
Remko van den Dool houdt zich bij het Mulier Instituut bezig met onderzoek naar sportdeelname en sportmotivatie. Daarnaast heeft hij als taak onderzoekers te ondersteunen met de opzet van onderzoek, analyses en vragenlijsten. Een onderdeel hiervan vormen nieuwe ontwikkelingen om data te verzamelen.
Paul Hover is senior onderzoeker bij het Mulier Instituut en coördinator van The Netherlands Olympic Study Network. Marketing, management en economie vormen zijn aandachtgebieden. Bij het Mulier Instituut leidt hij wetenschappelijke en commerciële onderzoeksprojecten, met name op het gebied van sportevenementen(beleid), de Olympische en Paralympische Spelen, big data, fitness, wielrennen, hardlopen en atletiek.
Reinout Moes is student Sociology en Social Research aan de universiteit Utrecht. Tijdens zijn stage bij het Mulier Instituut was hij betrokken bij het project dat ontwikkelingen in big data onderzocht en de mogelijkheden ervan voor breedtesportonderzoek. Binnen zijn masteronderzoek houdt hij zich bezig met de vraag hoe in teams waarin mensen afhankelijk zijn van elkaar, individuele bijdragen aan teamuitkomsten gemeten kunnen worden.