Wat is de kwaliteit van big data?

Onderzoekers aan de ITC-faculteit van de Universiteit Twente hebben een methode ontwikkeld om de kwaliteit van vrijwillig aangeleverde data efficiënt in kaart te brengen en deze data zo voor wetenschappers bruikbaar te maken. De onderzoekers hebben onlangs de resultaten gepubliceerd in het multidisciplinaire wetenschappelijke vakblad Plos One.

Naarmate de toepassingen van online informatie en locatiebewuste technologieën verder toenemen, komen er ook voor onderzoeksdoeleinden steeds meer data beschikbaar. Gegevens die door vrijwilligers of wetenschappers in hun vrije tijd verzameld worden vormen een belangrijke bron voor de analyse van geografische verschijnselen zoals de invloed van klimaatverandering op de biologische cyclus van planten en dieren. Dit werkt echter alleen als de data kunnen worden beoordeeld op kwaliteit.

De methode van de onderzoekers werd toegepast op langlopende registraties van vrijwillig aangeleverde waarnemingen met betrekking tot de bloei en het bladhouden van planten [1]. Hiervoor hebben de ITC-onderzoekers samengewerkt met het Amerikaanse National Phenology Network (USANPN). Ze publiceerden eerder dit jaar een op kwaliteit gecontroleerde dataset in Nature Scientific Data [2].

Big data: steeds grotere dataverzamelingen

Verbeteringen in de online communicatie van informatie en in mobiele locatiebewuste technologie hebben de laatste jaren geleid tot een spectaculaire toename van de hoeveelheid vrijwillig aangeleverde geografische informatie (VGI). Het vrijwillig verzamelen van data over geografische verschijnselen kent wereldwijd een rijke geschiedenis. Aan de hand van de Christmas Bird Count, bijvoorbeeld, werd de invloed van klimaatverandering op de verspreiding en de populatieontwikkeling van een aantal geselecteerde vogelsoorten in Noord-Amerika sinds 1900 bestudeerd. Vandaag de dag zijn er diverse burgerinitiatieven om data te verzamelen over het milieu. Deze i

nformatie vormt een goede en soms noodzakelijke aanvulling om een groot scala aan geografische problemen aan te pakken.

Zorgen om kwaliteit

VGI wordt in de wetenschap breed gedragen en toegepast, maar toch stellen veel onderzoeken dat de kwaliteit van de waarnemingen een zorgpunt blijft. Data worden vaak door vrijwilligers niet volgens het wetenschappelijk steekproefprincipe verzameld, en ook de mate van deskundigheid van de vrijwilligers kan variëren. Hierdoor vinden wetenschappers het moeilijk VGI in hun onderzoek te integreren.

Slechte kwaliteit en tegenstrijdige waarnemingen kunnen analyse- en modelleringsresultaten beïnvloeden omdat zij niet representatief zijn voor de onderzochte variabele, of omdat ze de signaal/ruis-verhouding verslechteren. Op VGI gefundeerde toepassingen hebben dus duidelijk baat bij herkenning van tegenstrijdige waarnemingen en de wetenschappelijke wereld krijgt zo robuustere datasets.

Identificeeren van tegenstrijdigheden in vrijwillig aangeleverde data

Onderzoekers beschrijven een nieuwe automatische workflow waarmee tegenstrijdigheden in VGI geïdentificeerd kunnen worden. "Het gebruik van een digitaal controlemechanisme betekent dat we waarde kunnen toekennen aan de miljoenen waarnemingen van vrijwilligers" en "het schept ruimte voor een nieuw type wetenschap waarin burgers direct kunnen bijdragen aan de analyse van wereldwijde problemen als dr. Raul Zurita-Milla, werkzaam op de afdeling Geo-informatieverwerking van ITC.

De workflow hangt af van de beschikbaarheid van informatie binnen de context en is gebaseerd op een combinatie van afname van de dimensionaliteit, clustering en het opsporen van afwijkende waarden. In het artikel in Plos One wordt de workflow nader toegelicht aan de hand van door Noord-Amerikaanse vrijwilligers verzamelde waarnemingen van het tijdstip waarop de eerste bloem aan de sering verscheen. De historie van deze waarnemingen gaat vrij ver terug – vrijwilligers zijn al in de jaren vijftig van de vorige eeuw begonnen deze data te verzamelen, zoals te lezen is in het artikel in Nature Scientific Data – en ze worden op verschillende manieren gebruikt: ter ondersteuning van de planning en uitvoering van diverse agronomische praktijken, tot aan het bestuderen van de omvang en richting van klimaatverandering op continentaal niveau.

Hoewel sommige tegenstrijdige waarnemingen daadwerkelijke maar ongebruikelijke gebeurtenissen weergeven, hebben de onderzoekers aangetoond dat deze waarnemingen de ontwikkelingen (het voortschrijdingstempo) vertekenen van de datum waarop de sering in bloei schiet. Dit toont aan dat herkenning van tegenstrijdige waarnemingen een voorwaarde is voor de bestudering en interpretatie van de invloed van klimaatverandering op het tijdstip van gebeurtenissen in de levenscyclus.

Meer informatie over de publicaties: 

1. Mehdipoor H, Zurita-Milla R, Rosemartin A, Gerst KL, Weltzin JF. Developing a Workflow to Identify Inconsistencies in Volunteered Geographic Information: A Phenological Case Study. PLoS ONE. 2015; 10(10):e0140811. doi: 10.1371/journal.pone.0140811

2. Rosemartin AH, Denny EG, Weltzin JF, Lee Marsh R, Wilson BE, Mehdipoor H, e.a. Lilac and honeysuckle phenology data 1956-2014. Sci Data. 2015;2:150038. doi: 10.1038/sdata.2015.38