Subsidie voor het ‘minen’ van wetenschappelijke teksten

Taaltechnoloog Antal van den Bosch ontvangt een subsidie van 170 duizend euro voor onderzoek naar wetenschappelijke teksten en de uitwisseling van wetenschappelijke gegevens tussen wetenschapsgebieden. Motto van het project is ‘we are drowning in information, but starved for knowledge’. Oftewel: er zijn heel veel wetenschappelijke data die nu niet met elkaar in verband gebracht worden. Als dat wel zou gebeuren zou dat tot nieuwe inzichten kunnen leiden.

De subsidie komt uit het EU-programma Horizon 2020 als onderdeel van het project ‘FutureTDM: Scientific Information in the Digital Age’. In het project gaat de Radboud universiteit inventariseren wat de stand van zaken is op het gebied van zogeheten ‘text & data mining’ en hoe daar in de toekomst meer gebruik van kan worden gemaakt binnen de wetenschap, en ook in commerciële toepassingen.

Nieuwe inzichten voor de specialist

Van den Bosch legt uit waarom dit voor de wetenschap relevant is: "Een specialist kan niet veel meer bijhouden dan wat er in zijn eigen specialisme gebeurt. Maar je kunt vaak meer met onderzoeksdata doen dan je denkt. Verbanden leggen met heel andere onderzoeksdata, bijvoorbeeld. En dat hoeft niet alleen via de ruwe data, er kunnen ook verbanden worden gelegd via de teksten van de wetenschappelijke artikelen die over die data worden geschreven."

Van den Bosch, verbonden aan het Centre for Language Studies van de Radboud Universiteit, geeft het voorbeeld van een ontdekking op basis van een handvol titels van artikelen uit de biomedische wetenschappen. Door beweringen in titels over ontdekkingen uit de medische wetenschap, de psychologie en de biochemie kon een nieuw verband worden gelegd tussen bepaalde soorten migraine en magnesiumtekort dat niet eerder was vermoed.

Text mining is een methode die werkt voor alle wetenschappen. De Europese Unie ziet grote mogelijkheden om met deze methode wetenschappelijke doorbraken te realiseren en daarmee onderzoek in de EU een extra voordeel te geven.