Googelen in audio

Zoeken en vinden in audio-archieven kan beter als we met een andere blik naar de achterliggende techniek kijken en rekening houden met de manier waarop de resultaten worden gebruikt. Dit geeft meer zicht op de problemen en de verebeterpunten. Dit toonde Laurens van der Werff aan in zijn promotieonderzoek ‘Evaluation of Noisy Transcripts for Spoken Document Retrieval’, waarop hij 5 juli promoveert aan de Universiteit Twente.

Het onderzoek van Van der Werff is uitgevoerd binnen het project CHoral, dat zich richt op het toegankelijk maken van gesproken geluidsmateriaal uit het verleden. Nederlandse archieven en andere erfgoedinstellingen beheren vele honderdduizenden uren aan audiomateriaal. Denk aan interviews met getuigen van een bijzondere gebeurtenis, maar bijvoorbeeld ook alle uitzendingen van de landelijke en regionale omroeporganisaties.
Wanneer dit unieke audiomateriaal goed is ontsloten, levert dat een waardevolle bijdrage aan onderzoek op het gebied van (streek)taalgebruik, (regionale) politiek en geschiedenis. CHoral is één van achttien projecten uit het NWO-onderzoeksprogramma CATCH (Continuous Access to Cultural Heritage), dat met een totaalbudget van ruim 15 miljoen euro werkt aan de toegankelijkheid van Nederlands cultureel erfgoed.

Betere evaluatie van transcripties

Automatische spraakherkenning biedt in combinatie met zoektechnologie de mogelijkheid geluidsbestanden te doorzoeken: het gesproken woord wordt omgezet in een uitgeschreven tekst (transcriptie), die je vervolgens ‘gewoon’ kan doorzoeken. In vele onderzoekslabs wordt wereldwijd hard gewerkt om de kwaliteit van automatische spraakherkenning te verbeteren. Deze verbeteringen leveren echter bij toepassing in zoeksystemen – en zeker bij erfgoedcollecties – niet altijd een maximaal rendement.

Voor deze situatie stelde Van der Werff een nieuwe manier voor om de kwaliteit van automatisch gegenereerde transcripties te evalueren, waarbij beter rekening wordt gehouden met de manier waarop historici en andere eindgebruikers de zoekresultaten willen toepassen. Dit biedt de mogelijkheid om beter te analyseren waar problemen optreden en geeft aanknopingspunten voor optimalisatie. Vanwege het beperkte referentiekader in de erfgoedsector waarop optimalisaties kunnen worden gebaseerd, is dit een zeer welkome stap vooruit.

Specifieke uitdagingen van erfgoedmateriaal

Het audiomateriaal in erfgoedcollecties heeft een aantal bijzondere eigenschappen. Behalve dat veel geluidsbanden niet gedigitaliseerd zijn, zijn ze meestal niet handmatig getranscribeerd en hebben ze geen, of alleen oppervlakkige, metadata. Bovendien gaat het veelal om opnames van niet-professionele sprekers met veel omgevingsgeluiden. En veel van die sprekers komen slechts in één fragment voor, waardoor er voor een computer niet veel trainingsmateriaal beschikbaar is – een typisch probleem binnen het cultureel erfgoed dat wordt versterkt door het kleine taalgebied van het Nederlands. Daar komt nog bij dat deze erfgoeddata meestal op zeer specifieke wijze worden gebruikt. Door al deze bijzondere kenmerken kan bijvoorbeeld een aanpak die goed werkt op nieuwsdata, niet klakkeloos worden toegepast op dit unieke materiaal.

Toepassingen van de geoptimaliseerde technologie

De technieken uit het CHoral-project werden onder meer toegepast op collecties van het Gemeentearchief Rotterdam (uitzendingen Radio Rijnmond; website ‘Brandgrens’ met getuigenverhalen over het bombardement op Rotterdam), het NIOD (Radio Oranje met toespraken van Koningin Wilhelmina tijdens WOII; getuigenissen van overlevenden uit Buchenwald) en het interview-archief van Aletta/IAVV.

Ook liggen de kennis en technieken uit CHoral mede aan de basis van het open source spraakherkenningspakket SHoUT (Universiteit Twente), dat werd doorontwikkeld binnen het CATCH-implementatietraject CATCHPlus. Hiermee kan in principe elk archief nu zijn audiobronnen toegankelijk maken, zonder dat het daarvoor eigen specialisten in huis hoeft te hebben. SHoUT wordt al ingezet bij de landelijke website Verteld Verleden, van waaruit in de toekomst alle audio-bronnen in Nederland te benaderen zullen zijn.

Meer informatie: www.nwo.nl/catch en www.nwo.nl/catch/choral

Laurens van der Werff promoveert aan de Universiteit Twente op 5 juli, Gebouw Waaier, 16.45 uur. Promotor: prof. dr. F.M.G. de Jong, Instituut Human Media Interaction, faculteit Elektrotechniek, Wiskunde en Informatica.

Voorafgaand aan deze promotie vindt een symposium plaats over het zoeken door spraak. Meer informatie: http://hmi.ewi.utwente.nl/searching-speech/.