Nieuw netwerkmodel leert gebeurtenissen uit verleden te onthouden

Het is bekend hoe neuronen, de kleinste rekeneenheden van het brein, zich gedragen als ze taken uitvoeren, maar het is onbekend hoe het brein leert om efficiënt keuzes te maken, vooral wanneer voor die keuze informatie uit het werkgeheugen van de hersenen nodig is.

In zijn proefschrift onderzoekt Jaldert Rombouts, promovendus in de life sciences groep aan het Centrum Wiskunde & Informatica (CWI) in Amsterdam, neurale netwerken – modellen geïnspireerd op de werking van de hersenen – en in het bijzonder de wijze waarop neurale netwerken ‘getraind’ kunnen worden via beloning en straf. De onderzoeker ontwikkelde een biologisch plausibel neuraal netwerkmodel dat kan leren relevante gebeurtenissen uit het verleden te onthouden om deze in een later stadium toe te passen. De uitkomsten van zijn onderzoek zijn relevant voor de ontwikkeling van zelflerende systemen.

Voor het bouwen van zijn model gebruikte Rombouts inzichten uit de neurowetenschappen en theoretische principes uit de machine learning, zoals ‘Temporal Difference Learning’. Deze theorie staat sinds eind jaren negentig sterk in de belangstelling omdat het wiskundige principes verbindt aan observaties in de hersenen. Onder bepaalde condities kan hiermee worden voorspeld wat er in de hersenen gebeurd.

Beloning en straf

Voor het aanleren van ingewikkeld gedrag legde Rombouts in zijn onderzoek een relatie met de wijze waarop dieren worden getraind. Door toepassing van een simpele leertechniek als ‘belonen’ en ‘straffen’ kunnen neurale netwerken ook ingewikkeld gedrag leren en onthouden welke informatie nuttig en niet nuttig is. "Een telefoon kun je trainen om zijn belvolume aan te passen aan de omstandigheden door hem te ‘belonen’ door op te nemen of te ‘straffen’ door dit niet te doen", zegt Rombouts. "Zo kan gedrag worden bijgestuurd in de juiste richting." Rombouts ziet veel praktische toepassingen voor zelflerende systemen. Programmeren is een van de duurste componenten in productontwikkeling. "Als zelflerende systemen in de toekomst in producten worden toegepast levert dat grote kostenvoordelen op."

Jaldert Rombouts verdedigt zijn proefschrift "Biologically Plausible Reinforcement Learning" 4 september 2015 aan de Vrije Universiteit van Amsterdam. Promotoren zijn prof. Pieter Roelfsema (Nederlands Herseninstituut) en dr. Sander Bohte (CWI).