De Amerikaanse Association for Computing Machinery ACM geeft Pieter Abbeel de ACM Prize in Computing 2021. De Vlaming, nu professor aan de universiteit van Berkeley (VS) en medeoprichter van AI-roboticabedrijf Covariant, kreeg de prijs vanwege zijn bijdragen aan de manier waarop robots leren, waaronder leren van demonstraties en deep learning voor robotbesturing.
Abbeel was een pionier in het onderwijzen van robots aan de hand van menselijke voorbeelden (‘apprenticeship learning’) en door hun eigen vallen en opstaan (‘reinforcement learning’), die de basis hebben gevormd voor de volgende generatie robotica.
In het begin van zijn carrière ontwikkelde Abbeel nieuwe leertechnieken die robotmanipulatie aanzienlijk verbeterden. Naarmate het veld volwassener werd, konden onderzoekers robots programmeren om starre objecten zoals houten blokken of lepels waar te nemen en te manipuleren. Het programmeren van robots om vervormbare objecten te gebruiken, zoals stof, bleek echter moeilijk omdat de manier waarop zachte materialen bewegen bij aanraking moeiljik voorspelbaar is. Abbeel introduceerde nieuwe methoden om de visuele waarneming van robots, op fysica gebaseerde tracking, controle en leren van demonstratie te verbeteren. Door deze nieuwe methoden te combineren, ontwikkelde hij een robot die in staat was om kleding te vouwen – een verbetering ten opzichte van bestaande technologie die destijds als een belangrijke mijlpaal werd beschouwd.
Hij ontwikkelde ook robots die chirurgische hechtingen kunnen uitvoeren, objecten kunnen detecteren en hun trajecten kunnen plannen in onbekende situaties. Meer recentelijk heeft hij een pioniersrol vervuld bij ‘few-shot imitation learning’, waarbij een robot in staat is om een taak uit te voeren op basis van slechts één demonstratie nadat hij vooraf is getraind met een groot aantal demonstraties van gerelateerde taken.
Een ander bijzonder veelbelovend gebied waar Abbeel een belangrijke bijdrage heeft geleverd, is deep reinforcement learning (diep versterkend leren) voor robotica. Reinforcement learning is een gebied van machine learning waarbij een agent (bijvoorbeeld een computerprogramma) streeft naar een beloning (bijvoorbeeld het winnen van een spel). Vroege leerprogramma’s konden alleen eenvoudige taken uitvoeren. De innovatie van het combineren van versterkend leren met diepe neurale netwerken luidde het nieuwe veld van diep versterkend leren in, dat veel complexere problemen kan oplossen dan computerprogramma’s die zijn ontwikkeld met alleen versterkend leren.
Abbeels belangrijkste baanbrekende bijdrage op dit gebied was de ontwikkeling van de leermethode Trust Region Policy Optimization die het leerproces stabiliseert, waardoor robots een reeks gesimuleerde besturingsvaardigheden kunnen leren. Door zijn resultaten te delen, videotutorials te plaatsen en open source-code uit zijn laboratorium vrij te geven, hielp Abbeel een gemeenschap van onderzoekers op te bouwen die sindsdien deep learning voor robotica nog verder heeft gestimuleerd – met robots die steeds ingewikkelder taken uitvoeren.
Abbeel heeft nog meer baanbrekende bijdragen geleverd, waaronder:
- generalized advantage estimation (algemene schatting van de voordelen), waardoor het leren van de eerste 3D-robotbeweging mogelijk werd gemaakt;
- soft-actor criticic, dat tot nu toe een van de meest populaire leeralgoritmen voor diepe versterking is;
- domain randomization, die laat zien hoe leren over op de juiste manier gerandomiseerde simulatoren verrassend goed kan worden gegeneraliseerd naar de echte wereld;
- en hindsight experience replay, dat instrumenteel is geweest voor diepgaand versterkend leren in schaarse belonings-/doelgerichte omgevingen.
"Het leren van robots kan leiden tot grote vooruitgang in veel sectoren – van chirurgie en productie tot verzending en geautomatiseerd rijden", zegt ACM-voorzitter Gabriele Kotsis. "Pieter Abbeel is een erkend leider onder een nieuwe generatie onderzoekers die de nieuwste machine learning-technieken gebruiken om een revolutie teweeg te brengen in dit veld. Abbeel heeft baanbrekende onderzoeksbijdragen geleverd, terwijl hij ook genereus zijn kennis heeft gedeeld om een gemeenschap van collega’s op te bouwen die werken om robots naar een opwindend nieuw niveau van bekwaamheid te brengen. Zijn werk is een voorbeeld van de bedoeling van de ACM Prize in Computing om uitmuntend werk te erkennen met ‘diepte, impact en brede implicaties’."
De ACM Prize in Computing erkent computerwetenschappers van begin tot midden in hun carrière wiens onderzoeksbijdragen een fundamentele impact en brede implicaties hebben. De prijs omvat een geldbedrag van 250.000 dollar van een schenking van Infosys Ltd.