Robot-topchef leert het vak van Youtube-kookvideo’s (video)

Wat is de beste manier om systemen met kunstmatige intelligentie iets te leren over de wereld? Via het internet natuurlijk. Met de populaire ‘deep learning’ programeertechniek voeden computerwetenschappers de volgende generatie AI met een permanent dieet van online beelden en video’s.

Het lijkt een beetje op de scene in de Matrix waarin Neo rechtstreeks kung fu in zijn brein download. Deep-learning programma’s absorberen snel grote hoeveelheden data en leren daarvan. Natuurlijk, de film is fictie, maar het leerconcept zeker niet.

Bij computervision bijvoorbeeld leren programma’s die zijn gevoed met duizenden beelden om daarin zelfstandig individuele componenten te isoleren en identificeren. En terwijl je in een bureaula hoogstwaarschijnlijk niet zult stuiten op tienduizenden foto’s van – bijvoorbeeld – katten, staat het web er vol mee. Een vruchtbare bodem voor jonge, beïnvloedbare programma’s.

Bewegend beeld

En nu gaan de artificial intelligence wetenschappers van foto’s over naar het domein van het bewegend beeld. Onderzoekers van de University of Maryland trainden onlangs deep learning software met 88 Youtube kookvideo’s. Na het opslorpen van de video’s leerde de software om eenvoudige culinaire taken uit te voeren en dat om te zetten in commando’s voor een robotarm.

Hoe werkt dat? Het programma isoleert de handen in de video’s en wijst een van de zes mogelijke grijpposities toe. Het identificeert voorwerpen en classificeert die als één van 48 mogelijke voedingsproducten of keukengereedschappen. Ten slotte identificeert het de actie die wordt uitgevoerd en dan wordt dat alles gecombineerd in een commando dat kan worden uitgevoerd door een robotarm met grijper.

Hoewel het om eenvoudige taken gaat, is het niet makkelijk om met Youtube-beelden iets te leren aan de software. Door variaties op de achtergrond en ruis is het moeilijk de essentiële delen uit het beeld op te pikken, Om de nauwkeurigheid verder te verbeteren berekent het programma de meest waarschijnlijke actie door associatie met werkwoorden en zelfstandige naamwoorden in de video.

In een test bleek de deep learning software in staat om objecten nauwkeurig te herkennen en classificeren. Ook lukte het om de videobeelden te gebruiken om voor verschillende acties commando’s te genereren voor een robotarm.

Volledig intelligente robot

"We geloven dat deze voorlopig geïntegreerde systemen de aanzet kunnen vormen voor een volledig intelligente robot voor manipulatiedoeleinden, die automatisch zijn eigen kennis kan verrijken door te kijken naar beelden op het internet", schreven de onderzoekers in een artikel over het project.

Zoals zij al laten zien zou de techniek goed kunnen worden gebruikt om te koken. Youtube staat al vol met kookinstructiefilmpjes. Maar robots kunnen ook leren om de afwas te doen en de was te vouwen. Landbouwrobots kunnen leren om fruit te plukken.

Natuurlijk kun je niet alles leren van Youtube. Voorlopig kiezen de onderzoekers de acties die moeten worden geleerd en de video’s die daarvoor het geschiktst zijn. En als de hoeveelheid online-informatie toeneemt, kunnen toekomstige robots worteltjes en komkommers professioneel snijden – of kung fu leren, of drummen. Alleen maar door naar Youtube te kijken