Materiaal dat luistert: doorbraak in spraakherkenning door UT, IBM en Toyota

Spraakherkenning zonder zware software of energieverslindende processors: onderzoekers van de Universiteit Twente presenteren samen met IBM Research Europe en Toyota Motor Europe een compleet nieuwe aanpak. Hun chips laten het materiaal zelf ‘luisteren’.

Bovenste deel van een visuele uitleg. De gehele afbeelding is onderaan het artikel te vinden

De publicatie is verschenen in Nature.

Tot nu toe verliep spraakherkenning via cloudservers en complexe software. De Twentse onderzoekers laten zien dat dit anders kan. Ze koppelden een Reconfigurable Nonlinear Processing Unit (RNPU), ontwikkeld aan de UT, aan een nieuwe IBM-chip. Die combinatie verwerkt geluid net zo vloeiend en dynamisch als het menselijk oor en brein. In testen bleek deze aanpak minstens zo nauwkeurig als de beste softwaremodellen – soms zelfs beter.

Sneller, zuiniger, veiliger

De impact kan groot zijn: gehoorapparaten die nauwelijks energie verbruiken, spraakassistenten die geen data meer naar de cloud sturen, of auto’s met directe spraakbesturing. “Dit is een nieuwe manier van denken over intelligentie in hardware,” zegt prof. Wilfred van der Wiel. “We laten zien dat het materiaal zelf kan worden getraind om te luisteren.”

De technologie is niet alleen toepasbaar op spraak, maar kan in principe elk tijdafhankelijk signaal verwerken. Video, beeld of data van sensoren zijn net zulke goede voorbeelden. Denk aan sensoren die continu metingen doen en daarbij ook zelfstandig kunnen handelen. Apparaten hoeven dan niet om de haverklap een nieuwe batterij, of voortdurend afhankelijk te zijn van een internetverbinding. Een groot deel van de rekentaken kan lokaal en energiezuinig worden uitgevoerd. Dat maakt apparaten slimmer en zelfstandiger.

Daarnaast kan de technologie worden ingezet om zware AI-taken te versnellen. Bepaalde onderdelen van complexe algoritmes zouden direct in de materialen zelf verwerkt kunnen worden, waardoor conventionele chips worden ontlast. Daarmee ontstaat een hybride aanpak: klassieke digitale circuits werken samen met in-materia componenten die specifieke taken veel sneller en zuiniger uitvoeren.

Van lab naar praktijk

Van der Wiel hoopt dat de technologie niet alleen bij publicaties blijft. “Mijn droom is dat onze chips hun weg vinden naar echte toepassingen, zoals gehoorapparaten. Een onderdeel van zo’n apparaat zou dan gebaseerd zijn op onze technologie.”

Dat dit mogelijk is, heeft te maken met de gebruikte materialen. De chips zijn gebaseerd op standaard silicium en functioneren bij kamertemperatuur. Daardoor is het goed denkbaar dat ze in bestaande halfgeleiderfabrieken kunnen worden geproduceerd. “Dat maakt opschaling naar praktische toepassingen veel realistischer,” aldus Van der Wiel.

Figuur uit Nature: a, When two frequencies f1 and f2 (f2 > f1) enter the human ear, distortion products, such as 2f1 − f2 are generated due to nonlinear active feedback in the cochlea52. Hair cells connected to the auditory nerve endings (1 to n) convert the incoming time-domain acoustic signal into frequency-domain electrical spike-encoded information (features) to be further processed (classified) by the brain. b, Time-frequency digital processing. After analogue-to-digital conversion (ADC), frequency decomposition by a feature-extracting model F(f(t)), such as Lyon’s artificial cochlea model53, is required before classification. c, Time-domain digital processing. Top, in addition to classification, a neural network performs feature extraction by learning (band-pass) filters in the time domain. Bottom, an analogue filterbank extracts frequency features directly from the time-domain analogue signal before classification. d, Reservoir computing. After feature extraction in the time (top) or frequency (bottom) domain, the preprocessed data are used as inputs (in1,…, inN) to a reservoir that increases the dimensionality (represented by φ), simplifying classification. e, Time-domain analogue processing (this work). Reconfigurable nonlinear-processing units (RNPUs) extract temporal features, simplifying classification without the need for extra preprocessing. An analogue in-memory computing (AIMC) chip based on a memristive crossbar array performs the classification.

Uitgelichte vacatures

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *