Bij edge AI draait het om performance per watt

Al decennialang worden verbeteringen op het gebied van rekenkracht gemeten in termen van piekprestaties: meer Trillion Operations Per Second (TOPS), hogere doorvoersnelheid, snellere uitvoering. Die methodiek is nog steeds aan de orde bij toepassingen in datacenters, waar stroomvoorziening en koeling kunnen worden aangepast aan de vraag naar extra rekenkracht. Aan de edge gaat dat echter niet op.

Door: Michaël Uyttersprot, Market Segment Manager Artificial Intelligence en Vision bij Avnet Silica.

Edge AI-implementaties moeten vaak functioneren onder veeleisende omstandigheden. Industriële systemen kunnen te maken hebben met hoge omgevingstemperaturen, stof of trillingen. Implementaties met onder meer slimme camera’s, industriële pc’s en embedded systemen bevinden zich vaak buiten, waar de omstandigheden sterk variëren. Mobiele platforms zoals robots moeten werken binnen beperkte energiebudgetten en tegelijkertijd gedurende lange perioden consistent presteren.

Deze beperkingen hebben direct invloed op de vraag of een systeem kan worden ingezet en hoe het presteert tijdens gebruik. Een systeem dat zijn thermische limieten overschrijdt, zal gaan vertragen en in extreme gevallen uitvallen. Een platform dat veel stroom verbruikt, vereist mogelijk actieve koeling, een grotere behuizing en/of voedingen met een hogere capaciteit, wat het minder geschikt maakt voor veel edge-implementaties. In beide gevallen is er sprake van minder consistent presteren, veelal uitgedrukt als hogere of onvoorspelbare latency. Dit kan de veiligheid, coördinatie of productkwaliteit in realtime toepassingen negatief beïnvloeden.

Krappe ontwerpmarges

Als gevolg van de beperkingen van edge AI-implementaties werken systeemontwerpers binnen een krappe operationele marge:

  • De eisen voor latency liggen vaak onder de 100 ms voor realtime waarneming en besturing.
  • Qua betrouwbaarheid is een vereiste uptime van 99,999 % in productieomgevingen niet ongebruikelijk.
  • Afhankelijk van voeding via PoE of batterij dan wel ingebouwde beperkingen moet er doorgaans met 5 tot 20 W aan vermogen worden gewerkt.
  • De voorkeur gaat uit naar passieve koeling, waarbij de warmteontwikkeling dusdanig onder de knie kan worden gehouden dat de junctietemperatuur onder de 85 °C blijft.

Daarbij is het de uitdaging om gedurende de hele levenscyclus van de AI-implementatie binnen deze grenzen te blijven, zonder grote afwijkingen.

Bij edge AI draait het niet alleen om de TOPS

Een processor die hoge piekprestaties kan leveren, is niet per se geschikt voor edge-implementatie als die prestaties afhankelijk zijn van vermogen, koelcapaciteit of thermische ruimte die het doelsysteem niet kan bieden. In de praktijk is de relevante vraag niet hoe snel een processor onder ideale omstandigheden kan draaien, maar of die prestaties betrouwbaar kunnen worden volgehouden in de beoogde bedrijfsomgeving.

Dit geldt met name wanneer:

  • Het energieverbruik de systeemlimieten overschrijdt.
  • Actieve koeling of omvangrijke thermische voorzieningen zijn vereist.
  • De prestaties niet kunnen worden volgehouden onder reële bedrijfsomstandigheden.

Systemen die zijn ontworpen op basis van de piekprestaties krijgen vaak te maken met secundaire uitdagingen bij de implementatie. Thermisch beheer wordt complexer, waardoor extra componenten en potentiële storingsfactoren worden geïntroduceerd. Het energieverbruik verhoogt de bedrijfskosten op de lange termijn. In sommige gevallen moeten workloads worden overgedragen naar de cloud, wat leidt tot vertraging en afhankelijkheid van netwerkconnectiviteit.

Performance definiëren in termen van efficiëntie

Om edge-AI-platforms effectief te evalueren, moet naast de rekenprestaties ook rekening worden gehouden met de middelen die nodig zijn om deze te realiseren. Performance per watt is hiervoor een betere maatstaf. Op basisniveau geeft performance per watt weer hoe efficiënt een systeem elektrische energie omzet in bruikbare rekenkracht. Belangrijker nog is dat het een praktische manier biedt om architecturen te vergelijken op basis van SWaP-C (omvang, gewicht, stroomverbruik en kosten). Dit zijn de belangrijkste beperkingen die bepalen of een edge-AI-systeem haalbaar is in de praktijk.

Een systeem met een hogere performance per watt kan: 

  • Een consistente doorvoersnelheid leveren binnen een vast stroombudget.
  • Werken binnen strengere thermische limieten zonder terugval in prestaties (‘throttling’).
  • De behoefte aan actieve koeling verminderen of elimineren.
  • Implementatie mogelijk maken in omgevingen waar stroom en ruimte beperkende factoren zijn.

In de praktijk bepaalt efficiëntie vaak of een systeem überhaupt kan worden ingezet.

Implicaties op systeemniveau

De focus op performance per watt heeft implicaties die verder reiken dan de processor zelf en die het ontwerp en het gedrag van het gehele systeem bepalen. Een lager stroomverbruik vermindert de warmteontwikkeling, wat op zijn beurt het thermisch beheer vereenvoudigt. Ontwerpen zonder ventilator worden hierdoor praktisch haalbaar, waardoor de betrouwbaarheid toeneemt doordat er wat dat betreft geen bewegende onderdelen zijn die vaak een bron van storing zijn in industriële hardware. Lagere thermische belasting kan ook de gemiddelde tijd tussen storingen (MTBF) verbeteren, waardoor de levensduur van het product wordt verlengd en de behoefte aan kostbaar onderhoud ter plaatse wordt verminderd. Systemen kunnen worden afgedicht tegen stof en vocht, waardoor ze geschikt zijn voor ruwere omgevingen.

AI-architecturen met een lager stroomverbruik verminderen thermische belasting, waardoor ventilatorloze edge-ontwerpen mogelijk worden met betere betrouwbaarheid, een langere MTBF en lagere onderhoudsvereisten.

Consistent thermisch gedrag leidt ook tot beter voorspelbare prestaties. Wanneer een processor binnen zijn thermische limieten werkt, blijft de latency stabiel en deterministisch. Dit is een belangrijke vereiste voor realtime besturingssystemen en veiligheidskritische toepassingen. Energie-efficiëntie heeft ook invloed op de kosten op de lange termijn. Systemen die minder stroom verbruiken, hebben minder koeling nodig en brengen lagere exploitatiekosten met zich mee gedurende hun levensduur. Bij grootschalige implementaties lopen deze verschillen snel op.

Benchmarken op basis van performance per watt

Deze principes zie je nu terug bij opkomende edge-AI-architecturen, waarbij benchmarkgegevens steeds vaker de performance per watt als onderscheidende factor benadrukken. Zo heeft DEEPX zijn DX-M1 AI-chip vergeleken met enkele meer krachtige CPU-architecturen en een meer traditionele general purpose CPU bij het draaien van YOLOv7. You Only Look Once versie 7 is een AI-gebaseerd realtime objectdetectiemodel voor het herkennen, lokaliseren en labelen van objecten op live videobeelden. Omdat het model zeer complex is, wordt het veel gebruikt om te bewijzen hoe energie-efficiënt een nieuwe AI-chip of NPU presteert onder uitdagende omstandigheden.

Uit de benchmark-test komen aanzienlijke verschillen naar voren tussen de voor efficiëntie geoptimaliseerde DX-M1 en de architecturen die primair zijn ontworpen voor piekberekeningen. Waar de NPU-architectuur van de DX-M1 40 frames per seconde per watt (FPS/W) haalt, komen de twee CPU-architecturen tot ongeveer de helft; de general purpose CPU blijft steken op 2. Ook de efficiëntie van de verwerking (FPS/TOPS) is in het voordeel van de component van DEEPX: 8 ten opzichte van 4, 0,8 respectievelijk 1,3. De DX-M1 trekt 2-3 W aan vermogen voor deze taak, waar de CPU’s er 5 W respectievelijk 4-8 W voor nodig hebben. De general purpose CPU zakt hier door het ijs met 40 W.

Module met de DEEPX DX-M1-chip.

Het lage stroomverbruik van de voor efficiëntie geoptimaliseerde architectuur maakt het mogelijk om systemen te ontwerpen die binnen thermische limieten moeten blijven zonder actieve koeling, zelfs bij aanhoudende werkbelastingen. Een lager stroomverbruik vermindert thermische belasting en helpt bij het handhaven van een stabiele werking gedurende langere perioden, waardoor de prestaties voorspelbaarder worden, met name in omgevingen waar de omstandigheden variëren. Deze opkomende, voor AI geoptimaliseerde architecturen maken het mogelijk om AI-verwerking te integreren in een breder scala aan edge-systemen, inclusief implementaties waar stroom, koeling en ruimte zeer beperkt zijn.

Ontwerpen voor omgevingen met beperkingen

Naarmate edge-AI zich verder uitbreidt naar industriële systemen, robotica en gedistribueerde infrastructuur, sluiten de criteria voor het evalueren van prestaties steeds beter aan bij de realiteit van de implementatie. Ontwerpbeslissingen worden in toenemende mate gedreven door vragen als:

  • Kan het systeem functioneren binnen een vast stroombudget?
  • Blijft de prestatie stabiel in de loop van de tijd en bij verschillende temperaturen?
  • Kan het ontwerp worden vereenvoudigd om de betrouwbaarheid te verbeteren en het onderhoud te verminderen?

In veel gevallen wegen deze eisen zwaarder dan absolute rekenkracht. Via zijn partnerschap met DEEPX helpt Avnet Silica klanten bij het maken van de afweging tussen rekenkracht en efficiëntie. Het biedt hiervoor technische expertise om AI-geoptimaliseerde architecturen zoals de DX-M1 af te stemmen op praktische beperkingen op het gebied van stroomverbruik, thermische eigenschappen en integratie. Door efficiëntie als uitgangspunt te nemen bij het kiezen van de architectuur sla je de goede weg in naar een betrouwbaar werkende edge AI-implementatie.

Contactgegevens
AdresStadionstraat 2- 6th floor
Postcode en plaats
4815 NG Breda
Telefoon076-5722700
Meer informatieInformatie aanvragen

⚠️ Geen vacatures gevonden.

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *