Pagerank algoritme onthult voetbalstrategie

Door met behulp van netwerktheorie de prestaties van voetbal-teams en -spelers te analyseren, wordt een uniek inzicht verkregen in de strategie van ‘s werelds beste voetbalteam.

In de finale van de Europese voetbalkampioenschappen verpletterde Spanje een vermoeid Italiaans team met 4-0. Het was voor Spanje het derde achtereenvolgende kampioenschap en het elftal kan daardoor worden gekwalificeerd als een van de sterkste in de geschiedenis. Maar wat maakt Spanje nou zo goed? Fans, deskundigen en sportjournalisten wijzen allemaal op de befaamde Spaanse strategie van snel en nauwkeurig overspel, de tiki-taka stijl. Het is een plezier om naar te kijken, maar het blijkt moeilijk te beschrijven en definiëren.

Netwerktheorie 

Maar dat zou kunnen gaan veranderen. Javier Lopez Peña van het University College London en Hugo Touchette van de Queen Mary University in  London presenteerden een geheel nieuwe manier om de prestaties van voetbalteams en -spelers te analyseren en karakteriseren. Daarvoor gebruiken zij netwerktheorie. Zij zeggen dat hun benadering een kwantificeerbare representatie oplevert van destijl van het team, de sleutelfiguren in het elftal identificeert en de potentiële zwaktes duidelijk maakt. Daarvoor wordt elke speler beschouwd als een node (knooppunt) in een netwerk en elke pass als een verbinding tussen nodes. Ze distribueren vervolgens de nodes op een manier die overeenkomt met de positie van elke speler in het veld.

De afbeelding toont het resulterende netwerk voor het Nederlandse en het Spaanse elftal, gebaseerd op gegevens van de knockout-fase voor de World Cup 2010 in Zuid-Afrika. Daar speelden deze elftallen tegen elkaar en won Spanje.

Belangrijkste speler

Een visuele inspectie van deze netwerken geeft direct een interessant beeld van de wedstrijd. De dikte van de pijlen komt overeen met het aantal passes tussen nodes en het is meteen duidelijk dat het Spaanse team vaker overspeelt. Deze afbeelding omvat 417 passes voor het Spaanse team en 266 voor de Nederlanders. Ook de belangrijkste spelers vallen direct op door het aantal passes dat zij geven of ontvangen, bijvoorbeeld 16 (Sergio Busquets) en 8 (Xavi).

Maar deze representatie maakt nog een veel dieper gaande analyse mogelijk, met gebruik van de standaard tools van netwerkwetenschappen. Zo meet bijvoorbeeld closeness centrality hoe makkelijk het is om een bepaalde node in een netwerk te bereiken, of, in voetbaltermen hoe goed een voetballer aanspeelbaar is. Busquets en Xavi scoren het hoogst in het Spaanse elftal – beiden zijn beter aanspeelbaar dan de best aanspeelbare Nederlander, doelman Stekelenburg. Het feit dat de best aanspeelbare Nederlander de keeper is, spreekt natuurlijk boekdelen.

Een andere parameter is betweenness centrality, een maat voor de mate waarin een node ligt op een pad naar andere nodes. In voetbaltermen meet betweenness centrality hoe de flow van de bal tussen twee spelers afhangt van een andere speler. Spelers met een hoge betweenness centrality zijn cruciaal om het momentum, de vaart, in het spel te houden. Zulke spelers zijn belangrijk, want hen weghalen zou een enorme invloed hebben op de structuur van het netwerk. Dus een afzonderlijke speler met een hoge betweenness centrality is ook een zwakte, omdat het hele team kwetsbaar wordt als hij een blessure krijgt of een rode kaart.

De nummer 11 van Spanje, Joan Capdevilla, is de speler met verreweg de hoogste  betweenness centrality in deze wedstrijd. Hij is duidelijk een doel voor passes van veel andere spelers, die hij vooral doorgeeft aan nummer 14 (Xabi Alonso).

PageRank

Dan is er nog de beroemde PageRank-algoritme, die de populariteit van een speler meet op basis van het aantal passes dat hij ontvangt van andere populaire spelers. Dat geeft ruwweg inzicht in welke speler het meest waarschijnlijk de bal krijgt na een lange reeks passes. In deze wedstrijd was dat Xavi.

Zeven spelers uit het team dat won in 2010 hadden weer een basispositie in de finale van Euro 2012 Het zou interessant zijn om de analyse van Peña en Touchette’s te zien van deze wedstrijd, ook om te beoordelen hoe hij afwijkt van de vorige.

De aanpak heeft duidelijk zijn beperkingen. De data zijn een gemiddelde van verschillende wedstrijden dus het toont niet de dynamiek van een specifieke wedstrijd. En de posities van de nodes zijn ook niet heel specifiek gedefinieerd, maar gebaseerd op de startposities van de desbetreffende spelers.

Peña en Touchette stellen dat hun aanpak op veel punten voor verbetering vatbaar is. Zij stellen voor om een extra node op te nemen voor het doel van de tegenstander en om het aantal schoten te registreren. Ook denken ze aan een vergelijkbare benadering voor het meten van de nauwkeurigheid van de passes, door rekening te houden met de waarschijnlijkheid dat  een pass van de ene naar de andere speler succesvol is.

Real time

"Ook de defensieve kracht van een team zou in het model kunnen worden opgenomen door het registreren  van intercepties bij het overspelen en van terugveroverde ballen", zeggen Peña en Touchette.

Het zou natuurlijk helemaal fascinerend  zijn als de data in real time zouden kunnen worden verzameld en geanalyseerd, zodat al tijdens de wedstrijd een netwerkanalyse beschikbaar is.

arxiv.org/abs/1206.6904: A Network Theory Analysis Of Football Strategies