Oracle Cloud data-analyse deelt twee Premier League Awards uit

De winnaars in de categorie Most Improbable Comeback en Most Powerful Goal van dit seizoen zijn vastgesteld door de data van alle 380 wedstrijden te analyseren.

Rob Preston | 21 mei 2024


Toen Bournemouth uit de Premier League in de tweede helft tegen Luton Town drie goals achterstond, leek een gelijkspel onwaarschijnlijk en een overwinning bijna onmogelijk. Toen Bournemouth binnen 33 minuten viermaal wist te scoren, konden de fans hun ogen niet geloven.

Maar was dit werkelijk de Most Improbable Comeback in het 2023-2024 seizoen van de Premier League? Nadat we de data hadden verwerkt - 1,2 miljard rijen met ruim 10 miljard datapunten van alle 380 wedstrijden - bleek dat absoluut zo te zijn.

De Improbable Comeback is één van de twee awards na afloop van het seizoen die de Premier League op 21 mei heeft aangekondigd, elk op basis van een grondige data-analyse middels de services van Oracle Cloud Infrastructure (OCI).

Bournemouth neemt de Most Improbable Comeback trofee mee naar huis dankzij hun onverwachte 4-3 overwinning in de thuiswedstrijd op 13 maart. Net zo verbluffend was de Most Powerful Goal van het seizoen, waarvoor Aston Villa vleugelspeler Moussa Diaby de trofee mee naar huis neemt na zijn kanonschot tegen Wolverhampton op 30 maart.

Om de winnaars vast stellen, werkte de Premier League samen met Oracle, die een datawetenschapper inschakelde om de enorme hoeveelheden wedstrijddata met behulp van diverse geavanceerde OCI-services te analyseren. Wat volgt is een blik achter de schermen bij die analyse.

Most Improbable Comeback: hoe die wordt berekend

Brian Macdonald, Oracle's datawetenschapper, heeft de kandidaten voor deze Premier League Award vastgesteld volgens de methode van de 'Winstwaarschijnlijkheid', een extern model dat de kans berekent dat een team elke wedstrijd een overwinning of gelijkspel behaalt door de rest van de wedstrijd 100.000 keer te simuleren.

Dat statistische model berust op wedstrijddata van meerdere jaren, gegenereerd door Stats Perform, en het houdt rekening met de huidige score op verschillende tijdstippen gedurende elke wedstrijd, de resterende tijd in een gegeven wedstrijd, het aantal spelers op het veld voor elk team (vanwege spelers met een rode kaart), en of een team thuis of uit speelt.

Met behulp van OCI Data Science Service heeft Oracle de overwinningskansen voor elk team in intervallen van 30 seconden voor alle 380 wedstrijden van het seizoen geanalyseerd om te berekenen welk team vanuit de slechtste positie terugkwam om zijn tegenstander te verslaan.

Bij de Most Improbable Comeback winnaar, Bournemouth, stelde OCI Data Science vast dat Luton in de tweede helft op 49:44 een overwinningskans van 97,6% had, hoger dan welk team ook dat in dit seizoen de wedstrijd verloor. Op dat moment had Bournemouth slechts 0,4% kans om te winnen.

Tabel met bijgehouden goals van AFC Bournemouth en Luton Town


Grafiek met overwinningskans Most Improbable Comeback: AFC Bournemouth tegen Luton Town

Most Powerful Goal: data wijzen een duidelijke winnaar aan

Deze Premier League award gaat naar de speler waarvan het doelschot de hoogste gemiddelde snelheid had vanaf het moment dat het werd geschoten tot het passeren van de doellijn, onder voorwaarde dat het schot van buiten het strafschopgebied kwam en niet werd afgebogen.

Uit de analyse van OCI Data Science bleek dat het schot van Moussa Diaby tegen Wolverhampton op 30 maart een gemiddelde snelheid had van 109,84 kilometer per uur. Slechts één andere doelpunt in het Premier League seizoen 2023-24 was sneller dan 65 mph (104,62 km/u door Eberechi Eze van Crystal Palace tegen Aston Villa op 19 mei).

Het verschil tussen de 10e en de 2e plaats was slechts 5,15 km/u. "De rest van de top 10 in deze categorie lag erg dicht bij elkaar", zegt Macdonald. "Elke toename was klein, maar ineens zette de winnaar de rest op een flinke achterstand."

Voor fans die thuis kijken is het verschil tussen zulke kanonschoten lastig te zien, vooral als sommige schoten over het veld scheren en andere direct in de bovenhoek vliegen. "Daarom is de data-analyse achter deze awards zo belangrijk", zegt Will Brass, Chief Commercial Officer van de Premier League. "De berekeningen zijn complex, want ze volgen de spelers en de bal en ze maken een uitvoerige analyse van het moment waarop het schot plaatsvindt. Oracle Cloud Infrastructure geeft ons vertrouwen in deze nauwkeurige berekeningen om duidelijk aan te wijzen wie de verdiende winnaar is."

Zoals te verwachten, schoten alle finalisten voor de Most Powerful Goal net buiten het strafschopgebied, ruwweg recht voor het doel. "Dat is logisch," volgens Macdonald, "want de schoten die ik zag, waren kaatsballen die terugkeren naar de schutter, weg van het doel, wat de bal nog meer snelheid geeft. Dat is simpele natuurkunde."

Tabel met de hoogste gemiddelde snelheid van doelpunten

Aan de slag met de OCI-omgeving

Macdonald zegt dat hij de OCI-instances voor beide verkiezingen in slechts 30 minuten kon instellen.

De eerste stap was het schrijven van Bash-scripts op virtuele OCI Compute machines om data te halen uit de API's van de twee belangrijkste databronnen van de Premier League en deze in OCI Object Storage te plaatsen. Deze scripts haalden na elke speeldag de actuele data op.

De ene databron is Second Spectrum, dat locatiedata levert over de positionering (3D-coördinaten) van alle 22 spelers op het veld, evenals de bal, tijdens elke Premier League wedstrijd door machine learning en algoritmen voor beeldherkenning te gebruiken. De andere bron is Stats Perform, dat via zijn Opta service de locatiedata verbetert om wedstrijdmomenten te herkennen, zoals schoten (incl. hun locatie op het veld, afstand tot het doel, links- of rechtsbenig), hoekschoppen, overtredingen, strafschoppen enz.

Van daaruit uploadde Macdonald de data naar Oracle Autonomous Data Warehouse, met behulp van de ingebouwde JSON opties van het cloudgebaseerde warehouse om de complexe, geneste JSON structuren te verwerken die nodig zijn om een voetbalwedstrijd weer te geven. Vervolgens voerde hij een serie diepgaande analyses uit met behulp van het machine learning-platform in OCI Data Science.

De analyse gebruikte miljarden datapunten uit alle 380 wedstrijden om talloze statistieken te berekenen over elke wedstrijd en elke goal, waaruit uiteindelijk een shortlist voor elke prijs ontstond, met als hoogtepunt het aanwijzen van die ene winnaar in elke categorie van de Premier League Awards.

"Verbinding maken met de API's van de twee databronnen was waarschijnlijk nog het lastigst, omdat we de gebruikelijke eerste authenticatiestappen moesten zetten," zegt Macdonald. "Zodra ik die aan de praat had, liet ik gewoon keer op keer dezelfde commando's draaien. De rest was makkelijk."

Gebruikte architectuur om cijfers voor verkiezingen te berekenen
Oracle datawetenschappers gebruikten de bovenstaande architectuur om de winnaars vast te stellen.

De OCI-omgeving heeft aan het einde van de afgelopen drie seizoenen de twee winnaars van de Premier League Awards aangewezen, waarbij de ranglijsten en overzichten voor elke prijs na elke wedstrijd werden bijgewerkt. De voorlopige resultaten werden via sociale media gedeeld om deze speciale momenten en doelpunten onder de aandacht te brengen, terwijl de kandidaten voor de overwinning geheim bleven.

Macdonald legt uit: "We hebben veel diepgaande analyses en discussies over de resultaten gehad, de data gevalideerd en vergeleken om zeker niets te missen."

Voornaamste gebruikte OCI-producten

OCI Data Science Service is een volledig beheerd en serverloos platform voor datawetenschappers om hoogwaardige machine learning-modellen te bouwen, trainen en beheren. Geautomatiseerde machine learning-functies onderzoeken de data snel en bevelen de optimale algoritmen aan, terwijl ze het model afstemmen en de uitkomsten verklaren.

Met de drag-and-drop data-integratie en voorbereidingstools van OCI Data Science kunnen gebruikers de data gemakkelijk naar een data lake of data warehouse verplaatsen. Door de beveiligingstools en interfaces van het cloudplatform kunnen gebruikers met meerdere functies deelnemen aan projecten en modellen delen. Model-onafhankelijke verklaringen geven datawetenschappers, bedrijfsanalisten en managers vertrouwen in de resultaten.

Oracle Autonomous Data Warehouse is een service in de cloud, die operationele complexiteit wegneemt door de initialisatie, configuratie, patches, afstemming, schaling en back-up te automatiseren.

OCI Compute biedt een snelle, flexibele en betaalbare rekencapaciteit voor elke workload, van bare metal-servers en virtuele machines tot lichtgewicht containers. OCI Compute's unieke flexibele VM en bare metal-instances bieden een optimale prijs/prestatie-verhouding.

OCI Object Storage maakt dat gebruikers elk datatype veilig in het oorspronkelijke format kunnen opslaan. Door de ingebouwde redundantie is OCI Object Storage ideaal voor het bouwen van moderne applicaties, die schaal en flexibiliteit vereisen, omdat het kan worden gebruikt om meerdere databronnen te consolideren voor analyses, back-ups of archivering.

Macdonald gebruikte Oracle Analytics Cloud ook om een compleet scorebord voor elke prijs te presenteren, zodat hij de data opnieuw kon sorteren op basis van diverse criteria, bijv. om kandidaten voor de Most Powerful Goal mee te tellen die vanuit het strafschopgebied scoorden of om de analyse tot spelers van een bepaald team te beperken.

Oracle Analytics Cloud biedt een complete set tools om inzichten uit data te winnen en die te delen. Met dit platform kunnen analisten op elk apparaat alle bevindingen vanuit de data visualiseren. Ook kunnen gebruikers data opnemen, profileren en opschonen middels de verschillende algoritmen, data samenvoegen en vervolgens ML-modellen op schaal laten draaien.