L'analyse des données dans Oracle Cloud a permis de décerner deux prix de la Premier League

Les prix du retour le plus invraisemblable et du goal le plus puissant de la saison ont été déterminés à partir des données des 380 matchs.

Rob Preston | 21 mai 2024


Lorsque Luton Town menait Bournemouth 3-0 au début de la deuxième mi-temps, un nul semblait improbable et une victoire presque impossible. Pourtant, Bournemouth a enchaîné quatre buts en l'espace de 33 minutes. Les fans ne pouvaient pas en croire leurs yeux.

S'agissait-il de la remontée la plus improbable de la saison de Premier League 2023-2024 ? Après avoir analysé les données, soit 1,2 milliard de lignes, totalisant plus de 10 milliards de points de données sur les 380 matchs, nous avons déterminé que c'était totalement le cas.

La remontée la plus improbable est l'une des deux récompenses de fin de saison annoncées par la Premier League ce 21 mai, chacune reposant sur une analyse rigoureuse des données réalisée à l'aide des services Oracle Cloud Infrastructure (OCI).

Bournemouth remporte le trophée de la remontée la plus invraisemblable, pour sa victoire 4-3 à domicile le 13 mars. Le but le plus puissant de la saison a été tout aussi époustouflant : l'ailier d'Aston Villa Moussa Diaby a remporté le trophée pour sa frappe chirurgicale contre Wolverhampton le 30 mars.

Pour déterminer les lauréats, la Premier League s'est associée à Oracle, qui a déployé un data scientist pour analyser les énormes quantités de données de match à l'aide de plusieurs services OCI de pointe. Voici les coulisses de cette analyse.

Calcul de la remontée la plus invraisemblable

Pour trouver les prétendants à ce prix, Brian Macdonald, le data scientist d'Oracle, a analysé les probabilités de victoires, une statistique tierce qui calcule la probabilité qu'une équipe remporte un match ou fasse un nul à chaque match en simulant le reste du match 100 000 fois.

Ce modèle statistique, basé sur plusieurs années de données de correspondance générées par Stats Perform, prend en compte le score actuel à différents moments de chaque match, le temps restant, le nombre de joueurs sur le terrain pour chaque équipe (pour tenir compte de tous les joueurs éjectés à cause d'un carton rouge), et si l'équipe joue à domicile ou à l'extérieur.

À l'aide d'OCI Data Science Service, Oracle a analysé les probabilités de victoire de chaque équipe dans des intervalles de 30 secondes pour chacun des 380 matchs de la saison afin de calculer quelle équipe avait la probabilité de gain la plus faible avant de vaincre son adversaire.

Pour le gagnant de la remontée la plus invraisemblable, à savoir Bournemouth, OCI Data Science a déterminé que Luton avait une probabilité de gain de 97,6 % à 49 minutes et 44 secondes en deuxième mi-temps, le pourcentage le plus élevé de toutes les équipes au cours de la saison qui a fini par perdre son match. À ce stade, Bournemouth n'avait que 0,4% de chances de gagner.

Tableau des scores entre l'AFC Bournemouth et Luton Town


Graphique des probabilités de victoire entre l'AFC Bournemouth et Luton Town

But le plus puissant : les données montrent un gagnant clair

Ce prix de Premier League récompense le joueur dont le tir avait la vitesse moyenne la plus élevée, de la frappe à la ligne de but. Seules les frappes hors du grand rectangle et non déviées ont été prises en compte.

L'analyse d'OCI Data Science a révélé que la frappe de Moussa Diaby contre Wolves le 30 mars avait une vitesse moyenne de 109,84 km/h. Plus de cinq kilomètres par heure le séparent du deuxième but le plus puissant de la saison de Premier League 2023-2024, la frappe de 104,62 km/h de Eberechi Eze lors du match opposant Crystal Palace et Aston Villa le 19 mai.

L'écart entre la 10e place et la 2e place est plus faible qu'entre la 1re et la 2e place. « Le reste du top 10 dans cette catégorie se tenait dans un mouchoir de poche », explique B. Macdonald. « Les écarts sont minimes, mais le gagnant explose tous les records. »

Pour les fans qui regardent les matchs à la maison, il peut être difficile de prendre la mesure d'un tir d'une telle puissance, en particulier lorsque certains tirs rase la pelouse et que d'autres s'envolent vers la lucarne. « C'est l'une des raisons pour lesquelles l'analyse des données derrière ces prix est si importante », déclare Will Brass, Directeur commercial de la Premier League. Les calculs sont complexes, impliquant le suivi des joueurs et des balles ainsi qu'une analyse détaillée du moment où la balle est frappée. Avec Oracle Cloud Infrastructure, nous avons confiance dans la précision de ces calculs et nous pouvons déclarer clairement un gagnant mérité. »

Comme on pouvait s'y attendre, tous les lauréats du but le plus puissant étaient pour des tirs de près du centre du but juste en dehors du grand rectangle. « Cela a du sens », explique B. Macdonald, « parce que lorsque je regarde ces tirs, beaucoup d'entre eux impliquent des passes déviées revenant au tireur, loin du but, ce qui donne à la balle une vitesse supplémentaire. C'est juste de la physique élémentaire. »

Tableau indiquant les buts avec la vitesse moyenne la plus élevée

Configuration et utilisation de l'environnement OCI

B. Macdonald confie avoir pu configurer les instances OCI appliquées aux deux évaluations en seulement 30 minutes.

La première étape a été d'écrire des scripts Bash sur les machines virtuelles OCI Compute pour extraire les données des API des deux principaux fournisseurs de données de la Premier League et de les placer dans OCI Object Storage. Ces scripts ont extrait les données mises à jour après chaque jour de matchs.

Le premier fournisseur est Second Spectrum, qui fournit des données de localisation sur le positionnement (coordonnées 3D) des 22 joueurs sur le terrain, ainsi que la balle, tout au long de chaque match de Premier League en utilisant des algorithmes de machine learning et de vision par ordinateur. L'autre fournisseur est Stats Perform, dont le service Opta améliore les données de localisation pour identifier les « événements » de match, tels que les tirs (y compris leur emplacement sur le terrain, la distance par rapport au but et s'ils étaient du pied gauche ou du pied droit), les coups de coin, les fautes, les pénaltys, etc.

À partir de là, B. Macdonald a téléchargé les données vers Oracle Autonomous Data Warehouse, en utilisant les fonctionnalités JSON intégrées de l'entrepôt cloud pour gérer les structures JSON imbriquées complexes nécessaires pour représenter un match de football. Il a ensuite effectué une série d'analyses approfondies à l'aide de la plateforme de machine learning OCI Data Science.

Au total, l'analyse a pris des milliards de points de données sur les 380 matchs pour calculer une myriade d'indicateurs sur chaque match et objectif, générant finalement une courte liste de candidats pour chaque prix, aboutissant à la sélection par la Premier League d'un seul gagnant dans chaque catégorie.

« La connexion aux API des deux fournisseurs de données était probablement la partie la plus compliquée, car nous devions passer par les étapes normales de première authentification », explique B. Macdonald. « Dès que j'ai réussi, je n'ai plus eu qu'à exécuter les mêmes commandes encore et encore. Le reste a été plus facile. »

Diagramme de l'architecture utilisée pour calculer les statistiques
Les data scientists Oracle ont utilisé l'architecture ci-dessus pour calculer les récompenses.

L'environnement OCI a produit les résultats pour les deux prix de fin de saison de la Premier League au cours des trois dernières saisons, actualisant les tableaux de bord et les classements pour chaque prix après chaque match. Les résultats préliminaires ont été utilisés sur les médias sociaux pour aider à promouvoir ces événements et objectifs spéciaux tout au long de la saison, tout en gardant les principaux candidats secrets.

B. Macdonald explique : « Nous avons réalisé beaucoup d'analyses approfondies et avons longuement discuté des résultats, validant et comparant les données, afin de ne rien manquer. »

Principaux produits OCI utilisés

OCI Data Science Service, la base des analyses, est une plateforme entièrement gérée et sans serveur permettant aux équipes de science des données de créer, d'entraîner et de gérer des modèles de machine learning de haute qualité. Les fonctionnalités de machine learning automatisées examinent rapidement les données et recommandent les algorithmes optimaux, tout en ajustant le modèle et en expliquant ses résultats.

Les outils d'intégration et de préparation des données par glisser-déposer d'OCI Data Science permettent aux utilisateurs de déplacer facilement les données dans un data lakes ou un data warehouse. Les outils de sécurité et les interfaces utilisateur de la plateforme cloud permettent aux utilisateurs ayant plusieurs rôles de participer à des projets et de partager des modèles. Les explications agnostiques des modèles aident les scientifiques, les analystes commerciaux et les dirigeants à se fier aux résultats.

Oracle Autonomous Data Warehouse est un service de data warehouse dans le cloud qui élimine les complexités opérationnelles en automatisant le provisionnement, la configuration, l'application de correctifs, le réglage, la mise à l'échelle et la sauvegarde.

OCI Compute offre une capacité de calcul rapide, flexible et abordable, des serveurs bare metal et des machines virtuelles aux conteneurs légers, pour s'adapter à tout type de workload. OCI Compute fournit des instances de machine virtuelle et bare metal extrêmement flexibles pour un rapport prix-performances optimal.

OCI Object Storage permet aux utilisateurs de stocker de manière sécurisée tout type de données au format natif. Grâce à la redondance intégrée, Oracle Cloud Infrastructure Object Storage est idéal pour créer des applications modernes qui nécessitent évolution et flexibilité, car il peut être utilisé pour consolider plusieurs sources de données à des fins d’analytiques, de sauvegarde ou d’archivage.

B. Macdonald a également utilisé Oracle Analytics Cloud pour présenter un classement complet pour chaque prix, ce qui lui a permis de trier à nouveau les données en fonction de différents critères, par exemple, pour inclure les candidats aux buts les plus puissants pour les buts tirés hors du grand rectangle ou limiter l'analyse aux joueurs d'une certaine équipe.

Oracle Analytics Cloud fournit tous les outils pour analyser les données et partager les résultats. La plateforme permet aux analystes de visualiser tous les résultats de données, sur n'importe quel appareil. Il permet également aux utilisateurs d'ingérer, de profiler et de nettoyer les données à l'aide de divers algorithmes, ainsi que d'agréger les données, puis d'exécuter des modèles de machine learning à grande échelle.