A análise de dados da Oracle Cloud foi a base de dois prêmios da Premier League

Os vencedores da Reviravolta Mais Improvável e do Gol Mais Poderoso da temporada foram determinados a partir de dados coletados de todas as 380 partidas do campeonato.

Rob Preston | 21 de maio de 2024


Quando o Bournemouth, da Premier League, perdia para o Luton Town por três gols no início do segundo tempo, um empate parecia improvável e uma vitória quase impossível. Depois de quatro gols do Bournemouth em 33 minutos, os torcedores não conseguiam acreditar no que acabavam de testemunhar.

Mas essa foi, de fato, a reviravolta mais improvável da temporada 2023-2024 da Premier League? Depois de analisar os dados – 1,2 bilhão de linhas, totalizando mais de 10 bilhões de pontos de dados de todas as 380 correspondências –, determinamos que sim.

A Reviravolta Mais Improvável é um dos dois prêmios de final de temporada que a Premier League anunciou em 21 de maio, cada um baseado em uma rigorosa análise de dados usando os serviços da Oracle Cloud Infrastructure (OCI).

O Bournemouth levou para casa o troféu de Reviravolta Mais Improvável pela vitória por 4 a 3 em casa no dia 13 de março. Igualmente impressionante foi o gol mais poderoso da temporada, pelo qual o ala do Aston Villa, Moussa Diaby, levou para casa o troféu por seu golpe contra o Wolverhampton, em 30 de março.

Para chegar aos vencedores dos prêmios, a Premier League fez parceria com a Oracle, que designou um cientista de dados para analisar as enormes quantidades de dados de jogos usando vários serviços da OCI. A seguir está uma visão dos bastidores dessa análise.

Reviravolta Mais Improvável: Como é calculada

O cientista de dados da Oracle, Brian Macdonald, chegou aos candidatos usando a estatística Win Probability, que calcula a chance de um time garantir uma vitória ou empate em cada partida, simulando o restante do jogo 100.000 vezes.

Esse modelo estatístico, baseado em vários anos de dados de jogos gerados pelo Stats Perform, leva em consideração o placar atual em diferentes momentos de cada partida, o tempo restante, o número de jogadores em campo (para contabilizar quaisquer jogadores expulsos por cartão vermelho) e se um time está em casa ou fora.

Usando o OCI Data Science Service, a Oracle analisou as probabilidades de vitória de cada time em intervalos de 30 segundos para cada uma das 380 partidas da temporada para calcular qual equipe saiu da menor probabilidade de vitória para derrotar seu oponente.

Para o vencedor da Reviravolta Mais Improvável, o Bournemouth, a OCI Data Science determinou que o Luton tinha uma probabilidade de vitória de 97,6% aos 49:44 do segundo tempo, a maior porcentagem de qualquer time durante a temporada que acabou perdendo a partida. Naquele momento, o Bournemouth tinha apenas 0,4% de chance de vencer.

Table de rastreamento de gols para o AFC Bournemouth e o Luton Town


Gráfico de porcentagem de vitória de reviravolta mais improvável entre AFC Bournemouth e Luton Town

Gol Mais Poderoso: Os dados mostram um vencedor evidente

Esse prêmio da Premier League reconhece o jogador cujo chute a gol teve a maior velocidade média desde o momento em que atingiu a bola até o momento em que cruzou a linha, com a ressalva para o chute foi além da linha de 18 jardas da área e não foi desviado.

A análise da OCI Data Science revelou que o ataque de Moussa Diaby contra os Wolves no dia 30 de março teve uma velocidade média de 109,84 quilômetros por hora. Apenas um outro gol durante a temporada 2023-24 da Premier League foi mais rápido do que 104 km/h, o chute de quase 105 km/h de Eberechi Eze do Crystal Palace contra o Aston Villa em 19 de maio.

A diferença entre o 10º e o 2º lugar foi de apenas 5,1 km/h. “O restante do top 10 nessa categoria estavam todos muito próximos”, disse Macdonald. "As diferenças eram muito pequenas, mas, de repente, havia um salto enorme até a primeira posição."

Para os torcedores que assistem em casa, pode ser complicado discernir entre chutes com tanta força, principalmente quando alguns deles roçam a superfície do campo e outros voam para o canto superior do gol. “Essa é uma das razões pelas quais a análise de dados por trás desses prêmios é tão importante”, disse Will Brass, diretor comercial da Premier League. “Os cálculos são complexos, envolvem rastreamento do jogador e da bola, além de análise detalhada do momento em que a bola é atingida. A Oracle Cloud Infrastructure nos dá confiança nesses cálculos precisos e nos permite clareza na declaração de um vencedor merecido.”

Como era de se esperar, todos os finalistas do Gol Mais Poderoso foram para chutes perto do centro do gol, fora da área. “Faz sentido”, disse Macdonald, “porque, quando olho para esses chutes, muitos deles envolvem passes desviados voltando para o atacante, longe do gol, o que dá velocidade extra à bola. É física básica."

Tabela mostrando quais chutes a gol tiveram maior velocidade média

Configurando e usando o ambiente da OCI

Macdonald disse que conseguiu configurar as instâncias da OCI aplicadas às duas avaliações da premiação em apenas 30 minutos.

A primeira etapa foi escrever scripts Bash em máquinas virtuais do OCI Compute para extrair dados das APIs dos dois principais provedores de dados da Premier League e colocá-los no OCI Object Storage. Esses scripts extraíam dados atualizados após cada dia de jogo.

Um provedor é o Second Spectrum, que fornece dados de localização sobre o posicionamento (coordenadas em 3D) de todos os 22 jogadores em campo, bem como da bola, ao longo de cada partida da Premier League, usando algoritmos de machine learning e visão computacional. O outro fornecedor é o Stats Perform, cujo serviço Opta aprimora os dados de localização para identificar “eventos” da partida, como chutes (incluindo localização em campo, distância do gol e se foram canhotos ou destros), escanteios, faltas, pênaltis e assim por diante.

A partir daí, Macdonald carregou os dados no Oracle Autonomous Data Warehouse, usando os recursos JSON integrados do warehouse em nuvem para lidar com as estruturas complexas necessárias para representar uma partida de futebol. Em seguida, ele conduziu uma série de análises aprofundadas usando a plataforma de machine learning OCI Data Science.

Ao todo, a análise utilizou bilhões de pontos de dados de todos os 380 jogos para calcular uma variedade de métricas sobre cada jogo e gol, gerando, finalmente, uma pequena lista de candidatos para cada prêmio, resultando na seleção de um único vencedor em cada categoria pela Premier League.

“Conectar às APIs dos dois provedores de dados foi provavelmente a parte mais complicada, porque tivemos que trabalhar nas etapas normais de autenticação inicial”, disse Macdonald. “Uma vez funcionando, comecei a executar os mesmos comandos repetidamente. O resto foi fácil."

Diagrama da arquitetura usada para calcular estatísticas
Os cientistas de dados da Oracle usaram a arquitetura acima para calcular os prêmios.

O ambiente da OCI tem produzido os resultados dos dois prêmios de final de temporada da Premier League nas últimas três temporadas, atualizando as tabelas de classificação e os painéis de cada prêmio após cada partida. Os resultados preliminares foram utilizados nas redes sociais para ajudar a promover os eventos especiais ao longo da temporada, mantendo, ao mesmo tempo, os principais candidatos em segredo.

Macdonald explicou: “Fizemos muitas análises e discussões aprofundadas dos resultados, validando e comparando os dados, garantindo que não perdemos nada”.

Principais produtos OCI usados

O OCI Data Science Service, o cerne das análises, é uma plataforma totalmente gerenciada e serverless para as equipes de ciência de dados criarem, treinarem e gerenciarem modelos de machine learning de alta qualidade. Os recursos automatizados de machine learning examinam rapidamente os dados e recomendam os algoritmos ideais, enquanto ajustam o modelo e explicam seus resultados.

As ferramentas de arrastar e soltar de integração e preparação de dados da OCI Data Science tornam mais fácil para os usuários movimentar dados para um data lake ou data warehouse. As ferramentas de segurança e as interfaces de usuário da plataforma em nuvem permitem que usuários com diversas funções participem de projetos e compartilhem modelos. Explicações independentes de modelo ajudam cientistas de dados, analistas de negócios e executivos a ter confiança nos resultados.

O Oracle Autonomous Data Warehouse é um serviço de data warehouse em nuvem que elimina complexidades operacionais ao automatizar o provisionamento, a configuração, a aplicação de patches, o ajuste, o dimensionamento e o backup.

O OCI Compute oferece capacidade de computação rápida, flexível e acessível, desde servidores bare metal e máquinas virtuais até contêineres leves, para atender qualquer carga de trabalho. As instâncias de VM e bare metal exclusivamente flexíveis do OCI Compute oferecem ótimo custo-benefício.

O OCI Object Storage permite que os usuários armazenem com segurança qualquer tipo de dados em seu formato nativo. Com a redundância integrada, o OCI Object Storage é ideal para criar aplicações modernas que requerem dimensionamento e flexibilidade, pois pode ser usado para consolidar várias fontes de dados para fins de análise, backup ou arquivamento.

Macdonald também usou a Oracle Analytics Cloud para apresentar um placar completo para cada prêmio, permitindo que ele reorganizasse os dados com base em critérios diferentes, por exemplo, para incluir candidatos ao Gol Mais Poderoso para chutes que ocorreram dentro da área de 18 jardas ou restringir a análise aos jogadores de um determinado time.

A Oracle Analytics Cloud fornece um conjunto completo de ferramentas para derivar e compartilhar insights de dados. A plataforma permite que os analistas visualizem quaisquer descobertas de dados, em qualquer dispositivo. Ela também permite que os usuários insiram, criem perfis e limpem dados usando uma variedade de algoritmos, bem como agreguem dados e executem modelos de ML em escala.

Oracle Chatbot
Disconnected