Oracle Cloud 데이터 분석, 두 가지 프리미어리그 어워드를 위한 정보를 제공

380 경기 전체에서 추출한 데이터로 가장 뛰어난 컴백(Most Improbable Comeback)과 가장 강력한 골(Most Powerful Goal) 수상자를 선정합니다.

Rob Preston | 2024년 5월 21일


프리미어리그(Premier League)의 본머스(Bournemouth)가 후반부 초반에 세 골을 넣어 루턴 타운(Luton Town)을 따라잡을 때만 해도, 무승부는 거의 불가능해 보였고 우승도 어려운 상황이었습니다. 본머스가 33분에 네 번째 골을 넣자, 팬들은 이 상황을 눈으로 보고도 믿을 수가 없었죠.

그러나 이것이 실제로도 2023~2024년 프리미어리그 시즌에서 가장 뛰어난 컴백(Most Improbable Comeback)이었을까요? 380개의 모든 경기에서 총 100억 개가 넘는 데이터 포인트에서 추출한 12억 개의 행으로 이루어진 데이터를 분석하고 나서, 이것이 누구도 부정할 수 없는 사실이라고 결론지을 수 있었습니다.

'가장 뛰어난 컴백'은 프리미어리그에서 5월 21일에 발표한 두 가지 시즌 결산 어워드 중 하나입니다. 두 어워드 모두 Oracle Cloud Infrastructure(OCI) 서비스를 사용한 엄격한 데이터 분석을 기반으로 합니다.

본머스는 3월 13일에 홈구장에서 4:3의 역전승을 거두며 '가장 뛰어난 컴백' 트로피와 함께 금빛 귀환을 이루었습니다. 이 시즌의 '가장 강력한 골' 역시 못지않게 아주 멋있었는데요, 애스턴 빌라(Aston Villa)의 윙어인 무사 디아비(Moussa Diaby)는 3월 30일 울버햄튼(Wolverhampton)을 상대로 멋지게 쏜 스트라이크 덕분에 트로피를 들고 금의환향할 수 있었죠.

프리미어리그는 수상자를 선정하기 위해 Oracle과 파트너십을 맺었고, Oracle은 데이터 과학자를 배치하고 다양한 최첨단 OCI 서비스를 활용해 대량의 경기 데이터를 분석했습니다. 이 분석에 대한 비하인드 스토리를 아래에서 만나 보세요.

'가장 뛰어난 컴백' 계산 방법

Oracle 데이터 과학자인 Brian Macdonald는 경기의 남은 부분을 100,000회 시뮬레이션하여 팀이 각 경기에서 승리하거나 무승부를 거둘 가능성을 계산하는 서드파티 통계인 Win Probability 통계를 사용하여 프리미어리그 팀 어워드 후보들을 추렸습니다.

Stats Perform이 생성한 몇 년간의 경기 데이터를 기반으로 한 해당 통계 모델은 각 경기에서 서로 다른 시간에서의 현 점수, 실제 경기에서 남은 시간, 경기장에 오른 각 팀의 선수(레드카드로 퇴장당한 선수를 고려하기 위함) 그리고 홈경기인지 원정경기인지 여부를 고려합니다.

Oracle은 OCI Data Science Service를 사용하여 해당 시즌 경기 380개 각각에 대해 30초 간격으로 각 팀의 승률을 분석하여, 어떤 팀이 가장 낮은 승률을 이겨내고 승리를 거두었는지 계산했습니다.

'가장 뛰어난 컴백' 수상자인 본머스(Bournemouth)의 경우, OCI Data Science는 후반전 49시 44분에 루턴(Luton)의 승률이 97.6%였다고 분석했습니다. 이는 이 시즌 경기에서 패배한 팀 중 가장 높은 승률이었습니다. 이 시점에서 본머스의 우승 확률은 0.4%에 불과했습니다.

AFC 본머스 및 루턴 타운의 골 기록 표


AFC 본머스 및 루턴 타운의 가장 뛰어난 컴백 승률(%) 표

'가장 강력한 골', 데이터가 확실한 승자를 보여줍니다.

이 프리미어리그 어워드는 골 득점 슛이 스트라이크 된 순간부터 골라인을 통과할 때까지 평균 속도가 가장 높은 선수에게 수여됩니다. 단, 박스의 16.5m 라인 밖에서 스트라이크해야 하며 막히지 않아야 합니다.

OCI Data Science 분석에 따르면 3월 30일 무사 디아비(Moussa Diaby)가 울버햄튼(Wolves)를 상대로 한 공격 속도는 시간당 평균 109.84km/h였습니다. 2023~2024년 프리미어리그 시즌에 시속 104.6km/h보다 빠른 골은 단 하나, 5월 19일 크리스털팰리스(Crystal Palace)의 에베레치 에제(Eberechi Eze)가 애스턴 빌라(Aston Villa)를 상대로 넣은 104.6km/h의 스트라이크뿐이었습니다.

10위와 2위 사이의 간격은 약 5.1km/h에 불과했죠. "이 카테고리에서 나머지 상위 10위는 모두 비슷한 수준이었습니다."라고 Macdonald는 말합니다. "각 증분은 작았지만, 짠! 수상자에게는 이 커다란 차이가 있었습니다."

집에서 시청하는 팬들은, 특히 어떤 슛은 경기장 표면을 스치고 어떤 슛은 골문 위 모서리로 날아간다면 각 슛의 위력을 알아차리기 어려울 수 있습니다. 프리미어리그의 Chief Commercial Officer(CCO)인 Will Brass는 "이러한 어워드를 뒷받침하는 데이터 분석이 매우 중요한 이유 중 하나죠."라고 말합니다. "계산은 복잡합니다. 선수와 공을 추적해야 할 뿐 아니라 공을 차는 순간을 자세히 분석해야 하기도 하죠. Oracle Cloud Infrastructure는 이러한 정확한 계산을 신뢰할 수 있게 해 줍니다. 덕분에 확신을 가지고 적격한 수상자를 선정할 수 있죠."

아마 예상할 수 있듯, '가장 강력한 골'의 최종 후보자 모두가 박스 바로 바깥의 골 중앙 근처에서 슛을 날렸습니다. Macdonald는 말합니다. "어찌 보면 당연합니다. 이 슛들을 보면 대부분 방향이 전환되어 골대 멀리 슈터에게 되돌아오는 패스가 포함되어 있죠. 덕분에 공에 속도가 더 붙습니다. 단지 기본적인 물리학일 뿐입니다."

평균 속도가 가장 빠른 골 득점 슛을 보여주는 표

OCI 환경을 사용한 설정

Macdonald는 두 가지 수상 평가에 적용할 OCI 인스턴스를 단 30분 만에 설정할 수 있었다고 말합니다.

첫 번째 단계는 OCI Compute 가상 머신에 Bash 스크립트를 작성하여, 프리미어리그의 두 주요 데이터 제공업체의 API에서 데이터를 가져와 OCI Object Storage에 넣는 것이었습니다. 이러한 스크립트는 매 경기일마다 업데이트된 데이터를 가져왔습니다.

한 제공업체는 Second Spectrum으로, 머신 러닝과 컴퓨터 비전 알고리즘을 사용하여 각 프리미어리그 경기 전반에서 22명의 모든 선수의 포지셔닝(3D 좌표)에 위치 데이터를 제공합니다. 다른 나머지 제공업체는 Stats Perform으로, 이 제공업체의 Opta 서비스는 슛(경기장에서의 위치, 목표로부터의 거리, 왼발 또는 오른발 여부 포함), 코너킥, 파울, 페널티 등과 같은 경기 '이벤트'를 식별하기 위해 위치 데이터를 향상했습니다.

여기에서 Macdonald는 클라우드 기반 웨어하우스의 내장된 JSON 기능을 사용해 Oracle Autonomous Data Warehouse로 데이터를 업로드하여, 축구 경기를 나타내는 데 필요한 복잡하고 중첩된 JSON 구조를 처리했습니다. 그러고 나서 OCI Data Science 머신 러닝 플랫폼을 사용하여 일련의 심층 분석을 수행했습니다.

전체적으로 분석을 위해 각 게임과 골에 대한 수많은 메트릭을 계산하기 위해 380개의 경기에서 수십억 개의 데이터 포인트를 가져왔고, 최종적으로 각 어워드에 대해 짧은 후보자 목록을 생성했으며, 마무리로는 Premier League가 각 범주마다 한 명의 수상자를 선정했습니다.

Macdonald는 "두 데이터 제공업체의 API에 연결하는 것이 아마 가장 복잡한 부분이었을 거예요. 일반적인 최초 인증 단계를 거쳐야 했기 때문입니다."라고 말합니다. "이 작업을 마치자마자 똑같은 명령을 계속 반복 실행했어요. 나머지는 쉬웠습니다."

통계 어워드 계산에 사용된 아키텍처 다이어그램
Oracle 데이터 과학자는 위의 아키텍처를 사용하여 어워드를 계산했습니다.

OCI 환경은 지난 3개 시즌 동안 시즌 종료 프리미어리그 2개에 대한 결과를 생성하여 매 경기 후 각 어워드에 대한 리더 보드 및 대시보드를 새로 고쳤습니다. 예비 결과는 소셜 미디어에서 시즌 내내 이러한 특별 이벤트와 목표를 홍보하는 동시에 주요 후보자를 비밀로 유지하는 데 사용되었습니다.

Macdonald는 다음과 같이 설명합니다. "우리는 놓치는 것이 없도록 결과에 대해 여러 번 심층 분석하고 토론하여 데이터를 검증하고 비교했습니다."

사용된 주요 OCI 제품

분석의 핵심인 OCI Data Science Service는 데이터 과학팀이 고품질 머신 러닝 모델을 구축하고, 학습시키고, 관리할 수 있는 완전 관리형 서버리스 플랫폼입니다. 자동화된 머신 러닝 기능이 데이터를 신속하게 검사하고 최적의 알고리즘을 추천해 주며, 동시에 모델을 튜닝하고 그 결과를 설명합니다.

OCI Data Science의 드래그 앤 드롭 데이터 통합 및 준비 도구를 사용하면 사용자가 데이터를 데이터 레이크나 데이터 웨어하우스로 쉽게 이동할 수 있습니다. 클라우드 플랫폼의 보안 도구 및 사용자 인터페이스를 사용하면 다양한 역할 담당자가 프로젝트에 참여하고 모델을 공유할 수 있습니다. 모델에 구애받지 않는 설명은 데이터 과학자, 비즈니스 분석가 및 경영진이 결과에 대한 확신을 갖도록 도와줍니다.

Oracle Autonomous Data Warehouse는 프로비저닝, 구성, 패치, 튜닝, 확장 및 백업을 자동화하여 운영 복잡성을 제거하는 클라우드 기반 데이터 웨어하우스 서비스입니다.

OCI 컴퓨트는 모든 워크로드에 적합한 베어메탈 서버 및 가상 머신에서 경량 컨테이너에 이르기까지 빠르고 유연하며 경제적인 컴퓨트 용량을 제공합니다. OCI Compute의 독보적으로 유연한 VM 및 베어메탈 인스턴스는 가격 대비 최적의 성능을 제공합니다.

OCI Object Storage 를 통해 고객은 모든 유형의 데이터를 원래 형식으로 안전하게 저장할 수 있습니다. 중복성을 기본 제공하는 OCI Object Storage는 분석, 백업 또는 아카이브 목적으로 여러 데이터 소스를 통합하는 데 사용할 수 있으므로 확장성과 유연성이 요구되는 최신 애플리케이션을 구축하는 데 이상적입니다.

Macdonald는 또한 Oracle Analytics Cloud를 사용하여 각 어워드에 대한 완전한 순위표를 나타냈습니다. 이 표를 통해 16.5m의 박스 내에서 발생한 슛을 기준으로 '가장 강력한 골'의 후보자를 선정하거나 분석을 특정 팀의 선수로 좁힐 수 있습니다.

Oracle Analytics Cloud는 데이터 인사이트를 도출하고 공유할 수 있는 완벽한 툴 세트를 제공합니다. 이 플랫폼을 통해 분석가는 모든 장치에서 모든 데이터 결과를 시각화할 수 있습니다. 또한 사용자는 다양한 알고리즘을 사용하여 데이터를 수집하고, 프로파일하고, 정리할 수 있으며 데이터를 집계한 다음 대규모 ML 모델을 실행할 수도 있습니다.