대부분의 조직에서 데이터 과학 프로젝트는 일반적으로 세 가지 유형의 관리자가 감독합니다:
비즈니스 관리자: 이 유형의 관리자는 데이터 과학 팀과 협력하여 문제를 규정하고 분석 전략을 세웁니다. 마케팅, 재무, 영업 등 LOB 책임자가 여기에 해당되며 데이터 과학 팀이 이들에게 보고하는 체계로 구성됩니다. 이 유형의 관리자는 데이터 과학 및 IT 관리자들과 긴밀히 협력하여 프로젝트가 제대로 수행되도록 합니다.
IT 관리자: 선임 IT 관리자들은 데이터 과학 운영을 지원할 인프라 및 아키텍처를 책임집니다. 이들은 데이터 과학 팀이 효율적이고 안전하게 운영될 수 있도록 운영 및 리소스 사용을 지속적으로 모니터링합니다. 이들은 또한 데이터 과학 팀을 위한 IT 환경 구축 및 업데이트를 담당하기도 합니다.
데이터 과학 관리자: 이 유형의 관리자들은 데이터 과학 팀과 그들의 일과를 감독합니다. 이들은 프로젝트 계획 및 모니터링을 통해 팀의 균형적인 발전을 유지하는 팀 빌더입니다.
그러나 전체 프로세스에서 가장 중요한 역할은 데이터 과학자들이 맡습니다.
전문 분야로서 데이터 과학은 아직 젊은 분야라고 할 수 있습니다. 통계 분석 및 데이터 마이닝 분야에 그 뿌리를 두고 있죠. 2002년에 창간된 The Data Science Journal은 국제 과학 위원회: CODATA(Committee on Data for Science and Technology)에서 발간했습니다. 2008년에 이르러 데이터 과학자라는 직함이 생겨났고 이후 데이터 과학 분야는 빠르게 성장했습니다. 점점 더 많은 대학에서 데이터 과학 학위를 제공하기 시작했지만, 아직까지도 데이터 과학자가 부족한 상황입니다.
데이터 과학자의 임무에는 데이터 분석 전략 개발, 분석용 데이터 준비, 데이터 탐색, 분석 및 시각화, Python 및 R과 같은 프로그래밍 언어를 사용하여 데이터로 모델 구축하기, 애플리케이션에 모델 배포하기 등이 포함될 수 있습니다.
데이터 과학자는 혼자 일하지 않습니다. 실제로 가장 효과적인 데이터 과학은 팀웍을 통해 이루어지죠. 데이터 과학자 외에도 데이터 과학 팀에는 문제를 정의하는 비즈니스 분석가, 데이터를 준비하고 데이터 액세스 방법을 설정하는 데이터 엔지니어, 기본 프로세스 및 인프라를 감독하는 IT 아키텍트, 분석 모델 또는 출력을 애플리케이션 및 제품에 배포하는 애플리케이션 개발자가 포함될 수 있습니다.
데이터 과학이 주는 약속과 데이터 과학 팀에 대한 막대한 투자에도 불구하고 많은 기업이 데이터의 가치를 온전히 실현하지 못하고 있습니다. 일부 기업들은 인재 유치전 및 데이터 과학 프로그램 생성 경쟁에서 팀 워크플로의 비효율성을 경험했습니다. 다양한 팀원이 서로 다른 도구 및 프로세스를 사용해 공동 작업이 제대로 이루어지지 않았기 때문이죠. 보다 체계적이고 중앙화된 관리가 이루어지지 않는다면 경영진은 투자에 대한 최대의 수익을 얻지 못할 수 있습니다.
이 혼란스러운 환경은 다양한 문제를 시사합니다.
데이터 과학자가 효율적으로 일할 수 없습니다. 데이터에 대한 접근 권한은 IT 관리자가 부여해야 하기 때문에 데이터 과학자가 데이터 및 데이터 분석에 필요한 리소스를 얻게 되기까지 오래 기다려야 하는 경우가 많습니다. 접근 권한을 얻게 되었더라도 데이터 과학 팀원들은 다양한 도구(높은 확률로 서로 호환되지 않는 도구)를 사용해 데이터를 분석할 가능성이 높습니다. 예를 들어 한 과학자가 R 언어를 사용해 모델을 개발했는데, 해당 모델이 사용될 애플리케이션은 다른 언어로 작성된 경우가 있죠. 모델을 유용한 애플리케이션에 배포하는 데 몇주, 심지어 몇 개월이 걸리기도 하는 이유가 바로 여기에 있습니다.
애플리케이션 개발자가 가용한 머신러닝에 액세스할 수 없습니다. 개발자가 애플리케이션에 배포될 준비가 되지 않은 머신러닝 모델을 받게되는 경우가 종종 발생합니다. 게다가 액세스 지점이 유연하지 않을 수 있기 때문에, 해당 모델을 모든 시나리오에 배포하는 게 불가능하고, 확장성 자체도 애플리케이션 개발자의 손에 맡겨지는 경우가 있습니다.
IT 관리자가 지원에 너무 많은 시간을 할애합니다. 오픈 소스 도구가 확장되면서 IT 팀은 그 어느 때보다 긴 '지원해야 할 도구 목록'을 손에 쥐기도 합니다. 예를 들어 마케팅 분야의 데이터 과학자는 재무 분야의 데이터 과학자가 쓰는 것과는 다른 도구를 사용할 수 있습니다. 각 팀의 워크플로가 다를 수도 있습니다. 즉 IT 팀이 계속해서 새로 환경을 구축하고 업데이트해야 한다는 뜻이죠.
비즈니스 관리자가 데이터 과학 업무에서 지나치게 배제되어 있습니다. 데이터 과학 워크플로가 비즈니스 의사결정 프로세스 및 시스템에 늘 통합되는 건 아닙니다. 그 결과 비즈니스 관리자가 데이터 과학자들과 협업하는 데 필요한 충분한 지식을 얻지 못하는 경우가 발생하죠. 통합 환경이 개선되지 않으면, 비즈니스 관리자는 시제품이 제품이 되기까지 이토록 오랜 시간이 걸리는 이유가 무엇인지 이해하지 못하고, 자신이 판단하기에 '프로세스가 지나치게 느린' 프로젝트에 대한 투자를 지원하지 않을 가능성이 있습니다.
많은 기업이 통합 플랫폼 없이 진행되는 데이터 과학 작업이 비효율적이고, 불안정하며, 확장이 어렵다는 사실을 깨달았습니다. 이와 같은 깨달음은 데이터 과학 플랫폼을 탄생시켰죠. 이 플랫폼들은 모든 종류의 데이터 과학 작업이 이루어지는 소프트웨어 허브입니다. 좋은 플랫폼은 데이터 과학 구현 과정의 문제를 대부분 완화하고, 기업이 보다 빠르고 효율적으로 데이터를 인사이트로 전환할 수 있도록 지원합니다.
중앙형 머신러닝 플랫폼을 활용하면, 데이터 과학자는 자신이 즐겨 쓰는 오픈 소스 도구를 사용해 협업 환경에서 작업할 수 있으며, 이들의 모든 작업은 버전 제어 시스템에 의해 동기화됩니다.
데이터 과학 플랫폼은 팀이 코드, 결과 및 보고서를 공유할 수 있게 하여 중복을 줄이고 혁신을 유도합니다. 또한 관리를 단순화하고 모범 사례를 통합하여 작업 흐름상의 병목 현상을 제거합니다.
일반적으로 최고의 데이터 과학 플랫폼은 다음을 목표로 합니다:
데이터 과학 플랫폼은 전문 데이터 과학자, 일반인 데이터 과학자, 데이터 엔지니어, 머신러닝 엔지니어 또는 전문가를 포함한 다양한 사용자 간의 협업을 위해 구축되었습니다. 예를 들어 데이터 과학 플랫폼을 사용하면 데이터 과학자가 모델을 API로 배포하여 해당 모델이 다른 애플리케이션에 쉽게 통합되도록 할 수 있습니다. 데이터 과학자는 IT 팀의 지원 없이도 각종 도구, 데이터 및 인프라에 액세스할 수 있습니다.
데이터 과학 플랫폼에 대한 시장의 수요가 폭발적인 증가 추세를 보이고 있습니다. 실제로 플랫폼 시장의 연평균 성장률이 향후 몇 년간 39% 이상을 달성할 것으로 예상되며, 시장 규모가 2025년까지 3,850억 달러에 이를 것으로 예상됩니다.
데이터 과학 플랫폼의 기능을 살펴볼 준비가 되었다면, 다음의 주요 기능들을 고려해야 합니다:
협업을 권장하는 프로젝트 기반 UI를 선택하는 게 좋습니다. 플랫폼은 개념이었던 것이 최종 제품이 되는 모든 과정에서 해당 모델에 대한 팀원 간의 협업을 지원해야 합니다. 이 플랫폼은 팀의 각 구성원에게 데이터 및 리소스에 대한 셀프 서비스 액세스 권한을 부여해야 합니다.
통합 및 유연성에 중점을 두어야 합니다. 플랫폼이 최신 오픈 소스 도구 사용, GitHub, GitLab, Bitbucket 등 공통 버전 제어 공급자 및 기타 리소스와의 긴밀한 통합을 지원하는지 확인하세요.
엔터프라이즈급 기능이 포함되어 있어야 합니다. 팀의 성장 속도에 따라 비즈니스에 필요한 확장을 플랫폼이 지원할 수 있는지 확인하세요. 플랫폼은 고가용성과 강력한 액세스 제어 기능을 보유해야 하며 다수의 동시 사용자를 지원할 수 있어야 합니다.
데이터 과학을 셀프 서비스로 이용할 수 있어야 합니다 . IT 및 엔지니어링 팀의 부담을 덜어주고, 데이터 과학자가 환경을 즉시 생성하고, 모든 작업을 추적하고, 모델을 운영 환경에 손쉽게 배포할 수 있게 해주는 플랫폼을 선택해야 합니다.
손쉬운 모델 배포를 보장해야 합니다. 모델 배포 및 연산화는 머신러닝 수명 주기에서 가장 중요한 단계 중 하나이지만, 이 과정이 종종 간과되곤 합니다. 선택한 서비스가 보다 손쉬운 모델 연산화를 지원하는지 확인해 보세요. API를 제공하는 방식일 수도, 사용자가 손쉬운 통합 과정을 거쳐 모델을 구축하게 하는 방식일 수도 있습니다.
다음과 같은 상황이라면, 귀사에 데이터 과학 플랫폼이 필요한 것일 수 있습니다:
데이터 과학 플랫폼은 비즈니스에 진정한 가치를 제공할 수 있습니다. Oracle의 데이터 과학 플랫폼에는 모델 배포 속도를 높이고 데이터 과학의 결과를 개선하기 위해 설계된 포괄적인 E2E 경험을 제공하는 광범위한 서비스가 포함됩니다.