¿Qué es la ciencia de datos?

¿Quién supervisa el proceso de data science?

En la mayoría de las organizaciones, tres tipos de administradores suelen supervisar los proyectos de data science:

Gerentes de negocio: estos gerentes trabajan con el equipo de ciencia de datos para identificar el problema y desarrollar una estrategia para el análisis. Pueden ser los responsables de una línea de negocio, como marketing, finanzas o ventas y contar con un equipo de data science que dirigen. Trabajan codo a codo con los responsables de TI y data science para garantizar que los proyectos se entreguen.

Gerentes de TI: los gerentes sénior de TI son responsables de la infraestructura y la arquitectura que darán soporte a las operaciones de ciencia de datos. Supervisan continuamente las operaciones y la utilización de recursos para garantizar que los equipos de data science operen de manera eficiente y segura. También pueden ser responsables de la creación y actualización de los entornos de TI para los equipos de data science.

Gerentes de ciencia de datos: estos gerentes se encargan de supervisar el equipo de ciencia de datos y su trabajo diario. Son creadores de equipos que pueden equilibrar el desarrollo del equipo con la planificación y la supervisión del proyecto.

Pero el actor más importante en este proceso es el científico de datos.

¿Qué es un científico de datos?

Como especialidad, la ciencia de datos aun es nueva. Surgió de los campos del análisis estadístico y de la minería de datos. The Data Science Journal se lanzó inicialmente en 2002 y su publicación corrió a cargo del International Council for Science: Committee on Data for Science and Technology. En 2008 surgió el nombre de científico de datos y este campo prosperó rápidamente. Desde entonces, ha habido una escasez de científicos de datos, a pesar de que cada vez más colegios y universidades han comenzado a ofrecer grados en ciencia de datos.

Las tareas de un científico de datos pueden incluir el desarrollo de estrategias para analizar datos, la preparación de datos para su análisis, explorar, analizar y visualizar datos, construir modelos con datos mediante el uso de lenguajes de programación como Python y R y desplegar modelos en aplicaciones.

El científico de datos no trabaja solo. De hecho, la data science más efectiva se ejecuta en equipos. Además de un científico de datos, este equipo puede incluir un analista empresarial que define el problema, un ingeniero de datos que prepara los datos y su método de acceso, un arquitecto de TI que supervisa los procesos subyacentes y la infraestructura, y un desarrollador de aplicaciones que implementa los modelos o las salidas del análisis en aplicaciones y productos.

Desafíos de la implementación de proyectos de data science

A pesar de la promesa de la ciencia de datos y las grandes inversiones en equipos de ciencia de datos, muchas empresas no son conscientes del valor total de sus datos. En su carrera por contratar talentos y crear programas de ciencia de datos, algunas empresas han experimentado flujos de trabajo de equipo ineficientes, con varias personas que utilizan diferentes herramientas y procesos que no funcionan correctamente de forma conjunta. Sin una gestión centralizada y más disciplinada, los ejecutivos podrían no obtener un retorno completo de sus inversiones.

Este ambiente caótico presenta muchos desafíos.

Los científico de datoss no pueden trabajar de forma eficiente. Debido a que el acceso a los datos lo debe otorgar un administrador de TI los científicos de datos a menudo deben esperar demasiado los datos y los recursos que necesitan para analizarlos. Una vez que se obtiene acceso, el equipo de ciencia de datos podría analizar los datos a través de varias herramientas posiblemente incompatibles. Por ejemplo, un científico podría desarrollar un modelo utilizando el lenguaje R, pero la aplicación en la que se usará está escrita en un lenguaje distinto. Este es el motivo por el que la implementación de modelos en aplicaciones útiles puede llevar desde semanas hasta incluso meses.

Los desarrolladores de aplicaciones no pueden acceder al machine learning utilizable. A veces, los modelos de machine learning que los desarrolladores reciben no están listos para implementarlos en aplicaciones. Además, ya que los puntos de acceso pueden ser inflexibles, los modelos no se pueden implementar en todos los casos, y la escalabilidad queda a responsabilidad del desarrollador de la aplicación.

Los administradores de TI dedican demasiado tiempo al soporte. Debido a la proliferación de herramientas de código abierto, TI puede tener una lista cada vez mayor de herramientas a las que proporcionar soporte. Un científico de datos en marketing, por ejemplo, podría usar herramientas distintas a las que usa un científico de datos en finanzas. Los equipos también pueden tener distintos flujos de trabajo, lo que significa que TI debe reconstruir y actualizar continuamente los entornos.

Los responsables empresariales están muy alejados de la ciencia de datos. Los flujos de trabajo de la ciencia de datos no siempre están integrados en los procesos y en los sistemas de toma de decisiones empresariales, lo que dificulta que los responsables de negocio colaboren de manera inteligente con los científicos de datos. Si no cuentan con una integración mejor, a los responsables empresariales les resulta difícil comprender por qué toma tanto tiempo pasar del prototipo a la producción, y es menos probable que respalden la inversión de proyectos que consideran demasiado lentos.

La plataforma de data science ofrece nuevas capacidades

Muchas empresas se dieron cuenta de que, sin una plataforma integrada, el trabajo de data science era ineficiente, inseguro y difícil de ampliar. Esto provocó el desarrollo de plataformas de data science. Estas plataformas son centros de software, alrededor de los cuales se lleva a cabo todo el trabajo de ciencia de datos. Una buena plataforma alivia muchos de los desafíos de la implementación de la data science y ayuda a las empresas a convertir sus datos en información de forma más rápida y eficiente.

Con una plataforma centralizada (la plataforma de machine learning), los científico de datoss pueden trabajar en un entorno de colaboración a través de sus herramientas favoritas de código abierto y todo su trabajo se sincroniza mediante un sistema de control de versiones.

Los beneficios de una plataforma de data science

Una plataforma de data science disminuye la redundancia e impulsa la innovación al permitir que los equipos compartan código, resultados e informes. Se eliminan los cuellos de botella del flujo de trabajo, ya que se simplifica la gestión y utilizan las mejores prácticas.

En general, las mejores plataformas de data science tienen como objetivo:

  • Hacer más productivos a los científico de datoss al ayudarles a acelerar y entregar modelos con más rápidez y menos errores.
  • Facilitar que los científico de datoss trabajen con grandes volúmenes y variedades de datos.
  • Ofrecer inteligencia artificial fiable de nivel empresarial, libre de sesgos, auditable y reproducible.

Las plataformas de data science están diseñadas para la colaboración de una variedad de usuarios, incluidos los científico de datoss expertos, científico de datoss de ciudadanos, ingenieros de datos e ingenieros o especialistas en machine learning. Por ejemplo, una plataforma de ciencia de datos podría permitir a los científicos de datos implementar modelos como API, lo que facilita su integración en diferentes aplicaciones. Los científico de datoss pueden acceder a herramientas, datos e infraestructura sin tener que esperar por la TI.

La demanda de plataformas de data science ha explotado en el mercado. De hecho, se espera que la plataforma del mercado crezca a una tasa anual compuesta de más del 39% en los próximos años y se proyecta que alcance los 385 mil millones de dólares para el 2025.

¿Qué necesita un científico de datos en una plataforma?

Si está listo para explorar las capacidades de las plataformas de ciencia de datos, hay ciertas capacidades clave a considerar:

Elija una interfaz de usuario basada en proyectos que fomente la colaboración. La plataforma debe fomentar que las personas trabajen en conjunto en un modelo, desde su concepción hasta el desarrollo final. Debe otorgar a cada miembro del equipo acceso de autoservicio a los datos y a los recursos.

Priorice la integración y la flexibilidad. Asegúrese de que la plataforma incluya soporte para las últimas herramientas de código abierto, proveedores comunes de control de versiones como GitHub, GitLab y Bitbucket y una estrecha integración con otros recursos.

Incluya capacidades de nivel empresarial. Asegúrate de que la plataforma pueda escalar con tu negocio a medida que crece tu equipo. La plataforma debe contar con un alto grado de disponibilidad, tener controles de acceso robustos y admitir una gran cantidad de usuarios simultáneos.

Ofrezca más autoservicio para la data science. Busque una plataforma que elimine la carga de TI e ingeniería y facilite a los científico de datoss la creación instantánea de entornos, el seguimiento de todo su trabajo y la implementación sencilla de modelos en producción.

Garantice una implementación de modelos más sencilla. La implementación y puesta en funcionamiento del modelo es uno de los pasos más importantes del ciclo de vida del machine learning, pero a menudo se ignora. Asegúrese de que el servicio que elija facilite la puesta en funcionamiento de modelos, ya sea proporcionando API o asegurando que los usuarios creen modelos de una manera que permita una fácil integración.

Cuando una plataforma de data science es el paso correcto

Su organización podría estar lista para una plataforma de data science si ha observado que:

  • La productividad y la colaboración muestran signos de presión.
  • Los modelos de machine learning no se pueden auditar ni reproducir.
  • Los modelos nunca llegan a producción

Una plataforma de data science puede ofrecer un valor real a su negocio. La plataforma de ciencia de datos de Oracle incluye una amplia gama de servicios que brindan una experiencia integral de principio a fin, diseñada para acelerar la implementación del modelo y mejorar los resultados de la ciencia de datos.