Dans la plupart des organisations, les projets de data science sont généralement supervisés par trois types de personnes :
Responsables métier : ces responsables travaillent avec l'équipe de data science pour définir le problème et élaborer une stratégie d'analyse. Ils peuvent être à la tête d’un secteur d’activité tel que le marketing, la finance ou la vente et diriger une équipe de data science. Ils travaillent en étroite collaboration avec le responsable informatique et de la data science pour veiller à la bonne livraison des projets.
Responsables informatiques : ils sont en charge de l'infrastructure et de l'architecture qui soutiendra les opérations de data science. Ils surveillent en permanence les opérations et l’utilisation des ressources afin de s’assurer que les équipes de data science fonctionnent efficacement et en toute sécurité. Ils peuvent également être responsables de la création et de la mise à jour des environnements informatiques pour les équipes de data science.
Responsables de la data science : ils supervisent l'équipe de data science et leur travail quotidien. Ils composent des équipes dont ils sont capables d’équilibrer le développement avec la planification et le suivi de projet.
Mais l’acteur le plus important de ce processus est le data scientist.
En tant que spécialité, la data science est récente. Elle est issue des domaines de l’analyse statistique et de l’extraction de données. The Data Science Journal est apparu en 2002, publié par le Committee on Data for Science and Technology de l'International Council for Science. En 2008, le titre de data scientist a fait son apparition et le domaine s’est rapidement développé. Depuis, il y a une pénurie de data scientists, même si de plus en plus de grandes écoles et d’universités proposent désormais des cursus en data science.
Un data scientist a pour mission d’élaborer des stratégies d’analyse des données, de préparer les données pour l’analyse, d’explorer, analyser et visualiser des données, de créer des modèles avec des données à l’aide de langages de programmation tels que Python et R, et de déployer ces modèles dans des applications.
Le data scientist ne travaille pas seul. En réalité, la data science est plus efficace lorsqu’une équipe y travaille. Outre un expert en données, cette équipe peut inclure un analyste commercial qui définit le problème, un ingénieur de données qui prépare les données et leur disponibilité, un architecte informatique qui supervise les processus et l’infrastructure sous-jacents, et un développeur d’application qui déploie les modèles ou résultats de l’analyse en applications et produits.
Malgré les promesses de la data science et les énormes investissements dans les équipes de ce domaine, de nombreuses entreprises n’exploitent pas le plein potentiel de leurs données. Dans leur course pour recruter des talents et créer des programmes de data science, certaines entreprises ont constaté des flux de travail en équipe inefficaces, avec différentes personnes utilisant différents outils et processus qui ne fonctionnent pas bien ensemble. Sans une gestion centralisée rigoureuse, l’investissement pourrait ne pas être à la mesure des attentes des cadres dirigeants.
Cet environnement chaotique présente de nombreux défis.
Les data scientists ne peuvent pas travailler efficacement. Les data scientists doivent souvent attendre qu’un administrateur informatique leur donne accès aux données et ressources dont ils ont besoin pour les analyser. Une fois cette tâche réalisée, il arrive que l’équipe de data science traite les données à l’aide d’outils différents, voire incompatibles. Par exemple, un data scientist peut développer un modèle en utilisant le langage R, alors que l’application dans laquelle il sera utilisé est écrite dans un autre langage. C’est pourquoi le déploiement des modèles dans des applications pertinentes peut prendre des semaines, voire des mois.
Les développeurs d’applications n’ont pas de machine learning utilisable à leur disposition. Parfois, les modèles de machine learning reçus par les développeurs ne sont pas prêts à être déployés dans des applications. Avec des points d’accès potentiellement inflexibles, il est impossible de déployer les modèles dans tous les scénarios et l’évolutivité est laissée au développeur de l’application.
Les administrateurs informatiques consacrent trop de temps au support. En raison de la prolifération des outils open source, le nombre de logiciels que le service informatique doit prendre en charge ne cesse de s’allonger. Un data scientist en marketing, par exemple, est susceptible d’utiliser des outils différents de celui travaillant dans la finance. Les équipes peuvent également avoir des flux de travail différents, ce qui signifie que le service informatique doit continuellement recréer et mettre à jour les environnements.
Les chefs d’entreprise sont trop éloignés de la data science. Les workflows de la data science ne sont pas toujours intégrés aux processus et aux systèmes de prise de décision de l’entreprise, ce qui complique la collaboration entre les chefs d’entreprise et les data scientists. Sans une meilleure intégration, les chefs d’entreprise ont du mal à comprendre pourquoi il faut tant de temps pour passer du prototype à la production, et ils sont moins susceptibles de soutenir les investissements dans des projets qu’ils perçoivent comme trop lents.
De nombreuses entreprises ont compris que sans une plateforme intégrée, le travail de data science était inefficace, non sécurisé et difficile à faire évoluer. Cette prise de conscience a conduit à l’émergence de plateformes de data science. Il s’agit de plateformes logicielles autour desquelles se déroulent toutes les tâches de data science. Une plateforme bien conçue élimine bon nombre des problèmes liés à la mise en œuvre de la data science et aide les entreprises à transformer leurs données en informations exploitables plus rapidement et plus efficacement.
Avec une plateforme de machine learning centralisée, les data scientists peuvent travailler dans un environnement collaboratif en utilisant leurs outils open source préférés, car leur travail est synchronisé par un système de contrôle de version.
Une plateforme de data science réduit la redondance et encourage l’innovation en permettant aux équipes de partager le code, les résultats et les rapports. Elle élimine les goulots d’étranglement dans le flux de travail en simplifiant la gestion et en intégrant de bonnes pratiques.
En général, les meilleures plateformes de data science visent à :
Les plateformes de data science sont conçues pour la collaboration entre divers utilisateurs, notamment des data scientists spécialistes, des data scientists citoyens, des ingénieurs de données et des ingénieurs ou spécialistes du machine learning. Par exemple, une plateforme de data science peut permettre aux data scientists de déployer des modèles sous forme d’API, ce qui en facilite l’intégration dans les différentes applications. Les data scientists peuvent accéder aux outils, aux données et à l’infrastructure sans passer par le service informatique.
La demande pour des plateformes de data science a explosé sur le marché. Dans les faits, le marché des plateformes devrait croître à un taux annuel composé de plus de 39 % au cours des prochaines années et devrait atteindre 385 milliards de dollars d’ici 2025.
Si vous êtes prêt à explorer les atouts des plateformes de data science, vous devez prendre en compte certaines fonctionnalités essentielles :
Choisir une interface utilisateur basée sur un projet qui encourage la collaboration. La plateforme doit permettre aux collaborateurs de travailler ensemble sur un modèle, de la conception au développement final. Elle doit aussi permettre un libre accès aux données et ressources à chaque membre de l’équipe.
Prioriser l’intégration et la flexibilité. Assurez-vous que la plateforme prend en charge les outils open source les plus récents, ainsi que les fournisseurs de contrôle de version courants tels que GitHub, GitLab et Bitbucket, et propose une intégration étroite avec d’autres ressources.
Ajouter des fonctionnalités de niveau entreprise. Assurez-vous que la plateforme s’adapte à l’évolution de votre entreprise à mesure que votre équipe s’agrandit. La plateforme doit être hautement disponible, disposer de contrôles d’accès robustes et prendre en charge un grand nombre d’utilisateurs simultanés.
Faire de la data science un service en libre accès. Recherchez une plateforme qui simplifie l’informatique et l’ingénierie, et permet aux data scientists de créer des environnements instantanément, de suivre leur travail et de déployer facilement des modèles en production.
Faciliter le déploiement de modèles. Le déploiement et la mise en œuvre du modèle sont l’une des étapes les plus importantes du cycle de vie du machine learning, mais elles sont souvent ignorées. Assurez-vous que le service que vous choisissez facilite la mise en œuvre des modèles, qu’il s’agisse de fournir des API ou de garantir que les utilisateurs créent des modèles d’une manière qui permet une intégration facile.
Votre entreprise est peut-être prête à adopter une plateforme de data science, si vous avez remarqué que :
Une plateforme de data science peut apporter une réelle valeur ajoutée à votre entreprise. La plate-forme de data science d’Oracle comprend une large gamme de services qui offrent une expérience complète d'un bout à l'autre, conçue pour accélérer le déploiement de modèles et améliorer les résultats de la data science.