Oracle Cloud Infrastructure (OCI) Data Flow est un service Apache Spark entièrement géré qui effectue des tâches de traitement sur des ensembles de données extrêmement volumineux, sans infrastructure à déployer ou à gérer. Les développeurs peuvent également utiliser Spark Streaming pour effectuer une opération ETL cloud sur leurs données de diffusion en continu. Cela permet une livraison rapide des applications car les développeurs peuvent se concentrer sur le développement des applications, et non sur la gestion des infrastructures.
Découvrez comment Ronin a exploité OCI Data Flow avec Apache Spark pour construire un avenir où chacune des décisions cliniques est enracinée dans les données, personnalisée en fonction de l'individu et prise efficacement en toute confiance.
Regardez l’événement Oracle Developer Live et découvrez comment utiliser l’intégration de données et le flux de données pour optimiser l’utilisation des données.
Découvrez comment Data Flow simplifie l'exécution des applications Spark.
OCI Data Flow s’occupe de la mise en place de l’infrastructure, de la configuration du réseau et du démontage lorsque les tâche Spark sont terminées. Le stockage et la sécurité sont également gérés, ce qui signifie qu’il faut moins de travail pour créer et gérer les applications Spark pour l’analyse de Big Data.
Avec OCI Data Flow, il n’y a pas de clusters à installer, à corriger ou à mettre à niveau, ce qui permet de gagner du temps et de réduire les coûts opérationnels des projets.
OCI Data Flow exécute chaque tâche Spark avec des ressources privées spécialisées, ce qui élimine la nécessité d’une planification initiale des capacités.
Avec OCI Data Flow, le service informatique ne doit payer que les ressources d’infrastructure utilisées par les tâches Spark lorsqu’elles sont en cours d’exécution.
Spark Streaming avec gestion zéro, tolérance automatique aux pannes et correctifs automatiques.
Grâce à la prise en charge de Spark Streaming, vous bénéficiez de fonctionnalités d'extraction continue et de disponibilité continue des données traitées. OCI Data Flow gère les tâches lourdes liées au traitement de flux avec Spark, ainsi que la possibilité d'effectuer du machine learning sur les données transmises en continu à l'aide de MLLib. OCI Data Flow prend en charge Oracle Cloud Infrastructure (OCI) Object Storage et toute source de transmission en continu compatible avec Kafka, y compris Oracle Cloud Infrastructure (OCI) Streaming, comme sources et récepteurs de données.
Spark gère les données arrivant en retard en raison de pannes et peut rattraper les données en retard au fil du temps grâce au filigrane, une fonctionnalité de Spark qui maintient, stocke et regroupe les données en retard, sans qu'il soit nécessaire de relancer manuellement le travail. OCI Data Flow redémarre automatiquement l'application lorsque cela est possible et l'application peut simplement continuer à partir du dernier point de contrôle.
Les applications OCI Data Flow Streaming peuvent utiliser l'authentification cloud native via des principaux de ressource afin que les applications puissent fonctionner pendant plus de 24 heures.
Tirez parti de la sécurité inégalée d’Oracle Cloud Infrastructure. L’authentification, l’isolement et tous les autres points critiques sont traités. Protégez les données critiques avec les plus hauts niveaux de sécurité.
OCI Data Flow utilise nativement le système Identity and Access Management d’Oracle Cloud pour contrôler les données et l’accès, afin que les données restent sécurisées.
Définissez des quotas et des limites pour gérer les ressources disponibles pour OCI Data Flow et contrôler les coûts.
OCI Data Flow simplifie les tâches opérationnelles courantes telles que la gestion des journaux et l’accès aux interfaces utilisateur opérationnelles, libérant ainsi le temps des développeurs pour se concentrer sur la création d’applications.
OCI Data Flow permet de voir facilement ce que font les utilisateurs de Spark en regroupant les informations opérationnelles dans une seule interface utilisateur interrogeable.
Le suivi des journaux et des outils pour dépanner une tâche Spark peut prendre des heures, mais pas avec une vue consolidée de la sortie du journal, le serveur d’historique Spark, etc.
Triez, recherchez et filtrez pour étudier les applications historiques afin de mieux gérer les travaux coûteux et éviter les dépenses inutiles.
Les administrateurs peuvent facilement découvrir et arrêter les tâches Spark en direct qui s’exécutent depuis trop longtemps ou qui consomment trop de ressources et qui augmentent les coûts.
Les écosystèmes de Big Data nécessitent de nombreuses pièces mobiles et intégrations, mais OCI Data Flow est compatible avec les investissements Spark existants et les services de Big Data, ce qui permet de gérer facilement le service et de fournir ses résultats là où ils sont nécessaires.
Migrez les applications Spark existantes à partir de Hadoop ou d’autres services Big Data.
Capturez automatiquement et en toute sécurité les résultats des tâches Spark, puis accédez-y via l’interface utilisateur ou les API REST pour rendre les analyses disponibles.
Tous les aspects du flux de données OCI peuvent être gérés à l’aide de simples API REST, de la création de l’application à l’exécution en passant par l’accès aux résultats des tâches Spark.
Avec Oracle Cloud Infrastructure Data Flow, nous avons respecté les SLA client en réduisant le temps nécessaire au traitement des données de 75 % et en réduisant le coût de plus de 300 %.Arun Nimmala, Directeur d’exécutionIntégration des services globaux et architecture analytique, Oracle
L'accélérateur NVIDIA RAPIDS pour Apache Spark dans OCI Data Flow est pris en charge pour aider à accélérer les workflows de science des données, de machine learning et d'IA.
Data Flow gère le déchargement ETL en supervisant les tâches Spark, en optimisant les coûts et en libérant de la capacité.
Les capacités de gestion des sorties de Data Flow optimisent la capacité d'interroger les données à l'aide de Spark.
Les ressources peuvent être automatiquement transférées pour gérer des tâches imprévisibles et réduire les coûts. Un tableau de bord fournit une vue de l’utilisation et du budget à des fins de planification future.
Les développeurs Spark et de machine learning peuvent utiliser la bibliothèque de Spark et exécuter des modèles plus efficacement à l'aide de Data Flow.
Bénéficiez de la prise en charge de Spark Streaming sans aucune gestion et avec une tolérance automatique aux pannes et des garanties de bout en bout, une fois exactement et une application automatique des correctifs.
Inscrivez-vous au compte Oracle Cloud et essayez gratuitement le service Data Flow.
En savoir plus sur Oracle Cloud Infrastructure Data Flow.
Découvrez le produit en direct, gratuitement.
Parlez d’Oracle Cloud Infrastructure Data Flow à un membre de l’équipe.