Big Data Open Source

Il serait difficile d'écrire l'histoire du big data sans inclure de open source - les deux sont liés ensemble. Le développement de logiciels open source a été un énorme facteur dans l'évolution du Big Data. Et la technologie open source continue d'être une partie intégrante de l'écosystème du Big Data en raison de sa capacité à innover rapidement. En fait, les noms les plus importants dans les logiciels Big Data (Hadoop, Spark, Cassandra et Kafka) sont tous open source.

Comment les entreprises utilisent-elles l'open source pour le Big Data ?

Bien que les logiciels open source aient la réputation d'être un favori parmi les amateurs et les développeurs amateurs, ce monde des affaires adopte depuis un certain temps open source dans des environnements stratégiques.

Voici quelques-unes des raisons pour lesquelles les entreprises choisissent un logiciel open source :

Des fonctionnalités compétitives et techniques
Qualité des solutions
Possibilité de personnaliser et de résoudre les problèmes
Basse barrière à l'entrée

L'un des plus grands avantages de l'open source est sans doute sa grande communauté de développeurs dévouée. Les projets open source les plus populaires disposent d'une énorme base de développeurs qui travaille à corriger et à améliorer la technologie. Les développeurs sont attirés par l'open source pour ses fonctionnalités concurrentielles et ses capacités innovantes, ce qui est particulièrement précieux par rapport à ce que les logiciels traditionnels peuvent créer.

L'open source est particulièrement bénéfique pour les entreprises qui n'ont pas les ressources informatiques ou de développement en interne pour construire leur propre logiciel. Sinon, les entreprises qui disposent de ces ressources se tournent vers l'open source pour donner à leurs employés la technologie de pointe avec laquelle ils sont plus intéressés à travailler.

Comment les entreprises voient-elles l'open source ?

La technologie open source promet énormément. Mais ce n'est pas sans défis. Selon l'étude de l'avenir de l'open source réalisée par North Bridge et Black Duck en 2016, près de 33 % des entreprises n'ont aucun processus pour identifier, suivre ou corriger les vulnérabilités open source connues, ce qui pourrait les laisser ouvertes aux menaces de sécurité.

L'open source a été très avantageux pour la communauté Big Data. Grâce à son code prêt à l'emploi, les logiciels open source ont permis aux entreprises de mettre leurs produits sur le marché plus rapidement. Mais elle a toujours porté un certain risque. La vulnérabilité de sécurité OpenSSL Heartbleed en 2014 n'est qu'un exemple de ses vulnérabilités.

Malgré les avantages découlant de la présence de nombreux contributeurs, les logiciels open source ne sont pas à l'abri des erreurs de programmation ordinaire et des problèmes de sécurité. La plupart des ingénieurs logiciels ne suivent pas l'utilisation du logiciel open source, ce qui fait que de nombreuses entreprises ne connaissent pas les risques de sécurité et de conformité qu'elles pourraient rencontrer.

Pour que l'open source soit pleinement utilisable et efficace, la plupart des entreprises ont besoin d'être intégrées et soutenues dans une certaine mesure. Ce qui est plus facile à dire qu'à faire, car dans un sens, l'open source n'est jamais complète. Il y a toujours quelque chose de nouveau à faire. En outre, les produits open source ne sont souvent pas exactement faciles à utiliser. L'utilisation d'open source peut nécessiter une formation. La compatibilité avec les applications et le matériel existants constitue une autre préoccupation. La plupart des entreprises finissent par adopter l'open source via une autre entreprise.

Des entreprises comme Oracle, Databricks et DataStax ont travaillé avec l'open source de cette manière. Ces entreprises ont intégré l'open source dans l'entreprise et l'ont rendu entièrement utilisable. Ces entreprises apportent une valeur ajoutée à l'open source grâce à des validations et d'autres améliorations.

Lors du sommet open source de 2017, le fondateur de Linux, Linus Torvalds, a reconnu l'influence et le travail des entreprises sur les projets open source et l'a salué. "Il est très important d'avoir des entreprises en open source", a-t-il déclaré. "C'est une chose dont j'ai été très heureux."

Comment Oracle Big Data utilise-t-il l'open source ?

En 2017, Oracle a été nommé l'une des plus de 35 entreprises qui jouent un rôle majeur dans le développement et la maintenance de logiciels open source. Grâce à l'achat de Sun Microsystems en 2010, Oracle a hérité de certaines des technologies open source les plus populaires au monde. Notre soutien aux technologies de Big Data open source a été l'un des moteurs de croissance les plus importants pour nous ces dernières années. Oracle continue de prendre en charge le développement open source et les bases.

En ce qui concerne le Big Data, Oracle a été particulièrement proactif en travaillant avec des logiciels open source. La section suivante décrit comment Oracle utilise l'open source dans divers domaines de notre plate-forme Big Data. Chez Oracle, l'utilisation du Big Data implique trois étapes clés :

Intégrer le Big Data et l'intégrer dans votre système
gérer votre Big Data et disposer d'un espace de stockage
analyser pour comprendre, visualiser, donner du sens à vos données et même créer des modèles proactifs basés sur l'apprentissage automatique

Intégration et Big Data

De nombreux clients du Big Data exigent des offres open source. Oracle s'engage à développer, soutenir et promouvoir l'open source. Les produits d'intégration de données Oracle, tels qu'Oracle Data Integration et Oracle GoldenGate, incluent la technologie open source, ainsi que de nombreuses autres plates-formes.

Nous savons également que de nombreux clients souhaitent moderniser leurs structures open source et les technologies de support en constante évolution. Côté intégration des données, nous prenons actuellement en charge environ vingt-cinq technologies open source, sources de données, cibles et structures d'exécution différentes. Parmi les technologies que nous prenons en charge figurent :

Apache Kafka
Apache Hive
Apache HBase
Système cloud Hadoop
Apache Cassandra

Ce que les clients regardent aujourd'hui, c'est le niveau de maturité de leurs produits Big Data. L'un des facteurs les plus importants à prendre en compte est de savoir si le fournisseur dispose d'une stratégie de support acceptable autour des structures Big Data. Il est essentiel que le fournisseur ne soit pas victime de son engagement envers la technologie open source.

En plus de la maturité des produits, une solution métier Big Data est généralement un mélange d'open source et de non-open source. Les entreprises ont résolu les problèmes liés au Big Data à l'aide de solutions open source, mais cela exige beaucoup d'engagement, de dévouement et d'expertise.

Vous pouvez et devez exploiter la technologie open source là où elle a du sens. Mais le plus souvent, vous devrez également vous associer à une variété d'autres technologies de fournisseurs.

Par exemple, au début de l'établissement de lacs de données, les entreprises voulaient tirer parti d'un produit comme Kafka, avec sa capacité à prendre de nombreuses entrées et à distribuer à de nombreux résultats. Obtenez Kafka plus fiable et plus robuste, une technologie comme Oracle GoldenGate était nécessaire. Bien que GoldenGate ne soit pas open source, GoldenGate et Kafka offrent ensemble une meilleure option d'ingestion pour un lac de données que l'utilisation d'un produit comme Sqoop avec Kafka, car GoldenGate est un produit beaucoup plus robuste et mature que Sqoop.

Gestion du Big Data

Du point de vue de la gestion des données, la pile de produits Big Data d'Oracle est fortement basée sur l'open source.

Oracle a choisi cette approche pour tirer parti de l'innovation open source et avoir un meilleur contrôle sur les fonctionnalités mises à la disposition des clients. Avec le Big Data, plusieurs composants de la pile évoluent en permanence. C'est pourquoi nous avons pris la décision d'avoir notre propre distribution Hadoop open source.

Nous pensons également que l'utilisation de logiciels open source permet à Oracle de fournir un meilleur support à nos clients. En même temps, nous savons que d'autres écosystèmes de logiciels développent des projets open source intéressants qui évoluent. C'est pourquoi Oracle continue de contribuer à de nombreuses communautés de développement différentes. Par exemple, les efforts de développement d'Oracle évoluent pour utiliser la banque d'objets comme lac de données.

Oracle contribue activement aux communautés open source et offre aux clients une partie de notre propre adresse IP pour de meilleures performances et fonctionnalités.

Langage de programmation R

Chez Oracle, nous n'avons pas seulement adopté R. Nous l'avons en fait amélioré. La redistribution open source R prise en charge par Oracle (téléchargement gratuit) est compatible avec l'exécution dans une base de données et Hadoop, et est désormais plus rapide, car nous l'avons parallélisée.

R peut être exécuté sur plusieurs noeuds et sur un cluster plutôt que sur une seule machine, de sorte que les clients peuvent exécuter des algorithmes plus grands et plus complexes sur un plus grand nombre d'ensembles de données sans dépendre de l'échantillonnage. Les améliorations apportées par Oracle à R permettent aux utilisateurs d'utiliser la syntaxe R et de fournir différentes implémentations qui la rendent évolutive et performante.

En outre, Oracle a apporté les améliorations suivantes à R :

Algorithmes créés pour fonctionner dans la syntaxe de base de données et R
Took R script et rendu exécutable
Simplification du lancement du script R et de l'utilisation du langage SQL

Oracle s'est également étendu à l'espace Hadoop et a introduit l'interface R pour Hive.

L'engagement d'Oracle envers R, Hadoop et l'open source ne se limite pas à la technologie. Lorsque la communauté R a créé le Consortium R en 2015, Oracle a été un membre fondateur. Le R Consortium a été fondé pour apporter des avantages et un soutien à la communauté R open source. Oracle continue de soutenir la croissance et le développement de R et a encouragé l'adoption des meilleures pratiques en matière de qualité des packages R.

Base de données spatiale et graphique pour le Big Data

Les services d'analyse de graphes et les modèles de données Oracle Spatial et Oracle prennent en charge les charges de travail Big Data sur les technologies de base de données Apache Hadoop et NoSQL. Les deux intègrent des bibliothèques et des composants open source pour compléter nos offres. Oracle a utilisé plusieurs de ces composants à des fins d'infrastructure, principalement sur des projets basés sur Apache.

Oracle considère la relation comme mutuellement avantageuse. Par exemple, nos analyses sur le plan spatial/graphique sont personnalisées, mais nous avons accéléré ce processus car nous l'avons basé sur un projet open source appelé Green-marl, un langage spécifique à un domaine pour l'analyse des données graphiques qui nous permet d'aborder plus rapidement les questions d'analyse pour les clients.

Lorsqu'Oracle contribue à l'open source, nous l'exploitons généralement, le personnalisons et l'améliorons. Voici des exemples des contributions d'Oracle à l'open source :

Cytoscape : Oracle développe des composants que nous envoyons (tels qu'une extension à GDAL) afin que d'autres puissent charger des données dans leurs bases de données spatiales.
Côté graphe des propriétés : Oracle trouve des opportunités d'étendre les produits ou projets sur lesquels nous travaillons, d'identifier les bugs et les problèmes de sécurité, ainsi que de fournir des commentaires aux développeurs appropriés. La fonctionnalité que nous avons la plus utile est RDF W3C.
Oracle l'a intégré pour l'importation, l'exportation et la conversion de format des données spatiales. Oracle fournit le pilote Oracle Spatial et Oracle Graph.