Open source per i Big Data

Sarebbe difficile scrivere la storia dei big data senza includere l'open source: i due sono legati insieme. Lo sviluppo di software open source è stato un enorme fattore nell'evoluzione dei big data. E la tecnologia open source continua a essere parte integrante dell'ecosistema dei big data grazie alla sua capacità di innovazione rapida. Infatti, i nomi più importanti del software per i Big Data, Hadoop, Spark, Cassandra e Kafka, sono tutti open source.

In che modo le aziende utilizzano l'open source per i Big Data?

Anche se il software open source ha la reputazione di essere un favorito di hobbisti e sviluppatori dilettanti, che il mondo degli affari sta adottando open source in ambienti mission-critical per un po 'di tempo.

Ecco alcuni dei motivi per cui le aziende scelgono un software open source:

  • Caratteristiche e capacità tecniche della concorrenza
  • Qualità delle soluzioni
  • Possibilità di personalizzare e risolvere i problemi
  • Barriera bassa all'ingresso

Probabilmente, uno dei maggiori vantaggi dell'open source è la sua grande e devota comunità di sviluppatori. I progetti open source più popolari hanno un'enorme base di sviluppatori che lavora per applicare patch e migliorare la tecnologia. Gli sviluppatori sono attratti dall'open source per le sue caratteristiche competitive e le sue capacità innovative, che è particolarmente importante rispetto a quello che il software tradizionale può creare.

L'open source è particolarmente vantaggiosa per le aziende che non dispongono dello sviluppo interno o delle risorse IT per creare il proprio software. In alternativa, le aziende che dispongono di tali risorse si rivolgono all'open source per offrire ai propri dipendenti la tecnologia all'avanguardia con cui sono più interessati a lavorare.

Come le aziende vedono l'open source?

La tecnologia open source offre una grande quantità di promesse. Ma non è senza sfide. Secondo quanto riportato da North Bridge e Black Duck Future of Open Source Study del 2016, quasi il 33% delle aziende non ha alcun processo per identificare, tracciare o correggere vulnerabilità conosciute open source, che potrebbero lasciarle aperte alle minacce alla sicurezza.

L'open source è stato molto vantaggioso per la community dei Big Data. Con il codice pronto all'uso, il software open source ha consentito alle aziende di introdurre i prodotti sul mercato più velocemente. Ma ha sempre portato una certa quantità di rischio. La vulnerabilità della sicurezza OpenSSL Heartbleed nel 2014 è solo un esempio delle sue vulnerabilità.

Nonostante i vantaggi derivanti dall'avere molti collaboratori, il software open source non è immune agli errori di programmazione ordinaria e alle limitazioni della sicurezza. La maggior parte dei tecnici software non tiene traccia dell'utilizzo open source, pertanto molte aziende non sono consapevoli dei rischi che potrebbero affrontare in termini di sicurezza e conformità.

Affinché l'open source sia pienamente utilizzabile ed efficace, la maggior parte delle aziende deve essere integrata e supportata in una certa misura. Che è più facile dire che fare, perché in un senso open source non è mai completo. C'è sempre qualcosa di nuovo su cui lavorare. Inoltre, i prodotti open source spesso non sono esattamente facili da utilizzare. L'utilizzo di open source può richiedere formazione. La compatibilità con le applicazioni e l'hardware esistenti rappresenta un altro problema. Molte aziende finiscono per adottare open source attraverso un'altra azienda.

Aziende come Oracle, Databricks e DataStax lavorano in questo modo con open source. Queste aziende hanno introdotto l'open source nell'azienda e l'hanno resa completamente utilizzabile. C'è un enorme vantaggio per questo perché queste aziende aggiungono valore all'open source attraverso commit e vari altri miglioramenti.

Durante l'Open Source Summit del 2017, il fondatore di Linux Linus Torvalds ha confermato l'influenza e il lavoro svolto sui progetti open source dagli sviluppatori aziendali e lo ha accolto con favore. "È molto importante avere aziende in open source", ha detto. "È una cosa di cui sono stato molto felice."

In che modo Oracle Big Data utilizza l'open source?

Nel 2017, Oracle è stata nominata una delle prime 35 aziende che svolgono un ruolo fondamentale nello sviluppo e nella manutenzione di software open source. Attraverso l'acquisto di Sun Microsystems nel 2010, Oracle ha ereditato alcune delle tecnologie open source più diffuse al mondo. Negli ultimi anni il nostro sostegno alle tecnologie open source per i Big Data è stato uno dei fattori chiave per la crescita. Oracle continua a supportare lo sviluppo e le fondazioni open source.

Per quanto riguarda i Big Data, Oracle è stato particolarmente proattivo nell'utilizzo di software open source. La sezione successiva descrive in che modo Oracle utilizza l'open source in varie aree della nostra piattaforma per big data. In Oracle, lavorare con i Big Data prevede tre passi chiave:

  • integrare i Big Data e portarli nel sistema
  • gestire i Big Data e avere un luogo dove memorizzarli
  • analizzare per comprendere, visualizzare, avere senso e persino creare modelli proattivi basati sul machine learning con i tuoi dati

Integrazione e big data

Molti dei nostri clienti big data richiedono offerte open source specifiche. Oracle si impegna con dedizione allo sviluppo, al supporto e alla promozione di software open source. I prodotti di integrazione dei dati Oracle, come Oracle Data Integration e Oracle GoldenGate, includono la tecnologia open source e molte altre piattaforme.

Inoltre, notiamo che molti clienti desiderano modernizzare i propri framework open source e le tecnologie di supporto in costante evoluzione. Dal punto di vista dell'integrazione dei dati, attualmente supportiamo circa venticinque diverse tecnologie open source, fonti di dati, obiettivi e framework di esecuzione. Alcune delle tecnologie supportate includono:

  • Apache Kafka
  • Apache Hive
  • Apache HBase
  • Sistema cloud Hadoop
  • Apache Cassandra

Quello che i clienti stanno guardando in questi giorni è il livello di maturità dei loro prodotti big data. Uno dei fattori più importanti da considerare è se il fornitore ha una strategia di supporto accettabile per i framework dei Big Data. È fondamentale che il fornitore non sia informale sul proprio impegno nei confronti della tecnologia open source.

Oltre alla maturità del prodotto, in genere una soluzione aziendale dedicata ai Big Data sarà una combinazione di open source e non open source. Le aziende hanno risolto i problemi relativi ai Big Data con soluzioni open source, ma richiede un elevato impegno, dedizione e competenza.

È possibile e deve sfruttare la tecnologia open source dove ha senso. Ma più spesso, dovrai collaborare anche con una varietà di altre tecnologie dei fornitori.

Ad esempio, nei primi giorni di creazione dei data lake, le aziende volevano sfruttare un prodotto come Kafka, con la sua capacità di prendere molti input e distribuire a molti output. Ma ottenere Kafka più affidabile e affidabile, era necessaria una tecnologia come Oracle GoldenGate. Sebbene GoldenGate non sia open source, GoldenGate e Kafka insieme rendono un'opzione di inclusione migliore per un data lake rispetto all'uso di un prodotto come Sqoop con Kafka perché GoldenGate è un prodotto molto più robusto e maturo di Sqoop.

Gestione dei big data

Dal punto di vista del data management, lo stack di prodotti big data di Oracle è fortemente basato sull'open source.

Oracle ha scelto questo approccio per sfruttare l'innovazione open source e avere un migliore controllo sulle funzionalità rese disponibili dai clienti. Con i Big Data, nello stack sono presenti più componenti che si evolvono continuamente. Ecco perché abbiamo preso la decisione di avere la nostra distribuzione Hadoop open source.

Crediamo inoltre che l'utilizzo di software open source consenta a Oracle di offrire un supporto migliore ai nostri clienti. Allo stesso tempo, sappiamo che altri ecosistemi software stanno sviluppando interessanti progetti open source che si stanno evolvendo. Ecco perché Oracle continua a contribuire a numerose community di sviluppo diverse. Ad esempio, le iniziative di sviluppo intraprese da Oracle si stanno evolvendo per utilizzare l'area di memorizzazione degli oggetti come data lake.

Oracle contribuisce attivamente alle community open source e offre ai clienti alcuni del nostro IP per migliorare prestazioni e funzionalità.

linguaggio di programmazione R

In Oracle, non abbiamo adottato solo R, ma l'abbiamo migliorata. La ridistribuzione supportata da Oracle di R open source (scaricabile gratuitamente) è compatibile con l'esecuzione in database e Hadoop ed è ora più rapida perché ne abbiamo parallelizzati.

R può essere eseguito su più nodi e su un cluster anziché su un singolo computer, in modo che i clienti possano eseguire algoritmi più grandi e complessi su più set di dati senza fare affidamento sul campionamento. I miglioramenti apportati da Oracle a R consentono agli utenti di utilizzare la sintassi R e fornire implementazioni diverse sotto di essa che lo rendono scalabile e performante.

Inoltre, Oracle ha apportato i seguenti miglioramenti a R:

  • Algoritmi creati per il funzionamento nel database e nella sintassi R
  • Script R Took e reso eseguibile
  • Semplificazione dell'avvio dello script R da parte degli utenti e utilizzo di SQL

Oracle si è esteso anche allo spazio Hadoop, introducendo l'interfaccia R per Hive.

L'impegno di Oracle per R, Hadoop e open source non riguarda solo la tecnologia. Quando la comunità R ha creato il Consortium nel 2015, Oracle è stato un membro fondatore. Il Consorzio R è stato fondato per fornire vantaggi e supporto alla comunità open source R. Oracle continua a sostenere la crescita e lo sviluppo di R e ha incoraggiato l'adozione delle best practice per la qualità del pacchetto R.

Database spaziale e grafico per i Big Data

I servizi di analitica grafica e i modelli di dati di Oracle Spatial e Oracle supportano carichi di lavoro su Big Data sulle tecnologie di database Apache Hadoop e NoSQL. Incorporare librerie open source e componenti per completare le nostre offerte. Oracle ha utilizzato diversi di questi componenti per l'infrastruttura, principalmente per progetti basati su Apache.

Oracle visualizza la relazione come reciprocamente vantaggiosa. Ad esempio, i nostri dati analitici sul lato spaziale/grafico vengono creati in modo personalizzato, ma abbiamo accelerato il processo perché lo abbiamo basato su un progetto open source denominato Green-marl, un linguaggio specifico del dominio per l'analisi dei dati grafici che ci consente di eseguire più rapidamente le domande relative all'analitica per i clienti.

Quando il contributo che Oracle apporta all'open source, in genere sfruttiamo l'open source, lo personalizziamo e lo miglioriamo. Ecco alcuni esempi del contributo di Oracle all'open source:

  • Cytoscape: Oracle sviluppa componenti che spediamo (ad esempio un'estensione a GDAL) in modo che altri possano caricare dati nei loro database spaziali.
  • Grafico delle proprietà: Oracle trova le opportunità per estendere i prodotti o i progetti su cui lavoriamo, identificare bug e problemi di sicurezza, nonché fornire feedback agli sviluppatori appropriati. La funzionalità su cui abbiamo contribuito di più è RDF W3C.
  • Oracle ha incorporato questo aspetto per l'importazione, l'esportazione e la conversione del formato dei dati spaziali. Oracle fornisce il driver Oracle Spatial e Oracle Graph.