Was versteht man unter Data Science?

Wer überwacht den Data Science-Prozess?

In den meisten Unternehmen werden Data Science-Projekte in der Regel von drei Arten von Managern überwacht:

Business-Manager: Diese Manager definieren zusammen mit dem Data Science-Team das Problem und entwickeln eine Strategie für die Analysen. Sie können Leiter eines Geschäftsbereichs wie Marketing, Finanzen oder Vertrieb sein und stehen einem Data Science-Team vor. Sie arbeiten eng mit den Data Science- und IT-Leitern zusammen, um sicherzustellen, dass Projekte wie geplant abgeschlossen werden.

IT-Manager: Leitende IT-Manager sind für die Infrastruktur und Architektur verantwortlich, die Data Science-Vorgänge unterstützen. Sie überwachen kontinuierlich den Betrieb und die Ressourcennutzung, um sicherzustellen, dass die Data Science-Teams effizient und sicher arbeiten. Sie können auch für das Erstellen und Aktualisieren von IT-Umgebungen für Data Science-Teams verantwortlich sein.

Data Science-Manager: Diese Manager überwachen das Data Science-Team und seine tägliche Arbeit. Sie stimmen die Teamentwicklung mit der Projektplanung und -überwachung ab.

Der wichtigste Akteur in diesem Prozess ist jedoch der Data Scientist.

Was ist ein Data Scientist?

Data Science ist ein ziemlich neues Fachgebiet. Es entwickelte sich aus den Bereichen der statistischen Analyse und des Data Mining. The Data Science Journal erschien erstmals im Jahr 2002, veröffentlicht vom Internationalen Wissenschaftsrat: Ausschuss für Daten für Wissenschaft und Technologie. 2008 hatte sich der Titel Data Scientist etabliert, das Fachgebiet entwickelte sich rasant weiter. Seitdem mangelt es an Datenanalysten, obwohl immer mehr Hochschulen und Universitäten entsprechende Studiengänge anbieten.

Die Aufgaben eines Data Scientists umfassen z. B. die Entwicklung von Strategien für die Datenanalyse, die Vorbereitung von Daten für die Analyse, die Untersuchung, Analyse und visuelle Aufbereitung von Daten, der Aufbau von Modellen mit Daten unter Verwendung von Programmiersprachen wie Python und R oder die Implementierung von Modellen in Anwendungen.

Datenanalysten arbeiten nicht allein. Tatsächlich werden die Aufgaben von Datenanalysten am effektivsten in Teamarbeit erledigt. Dieses Team kann neben dem Datenanalysten beispielsweise folgende Rollen umfassen: einen Geschäftsanalysten, der das Problem definiert, einen Dateningenieur, der die Daten und den Zugriff auf sie vorbereitet, einen IT-Architekt, der für die zugrunde liegenden Prozesse und Infrastruktur verantwortlich ist, und einen Anwendungsentwickler, der die Modelle oder Ergebnisse der Analyse in Anwendungen und Produkte implementiert.

Herausforderungen bei der Implementierung von Data Science-Projekten

Trotz der Vorteile von Data Science und umfangreicher Investitionen in Datenanalyseteams schöpfen viele Unternehmen nicht das volle Potenzial ihrer Daten aus. Bei ihren intensiven Bemühungen um qualifizierte Mitarbeiter und den Aufbau von Datenanalyseprogrammen haben einige Unternehmen ineffiziente Arbeitsabläufe bemerkt, bei denen verschiedene Teammitglieder unterschiedliche Tools und Verfahren verwendeten, die nicht gut zusammen funktionierten. Ohne eine disziplinierte, zentrale Verwaltung können Führungskräfte ggf. nicht die bestmögliche Rendite erzielen.

Diese chaotische Umgebung hält viele Herausforderungen bereit.

Data Scientists können nicht effizient arbeiten. Da der Zugriff auf Daten von einem IT-Administrator gewährt werden muss, warten Data Scientists oft lange auf die Daten und die Ressourcen, die sie für ihre Analyse benötigen. Sobald sie Zugriff haben, kann das Datenwissenschaftsteam die Daten mit verschiedenen – und möglicherweise inkompatiblen – Tools analysieren. Ein Wissenschaftler kann beispielsweise ein Modell mit der Programmiersprache R entwickeln, aber die Anwendung, in der das Modell verwendet werden soll, ist in einer anderen Sprache programmiert. Aus diesem Grund kann es Wochen oder sogar Monate dauern, bis die Modelle in sinnvolle Anwendungen implementiert werden.

Anwendungsentwicklern fehlt der Zugang zu nutzbarem maschinellem Lernen. Manchmal sind die Machine-Learning-Modelle, die Entwickler erhalten, nicht für die Implementierung in Anwendungen bereit. Da Zugriffspunkte unflexibel sein können, lassen sich Modelle nicht in allen Szenarien bereitstellen, und die Skalierbarkeit bleibt dem Anwendungsentwickler überlassen.

IT-Administratoren verbringen zu viel Zeit mit Support. Aufgrund der zunehmenden Verbreitung von Open-Source-Tools muss die IT-Abteilung immer mehr Tools unterstützen. So verwendet möglicherweise ein Datenanalyst im Marketing andere Tools als ein Datenanalyst in der Finanzabteilung. Auch die Arbeitsabläufe der einzelnen Teams können sich unterscheiden. Die IT-Abteilung muss Umgebungen daher regelmäßig neu erstellen und aktualisieren.

Business-Manager bleiben bei der Datenanalyse oft außen vor. Die Arbeitsabläufe der Data Scientists sind nicht immer in die Verfahren zur geschäftlichen Entscheidungsfindung integriert. Dann wird es für Business-Manager schwierig, kompetent mit Data Scientists zusammenzuarbeiten. Ohne eine bessere Integration lässt sich für Business-Manager nicht leicht nachvollziehen, warum zwischen der Prototyperstellung und der Produktion so viel Zeit verstreicht – und sie sind weniger gewillt, in Projekte zu investieren, die sie als zu langsam erachten.

Die Data Science-Plattform stellt neue Funktionen bereit

Viele Unternehmen erkannten, dass Data Science-Projekte ohne eine integrierte Plattform ineffizient, unsicher und nur schwer skalierbar waren. Diese Erkenntnis führte zur Entwicklung von Data Science-Plattformen. Bei diesen Plattformen handelt es sich um Software-Hubs, die das Zentrum der Datenanalysen darstellen. Eine gute Plattform bewältigt viele der Herausforderungen bei der Implementierung von Data Science und hilft Unternehmen dabei, schneller und effizienter Erkenntnisse aus ihren Daten zu gewinnen.

Mit einer zentralen Machine-Learning-Plattform können Data Scientists in einer auf die Zusammenarbeit ausgelegten Umgebung mit ihren bevorzugten Open-Source-Tools arbeiten. Ihre Arbeit wird dabei durch ein Versionskontrollsystem synchronisiert.

Die Vorteile einer Data Science-Plattform

Eine Data Science-Plattform verringert die Redundanz und fördert die Innovation, da sie Teams ermöglicht, Programmcode, Ergebnisse und Berichte gemeinsam zu nutzen. Durch die Vereinfachung der Verwaltung und die Einbeziehung von Best Practices werden Engpässe im Arbeitsfluss beseitigt.

Im Allgemeinen zielen die besten Data Science-Plattformen auf Folgendes ab:

  • Die Produktivität von Data Scientists zu steigern, indem sie ihnen helfen, Modelle schneller und mit weniger Fehlern behaftet zu beschleunigen und bereitzustellen
  • Data Scientists die Arbeit mit großen Datenmengen und vielfältigen Daten zu erleichtern
  • Vertrauenswürdige künstliche Intelligenz für Unternehmen bereitzustellen, die vorurteilsfrei, überprüfbar und reproduzierbar ist

Data Science-Plattformen wurden für die Zusammenarbeit einer Reihe von Nutzern entwickelt, darunter Data Science-Experten, Citizen Data Scientists, Dateningenieure und Machine-Learning-Ingenieure oder -Spezialisten. Mit einer Data Science-Plattform können Datenanalysten beispielsweise Modelle als APIs bereitstellen, was die Integration in verschiedene Anwendungen vereinfacht. Data Scientists können unabhängig vom IT-Team auf Tools, Daten und die Infrastruktur zugreifen.

Die Nachfrage nach Data Science-Plattformen auf dem Markt ist explodiert. Tatsächlich dürfte das Wachstum des Plattform-Marktes in den nächsten Jahren bei einer durchschnittlichen jährlichen Rate von mehr als 39 Prozent liegen. Bis 2025 soll Prognosen zufolge ein Wert von 385 Mrd. US-Dollar erreicht werden.

Was ein Data Scientist bei einer Plattform benötigt

Wenn Sie bereit sind, die Funktionen von Data Science-Plattform zu erkunden, berücksichtigen Sie die folgenden zentralen Funktionen:

Wählen Sie eine projektbasierte Nutzeroberfläche, die die Zusammenarbeit fördert. Die Plattform sollte die Mitarbeiter in die Lage versetzen, zusammen an einem Modell zu arbeiten, von der Konzeption bis hin zur endgültigen Entwicklung. Jedes Teammitglied sollte Selfservice-Zugriff auf Daten und Ressourcen haben.

Priorisieren Sie Integration und Flexibilität. Stellen Sie sicher, dass die Plattform die aktuellen Open-Source-Tools, gängige Versionskontrollanbieter wie GitHub, GitLab und Bitbucket und eine enge Integration mit anderen Ressourcen unterstützt.

Fügen Sie unternehmensfähige Funktionen hinzu. Stellen Sie sicher, dass die Plattform zusammen mit Ihrem Unternehmen skaliert werden kann, wenn Ihr Team größer wird. Die Plattform sollte hochverfügbar sein, über robuste Zugriffskontrollen verfügen und eine große Anzahl gleichzeitiger Benutzer unterstützen.

Gestalten Sie Data Science mit Selfservice-Funktionalität. Entscheiden Sie sich für eine Plattform, die den Arbeitsaufwand von IT-Teams und Software-Ingenieuren verringert und es Data Scientists ermöglicht, sofort Umgebungen einzurichten, ihre Arbeit nachzuverfolgen und Modelle leicht in die Produktion zu implementieren.

Stellen Sie eine einfachere Modellbereitstellung sicher. Die Bereitstellung und Operationalisierung von Modellen ist einer der wichtigsten Schritte im Machine-Learning-Lebenszyklus, der allerdings häufig ignoriert wird. Stellen Sie sicher, dass der von Ihnen ausgewählte Dienst die Operationalisierung von Modellen erleichtert, unabhängig davon, ob APIs bereitgestellt werden oder ob Nutzer Modelle so erstellen, dass eine einfache Integration möglich ist.

Wenn eine Data Science-Plattform der richtige Schritt ist

Ihr Unternehmen könnte für eine Data Science-Plattform bereit sein, wenn Sie Folgendes bemerkt haben:

  • Produktivität und Zusammenarbeit zeigen Anzeichen von Anspannung.
  • Machine-Learning-Modelle können nicht geprüft oder reproduziert werden.
  • Modelle schaffen es nie in die Produktion

Eine Data Science-Plattform kann Ihrem Unternehmen einen echten Mehrwert bieten. Die Data Science-Plattform von Oracle umfasst eine Vielzahl von Services, die eine umfassende End-to-End-Erfahrung bieten, um die Modellbereitstellung zu beschleunigen und die Data Science-Ergebnisse zu verbessern.