Features von HeatWave Lakehouse

Abfrage-Engine für Daten im Objektspeicher und optional in MySQL-Datenbanken

Fragen Sie Daten im Objektspeicher in verschiedenen Dateiformaten ab, darunter CSV, Parquet und Avro, und exportieren Sie Dateien aus anderen Datenbanken mithilfe der Standard-SQL-Syntax. Optional können Sie diese Daten mit Transaktionsdaten in MySQL-Datenbanken kombinieren. Die Abfrageverarbeitung wird vollständig in der HeatWave-Engine ausgeführt, sodass Sie HeatWave für Nicht-MySQL-Workloads und MySQL-kompatible Workloads gleichermaßen verwenden können. Beim Laden in den HeatWave-Cluster werden Daten aus beliebigen Quellen automatisch in ein einziges optimiertes internes Format umgewandelt. Dadurch erfolgt die Abfrage der Daten im Objektspeicher genauso schnell wie die Abfrage der Datenbanken – eine Branchenneuheit.

Abfrageergebnisse können in den Objektspeicher geschrieben werden, sodass Benutzer sie einfach teilen und Ergebnisse kostengünstig im Objektspeicher speichern können. Damit können Entwickler HeatWave auch für MapReduce-Anwendungen nutzen.

Unterstützung für JSON und JavaScript

Sie können HeatWave verwenden, um halbstrukturierte Daten im JSON-Format im Objektspeicher abzufragen, z. B. um Content-Management-Apps oder Echtzeit-Dashboards unter Verwendung von JSON-Daten im Objektspeicher zu entwickeln. Mit der nativen JavaScript-Unterstützung in HeatWave Lakehouse können Sie JavaScript verwenden, um Daten im Objektspeicher zu verarbeiten und abzufragen. Sie können beispielsweise dynamische Anwendungen zum Laden von Inhalten erstellen, indem Sie die umfangreichen Funktionen von JavaScript nutzen.

Unterstützung für unstrukturierte Dokumente mit HeatWave Vector Store

Mit HeatWave Vector Store können Sie unstrukturierte Dokumente hochladen und abfragen.

Scale-out-Architektur

Die unvergleichliche Performance von HeatWave ist das Ergebnis seiner Scale-out-Architektur, die massive Parallelität bei der Bereitstellung des Clusters, dem Laden von Daten und der Verarbeitung von Abfragen mit bis zu 512 Knoten ermöglicht. Jeder HeatWave-Knoten innerhalb eines Clusters und jeder Core innerhalb eines Knotens kann partitionierte Daten parallel verarbeiten, einschließlich paralleler Scans, Joins, Group-by, Aggregation und Top-K-Verarbeitung. Die Algorithmen sind so ausgelegt, dass sie die Rechenzeit mit Daten über Knoten hinweg überlappen. Dadurch wird eine hohe Skalierbarkeit erreicht.

ML-gestützte Automatisierung mit HeatWave Autopilot

HeatWave Autopilot bietet eine Workload-bezogene Automatisierung für HeatWave, die auf maschinellem Lernen (ML) basiert. HeatWave Autopilot-Funktionen wie automatisches Provisioning, automatische Verbesserung des Abfrageplans (die verschiedenen Laufzeitstatistiken aus früheren Abfrageausführungen erlernt, um den Ausführungsplan für zukünftige Abfragen zu verbessern) und automatisches paralleles Laden wurden für HeatWave Lakehouse verbessert. Zu den zusätzlichen Funktionen von HeatWave Lakehouse gehören:

  • Die automatische Schema-Inferenz leitet automatisch die Zuordnung von Dateidaten zur entsprechenden Schemadefinition für alle unterstützten Dateitypen, einschließlich CSV, ab. Dadurch müssen Sie die Schemazuordnung von Dateien nicht manuell definieren und aktualisieren, was Zeit und Aufwand spart.
  • Das Adaptive Daten-Sampling erfasst auf intelligente Weise Dateien im Objektspeicher, um die Informationen abzuleiten, die die Vorhersagen von HeatWave Autopilot für die Automatisierung ermöglichen. Mithilfe der adaptiven Datenerfassung kann HeatWave Autopilot in weniger als einer Minute scannen und somit Vorhersagen treffen, wie z. B. eine Schemazuordnung für eine 400-TB-Datei.
  • Mit dem adaptiven Datenfluss passt sich HeatWave Lakehouse dynamisch an die Performance des zugrunde liegenden Objektspeichers in jeder Region an, um die Gesamtleistung und die Verfügbarkeit zu verbessern.
  • Die adaptive Abfrageoptimierung verwendet verschiedene Statistiken, um Datenstrukturen und Systemressourcen anzupassen, nachdem die Abfrageausführung gestartet wurde. Unabhängig davon wird die Abfrageausführung für jeden Knoten basierend auf der tatsächlichen Datenverteilung zur Laufzeit optimiert. Dies trägt dazu bei, die Performance von Ad-hoc-Abfragen um bis zu 25 % zu verbessern.
  • Die automatische Komprimierung hilft Kunden, den optimalen Komprimierungsalgorithmus für jede Spalte zu bestimmen, wodurch die Lade- und Abfrageleistung durch schnellere Datenkomprimierung und -dekomprimierung verbessert wird. Durch die Reduzierung der Speichernutzung können Kunden ihre Kosten um bis zu 20 % senken.

Integriertes Machine Learning

Mit HeatWave AutoML können Sie Daten im Objektspeicher, in der Datenbank oder in beiden verwenden, um ML-Modelle zu erstellen, zu trainieren, bereitzustellen und zu erklären. Sie müssen die Daten nicht in einen separaten ML-Cloud-Service verschieben oder ein ML-Experte sein. HeatWave AutoML automatisiert die Machine-Learning-Pipeline, einschließlich der Algorithmusauswahl, der intelligenten Datenstichprobe für das Modelltraining, der Funktionsauswahl und der Hyperparameteroptimierung – und spart Data Scientists viel Zeit und Mühe. HeatWave AutoML unterstützt Aufgaben der Anomalieerkennung, Prognose, Klassifizierung, Regression und Recommendation Engine, sogar für Textspalten. Sie können HeatWave AutoML ohne zusätzliche Kosten nutzen.

Hochverfügbarer, vollständig verwalteter Datenbankservice

Aufgaben wie High Availability Management, Patching, Upgrades und Backups werden mit einem vollständig verwalteten Service automatisiert. In das HeatWave-Cluster geladene Daten werden im Falle eines unerwarteten Compute Node-Ausfalls automatisch wiederhergestellt, ohne dass eine erneute Umwandlung aus externen Datenformaten erforderlich ist.

Sichere Zugangskontrolle

Mit Zugriffskontrollmechanismen wie der Resource Principal-Authentifizierung mit Oracle Cloud Infrastructure (OCI) oder vorauthentifizierten Anforderungen können Sie die vollständige Kontrolle über den Zugriff auf Data Lake-Quellen haben.