Funciones de HeatWave Lakehouse

Motor de consulta de datos en el almacenamiento de objetos y, opcionalmente, en bases de datos MySQL

Consulta de datos en el almacenamiento de objetos en varios formatos de archivo, como CSV, Parquet, Avro y exportación de archivos de otras bases de datos con sintaxis SQL estándar y, opcionalmente, combínalos con datos transaccionales en bases de datos MySQL. El procesamiento de consultas se realiza por completo en el motor HeatWave, de modo que puedes utilizar HeatWave tanto para cargas de trabajo que no sean MySQL como para cargas compatibles con MySQL. Cuando se cargan en el clúster HeatWave, independientemente del origen, los datos se transforman automáticamente en un único formato interno optimizado. De esta forma, la consulta de datos en el almacenamiento de objetos es igual de rápida que en las bases de datos: una prioridad para el sector.

Los resultados de las consultas se pueden escribir en Object Storage, lo que permite a los usuarios compartirlos fácilmente y almacenarlos en Object Storage de forma económica. Esto también permite a los desarrolladores utilizar HeatWave para aplicaciones MapReduce.

Soporte para JSON y JavaScript

Puedes utilizar HeatWave para consultar datos semiestructurados en formato JSON en Object Storage, por ejemplo, para desarrollar aplicaciones de gestión de contenido o paneles de control en tiempo real mediante datos JSON en Object Storage. Con el soporte nativo de JavaScript en HeatWave Lakehouse, podrás utilizar JavaScript para procesar y consultar datos en Object Storage. Por ejemplo, se pueden crear aplicaciones de carga de contenido dinámico con las funciones de JavaScript.

Soporte para documentos no estructurados con HeatWave Vector Store

Con HeatWave Vector Store, puedes cargar y consultar documentos no estructurados.

Arquitectura con escalabilidad horizontal

El desempeño inigualable de Oracle MySQL HeatWave se debe a su arquitectura con escalabilidad horizontal, que permite un paralelismo masivo para aprovisionar el clúster, cargar datos y procesar consultas hasta con 512 nodos. Cada nodo de HeatWave de un clúster y cada núcleo de un nodo puede procesar datos particionados en paralelo, incluidas búsquedas en paralelo, combinaciones, cláusula "group-by", agregación y procesamiento de consultas "top-k". Los algoritmos están diseñados para solapar el tiempo de computación con la comunicación de datos entre nodos, lo cual ayuda a lograr una elevada escalabilidad.

automatización basada en aprendizaje automático con HeatWave Autopilot

HeatWave Autopilot ofrece automatización adaptada a las cargas de trabajo para HeatWave con tecnología de aprendizaje automático (ML). Las capacidades de HeatWave Autopilot, como el aprovisionamiento automático, la mejora automática del plan de consulta (que aprende diversas estadísticas de ejecuciones de consultas anteriores para mejorar el plan de ejecución de consultas futuras) y la carga paralela automática, fueron mejoradas en HeatWave Lakehouse. Entre las capacidades adicionales de HeatWave Lakehouse se incluyen las siguientes:

  • La inferencia automática de esquema infiere automáticamente la asignación de datos de archivos a la definición de esquema correspondiente para todos los tipos de archivo compatibles, incluidos los archivos CSV. Como resultado, no necesitas definir y actualizar manualmente la asignación de esquemas de los archivos, lo que ahorra tiempo y esfuerzo.
  • El muestreo de datos adaptativo selecciona inteligentemente los archivos en el almacenamiento de objetos para obtener la información que permite las predicciones de automatización de HeatWave Autopilot. Usando el muestreo de datos adaptativo, HeatWave Autopilot puede escanear y hacer predicciones, como el mapeo de esquemas en un archivo de 400 TB en menos de un minuto.
  • El flujo de datos adaptable permite que HeatWave Lakehouse se adapte dinámicamente al almacenamiento de objetos subyacente en cualquier región a fin de mejorar el desempeño general y la disponibilidad.
  • La optimización de consultas adaptativa utiliza diversas estadísticas para ajustar las estructuras de datos y los recursos del sistema después del inicio de la ejecución de la consulta, optimizando independientemente la ejecución de la consulta para cada nodo según la distribución de datos real en tiempo de ejecución. Esto ayuda a mejorar el rendimiento de las consultas ad hoc hasta en un 25 %.
  • La Compresión automática ayuda a los clientes a determinar el algoritmo de compresión ideal para cada columna, lo que mejora la carga y el desempeño de las consultas con una compresión y descompresión de datos más rápida. Al reducir el uso de memoria, los clientes pueden disminuir los costos hasta en un 20 %.

Machine learning integrado

Con HeatWave AutoML, puedes utilizar datos en el almacenamiento de objetos, la base de datos o ambos para crear, entrenar, desplegar y explicar modelos de aprendizaje automático. No es necesario mover los datos a un servicio en la nube de aprendizaje automático independiente ni ser experto en esta tecnología. HeatWave AutoML automatiza el pipeline de aprendizaje automático, incluida la selección de algoritmos, el muestreo inteligente de datos para el entrenamiento de modelos, la selección de funciones y la optimización de hiperparámetros, lo que permite ahorrar mucho tiempo y esfuerzo a los analistas y científicos de datos. HeatWave AutoML admite detección de anomalías, previsión, clasificación, regresión y tareas del sistema de recomendaciones. Puedes utilizar HeatWave AutoML sin costo adicional.

Servicio de base de datos de alta disponibilidad y totalmente gestionado

Tareas como la gestión de alta disponibilidad, la aplicación de parches, las actualizaciones y las copias de seguridad se automatizan con un servicio totalmente gestionado. Los datos cargados en el clúster HeatWave se recuperan automáticamente en caso de fallo inesperado del nodo de procesamiento, sin volver a transformar formatos de datos externos.

Control de acceso seguro

Con mecanismos de control de acceso como la autenticación principal de recursos de Oracle Cloud Infrastructure (OCI) o solicitudes autenticadas previamente, puedes tener control total sobre el acceso a los orígenes del data lake.