Funciones del servicio Data Science


Preparación de datos

Acceso flexible a datos

Los científicos de datos pueden acceder y utilizar cualquier origen de datos en cualquier nube u entorno local. Esto proporciona más funciones de datos potenciales que conducen a mejores modelos.

Etiquetado de datos

Oracle Cloud Infrastructure (OCI) Data Labeling es un servicio para crear conjuntos de datos etiquetados con el fin de entrenar de forma más precisa los modelos de inteligencia artificial y aprendizaje automático. Con OCI Data Labeling, los desarrolladores y los científicos de datos reúnen datos, crean y examinan conjuntos de datos y aplican etiquetas a los registros de datos.

Preparación de datos a escala con Spark

Envía consultas de Spark interactivas al cluster de OCI Data Flow Spark. O bien, utiliza Oracle Accelerated Data Science SDK para desarrollar fácilmente una aplicación Spark y luego ejecutarla a escala en OCI Data Flow, todo ello desde el entorno de Data Science.

Almacén de características (en vista previa)

Define pipelines de ingeniería de funciones y crea funciones con una ejecución totalmente gestionada. Crea versiones y documenta tanto las funciones como los pipelines de funciones. Comparte, controla y monitorea el acceso a las funciones. Usa funciones tanto para escenarios de inferencia por lotes como en tiempo real.

Creación de modelos

Interfaz de JupyterLab

Los entornos de bloc de notas JupyterLab integrados y alojados en la nube permiten a los equipos de ciencias de datos crear y entrenar modelos mediante una interfaz de usuario familiar.

Marcos de código abierto para aprendizaje automático

OCI Data Science proporciona familiaridad y versatilidad a los científicos de datos, con cientos de herramientas y marcos de código abierto populares, como TensorFlow o PyTorch, o agrega marcos preferidos. Una asociación estratégica entre OCI y Anaconda permite a los usuarios de OCI descargar e instalar paquetes directamente desde el repositorio de Anaconda gratuitos y de código abierto seguro.

Biblioteca de Oracle Accelerated Data Science (ADS)

El SDK de Oracle Accelerated Data Science es un conjunto de herramientas de Python fácil de usar que respalda al científico de datos a través de todo su flujo de trabajo completo de ciencia de datos.

Entrenamiento de modelo

Hardware potente, incluidas las unidades de procesamiento gráfico (GPU)

Con las GPU NVIDIA, los científicos de datos pueden crear y entrenar modelos de aprendizaje profundo en menos tiempo. Las aceleraciones de rendimiento pueden ser de 5 a 10 veces más rápidas.

Trabajos

Utiliza Jobs para ejecutar tareas de ciencia de datos repetibles por lotes. Amplía el entrenamiento de modelo con soporte para GPU NVIDIA con hardware dedicado y formación distribuida.

Edición en la consola de artefactos de trabajo

Crea, edita y ejecuta fácilmente artefactos de trabajo de Data Science directamente desde la consola de OCI mediante el editor de código. Incluye integración, control de versiones automático y personalización de Git, entre otros aspectos.

Control y gestión de modelos

Catálogo de modelos

Los científicos de datos utilizan el catálogo de modelos para conservar y compartir modelos completos de aprendizaje automático. El catálogo almacena los artefactos y captura metadatos en torno a la taxonomía y el contexto del modelo, hiperparámetros, definiciones de los esquemas de datos de entrada y salida del modelo e información detallada de procedencia sobre el origen del modelo, incluido el código fuente y el entorno de formación.

Evaluación y comparación de modelos

Genera automáticamente un conjunto completo de métricas y visualizaciones para medir el rendimiento del modelo con respecto a los datos nuevos y comparar a los candidatos.

Entornos reproducibles

Aprovecha los entornos Conda seleccionados y predefinidos para abordar una amplia gama de casos de uso, como NLP, visión informática, previsión, análisis de gráficos y Spark. Publica entornos personalizados y compártelos con tus compañeros para garantizar la reproducibilidad de los entornos de entrenamiento e inferencia.

Control de versiones

Los científicos de datos se pueden conectar al repositorio Git de su organización para conservar y recuperar el trabajo de aprendizaje automático.

Automatización y MLOps

Implementación de modelos administrada

Implementa modelos de aprendizaje automático como puntos finales HTTP para entregar predicciones de modelos sobre nuevos datos en tiempo real. Solo tienes que hacer clic para implementar desde el catálogo de modelos y OCI Data Science gestionará todas las operaciones de infraestructura, incluido el aprovisionamiento informático y el equilibrio de carga.

Pipelines de aprendizaje automático

Operacionaliza y automatiza los flujos de trabajo de desarrollo, entrenamiento y despliegue de modelos con un servicio totalmente gestionado para crear, depurar, rastrear, gestionar y ejecutar pipelines de aprendizaje automático.

Supervisión de AA

Controla de forma continua los modelos de producción en busca de cambios en los datos y conceptos. Permite a los científicos de datos, los ingenieros de fiabilidad del sitio y los ingenieros de DevOps recibir alertas y evaluar rápidamente las necesidades de reciclaje del modelo.

Aplicaciones de aprendizaje automático

Diseñadas originalmente para las propias aplicaciones SaaS de Oracle para integrar funciones de IA, las aplicaciones de aprendizaje automático están ahora disponibles para automatizar todo el ciclo de vida de MLOps, incluido el desarrollo, el aprovisionamiento y el mantenimiento continuo y la gestión de flotas, para ISV con cientos de modelos para cada uno de sus miles de clientes.

AI Quick Actions

Acceso sin código

Utiliza modelos grandes de lenguaje (LLM) de Mistral y Meta, entre otros, sin escribir una sola línea de código a través de una interfaz de usuario perfecta en blocs de notas de OCI Data Science.

Importa cualquier LLM desde OCI Object Storage y, a continuación, realiza los ajustes y despliegues necesarios con una interfaz de usuario fácil de usar.

Implementación

Implementa LLM con unos pocos clics, con tecnología de servidores de inferencia populares, como vLLM (de UC Berkeley), Text Generation Inference (de Hugging Face) o TensorRT-LLM (de NVIDIA), para obtener un rendimiento óptimo.

Ajuste fino

Para lograr un rendimiento óptimo, aprovecha la formación distribuida con PyTorch, Hugging Face Accelerate o DeepSpeed para ajustar los LLM. Activa el almacenamiento de pesos ajustados con Object Storage. Además, las Condas proporcionadas por el servicio eliminan el requisito de entornos de Docker personalizados y permiten compartir con menos ralentización.

Evaluar

Genera informes de evaluación detallados para tu LLM, basados en BERTScore o en Recall-Oriented Understudy for Gisting Evaluation (ROUGE), para ayudarte a comprender cómo es el rendimiento de modelo en comparación con otros.