Functies van Data Science Service

Belangrijkste kenmerken

Datavoorbereiding
Modellen bouwen
Modellen trainen
Beleid en modelbeheer
Automatisering en MLOps
Snelle AI-acties

Datavoorbereiding

Flexibele toegang tot data

Datawetenschappers hebben toegang tot elke databron in elke cloud of on-premises. Dit biedt meer potentiële datafuncties die tot betere modellen leiden.

Datalabeling

Oracle Cloud Infrastructure (OCI) Data Labeling is een service voor het bouwen van gemarkeerde datasets om AI- en machine learning-modellen nauwkeuriger te kunnen trainen. Met OCI Data Labeling verzamelen ontwikkelaars en datawetenschappers data, maken en zoeken ze in datasets en passen ze labels toe op datarecords.

Meer informatie over OCI Data Labeling

Datavoorbereiding op schaal met Spark

Stuur interactieve Spark-query's naar uw OCI Data Flow Spark-cluster. Of gebruik de Oracle Accelerated Data Science SDK om eenvoudig een Spark-applicatie te ontwikkelen en deze vervolgens op schaal uit te voeren op OCI Data Flow. En dat allemaal vanuit de Data Science omgeving.

Functieopslag (in ontwikkeling)

Definieer pijplijnen voor functieontwikkeling en bouw functies met volledig beheerde uitvoering. Documenteer zowel functies als functiepijplijnen. Deel, beheer en bewaak de toegang tot functies. Gebruik functies voor zowel batchscenario's als scenario's met realtime inferentie.

Modellen opbouwen

JupyterLab-interface

Dankzij de geïntegreerde, in de cloud gehoste JupyterLab-laptopomgevingen kunnen data science-teams modellen bouwen en trainen via een vertrouwde gebruikersinterface.

Frameworks voor open-source machine learning

OCI Data Science is een vertrouwd en veelzijdig platform voor datawetenschappers met honderden populaire open-source tools en frameworks, zoals TensorFlow of PyTorch. Er kunnen echter ook frameworks naar keuze worden toegevoegd. Dankzij een strategisch partnerschap tussen OCI en Anaconda kunnen OCI-gebruikers rechtstreeks pakketten downloaden uit de Anaconda-repository en deze gratis installeren. Dit verbetert de toegankelijkheid van veilige open-source innovaties.

Anaconda kondigt strategisch partnerschap met Oracle aan voor een probleemloze, veilige open-source innovatie in de cloud

Oracle Accelerated Data Science (ADS) bibliotheek

Oracle Accelerated Data Science SDK is een gebruiksvriendelijke Python-toolkit die de volledige end-to-end data science-workflow van datawetenschappers ondersteunt.

Oracle Accelerated Data Science SDK

Modellen trainen

Krachtige hardware, inclusief grafische verwerkingseenheden (GPU's)

Met NVIDIA GPU's kunnen datawetenschappers sneller deep learning-modellen bouwen en trainen. D prestatiesnelheid kan 5 tot 10 keer hoger liggen.

Taken

Gebruik de taakfunctie om herhaalbare data science-taken uit te voeren in de batchmodus. Schaal de training van uw modellen op met ondersteuning voor Bare Metal NVIDIA GPU's en gedistribueerde training.

In-console bewerking van taakartefacten

Maak, bewerk en activeer data science-taakartefacten eenvoudig en rechtstreeks vanuit de OCI-console met de code-editor. Wordt geleverd met functies voor Git-integratie, automatische conversie, personalisatie en meer.

Optimalisatie van schattingen en de ADSTuner

Beleid en modelbeheer

Modelcatalogus

Datawetenschappers gebruiken de modelcatalogus om voltooide machine learning-modellen te behouden en te delen. In de catalogus worden de artefacten opgeslagen en worden metadata vastgelegd over de taxonomie en context van het model. De catalogus bevat ook hyperparameters, definities van de schema's voor invoer- en uitvoerdata voor modellen en gedetailleerde herkomstdata van modellen, zoals de broncode en de trainingsomgeving.

Modellen evalueren en vergelijken

Genereer automatisch een uitgebreide set metrics en visualisaties om de modelprestaties te meten tegen nieuwe data en zo modelkandidaten te vergelijken.

Reproduceerbare omgevingen

Maak gebruik van vooraf gebouwde en beheerde conda-omgevingen voor verschillende gebruiksdoelen, zoals NLP, computervisie, prognoses, grafiekanalyses en Spark. Publiceer aangepaste omgevingen en deel deze met collega's, zodat trainings- en inferentieomgevingen opnieuw kunnen worden geproduceerd.

Nieuwe functie voor conda-omgevingen beschikbaar in OCI Data Science

Versiebeheer

Datawetenschappers kunnen verbinding maken met de Git-repository van hun organisatie om machine learning-activiteiten te behouden en op te halen.

Automatisering en MLOps

Beheerde modelimplementatie

Implementeer machine learning-modellen als HTTP-eindpunten om modelvoorspellingen voor nieuwe data in realtime te kunnen verwerken. Met één klik kunt u implementeren vanuit de modelcatalogus. OCI Data Science verwerkt vervolgens alle infrastructuuractiviteiten, inclusief compute-initialisatie en lastverdeling.

ML-pijplijnen

Operationaliseer en automatiseer uw workflows voor modelontwikkeling, training en implementatie met een volledig beheerde service voor het schrijven, debuggen, volgen, beheren en uitvoeren van ML-pijplijnen.

ML-bewaking

Bied continue controle van modellen in de productieomgeving op afwijkende data en concepten. Datawetenschappers, engineers voor de betrouwbaarheid van websites en DevOps-engineers kunnen waarschuwingen ontvangen en snel behoeften voor het hertrainen van modellen beoordelen.

ML-applicaties

ML-applicaties zijn oorspronkelijk ontworpen voor de eigen SaaS-applicaties van Oracle voor het integreren van AI-functies. Ze zijn nu beschikbaar voor het automatiseren van de volledige MLOps-levenscyclus, inclusief ontwikkeling, initialisatie en doorlopend onderhoud en vlootbeheer, voor ISV's met honderden modellen voor elk van hun duizenden klanten.

Snelle AI-acties

Toegang zonder code

Gebruik LLM's van Mistral, Meta en andere applicaties zonder één regel code te schrijven via een naadloze gebruikersinterface in OCI Data Science notitieblokken.

Importeer alle LLM's uit OCI Object Storage, verfijn deze vervolgens en implementeer ze via een gebruiksvriendelijke gebruikersinterface.

Implementatie

Implementeer voor optimale prestaties LLM's met een paar klikken, ondersteund door populaire inferentieservers, zoals vLLM (van UC Berkeley), Text Generation Inference (van Hugging Face) of TensorRT-LLM (van NVIDIA).

Verfijnen

Voor optimale prestaties kunt u gebruikmaken van gedistribueerde training met PyTorch, Hugging Face Accelerate of DeepSpeed voor het verfijnen van LLM's. Maak opslag van verfijnde wegingsfactoren met objectopslag mogelijk. Bovendien elimineert de door Condas geleverde service de vereiste voor aangepaste Docker-omgevingen en is delen mogelijk met minder vertraging.

Evalueren

Produceer gedetailleerde evaluatierapporten voor uw LLM, gebaseerd op BERTScore of Recall-Oriented Understudy for Gisting Evaluation (ROUGE), zodat u begrijpt hoe de prestaties van het model zich verhouden tot andere modellen.