Vă propunem o definiție simplă: Un lac de date este un loc de stocare a datelor structurate și nestructurate, precum și o metodă de organizare a volumelor mari de date foarte diverse, provenite din surse diferite.
Lacurile de date devin din ce în ce mai importante pe măsură ce oamenii, în special în afaceri și tehnologie, doresc să realizeze explorarea și descoperirea datelor pe scară largă. Colectarea datelor într-un singur loc sau a majorității lor într-un singur loc simplifică acest proces.
În funcție de platforma dvs., lacul de date poate facilita semnificativ acest proces. Poate administra multe structuri de date, cum ar fi datele nestructurate și multistructurate, și vă poate ajuta să obțineți valoare din datele dvs.
Principala diferență între un lac de date și un depozit de date este că data lake tinde să preia datele foarte rapid și să le pregătească ulterior, din mers, pe măsură ce sunt accesate. În cazul unui depozit de date, pe de altă parte, pregătiți datele foarte atent înainte de a le introduce în depozitul de date.
Utilizatorii au tendința de a dori să introducă datele în lacul de date cât mai repede posibil, astfel încât companiile cu scenarii de utilizare operațională, în special în ceea ce privește raportarea operațională, analiza și monitorizarea activității, să dispună de cele mai noi date. Acest aspect le permite accesul la cele mai recente date și vizualizarea celor mai recente informații.
În cazul lacului de date, utilizatorii introduc adesea datele în forma originală, fără a le modifica. Acest lucru se poate întâmpla din motive de viteză, dar și din alte motive, inclusiv din dorința de a efectua analize avansate care pot depinde de date sursă detaliate. Aceasta ar fi o analiză bazată pe orice tip de activitate de exploatare, fie că este:
Pentru a beneficia de toate avantajele pe care le pot oferi lacurile de date, o soluție adecvată ar trebui să fie capabilă să ofere modalități mai bune de:
Un lac de date este mai util atunci când face parte dintr-o platformă mai mare de management al datelor și ar trebui să se integreze eficient cu datele și instrumentele existente pentru un lac de date mai puternic.
Utilizarea lacului de date pentru a extinde depozitul de date este un aspect des întâlnit în cazul marketingului multicanal, numit uneori marketing multicanal. Modul în care trebuie gândit ecosistemul de date în marketing este că fiecare canal poate fi propria bază de date și fiecare punct de contact poate fi, de asemenea, o bază de date. De asemenea, mulți agenți de marketing cumpără date de la terțe părți.
De exemplu, un agent de marketing ar putea dori să cumpere date care conțin informații demografice și despre preferințele de consum suplimentare ale clienților și potențialilor clienți, ceea ce îl ajută să completeze profilul complet al fiecărui client, ceea ce, la rândul său, contribuie la crearea unor campanii de marketing personalizate și mai bine direcționate.
Acesta este un ecosistem de date complex, care devine din ce în ce mai mare ca volum și tot mai complex. Lacul de date este folosit destul de des pentru a capta datele care provin din mai multe canale și de la mai multe puncte de contact. Iar unele dintre acestea sunt de fapt date de streaming.
Companiile care le oferă clienților lor o aplicație pentru smartphone pot primi aceste date în timp real sau cât mai curând, pe măsură ce clienții utilizează aplicația respectivă. De multe ori, compania nu are cu adevărat nevoie de timp real integral. Ar putea exista un decalaj de o oră sau două. Dar permite departamentului de marketing să realizeze o monitorizare granulară a activității și să creeze oferte speciale, stimulente, reduceri și microcampanii.
Lanțul de aprovizionare digital este un mediu de date la fel de divers, iar lacul de date poate fi de ajutor în acest sens, mai ales atunci când lacul de date este pe Hadoop. Hadoop este în mare parte un sistem bazat pe fișiere, deoarece a fost conceput inițial pentru fișierele de jurnal foarte mari și foarte numeroase care provin de la serverele web. În cadrul lanțului de aprovizionare există adesea o cantitate mare de date pe bază de fișiere. Gândiți-vă la datele bazate pe fișiere și documente din sistemele EDI, XML și, bineînțeles, în prezent, la datele JSON, care au devenit foarte importante în lanțul de aprovizionare digital. Sunt informații foarte diverse.
Există, de asemenea, informații interne care trebuie luate în considerare. Adesea, producătorii dispun de date din fabrică și de date de expediere și facturare care sunt extrem de relevante pentru lanțul de aprovizionare. Lacul poate ajuta producătorii să reunească aceste date și să le administreze pe bază de fișiere.
Internet of Things generează aproape zilnic noi surse de date în unele companii. Și, bineînțeles, pe măsură ce aceste surse se diversifică, se generează și mai multe date. Există din ce în ce mai mulți senzori pe tot mai multe mașini. De exemplu, fiecare vehicul de transport de marfă pe șine sau cu camionul are la dispoziție o listă uriașă de senzori, astfel încât compania poate urmări vehiculul în spațiu și timp, pe lângă modul în care este utilizat. Funcționează în siguranță? Este exploatat într-un mod optim în raport cu consumul de combustibil? Cantități enorme de informații provin din aceste locuri, iar lacul de date este foarte apreciat pentru că oferă un depozit pentru toate aceste date.
Acestea sunt exemple de utilizări destul de bine direcționate ale lacului de date în cadrul anumitor departamente sau programe IT, dar o abordare diferită este ca departamentul IT centralizat să furnizeze un singur lac de date mare, care este multitenant. Acesta poate fi utilizat de numeroase departamente, unități de activitate și de programe tehnologice diferite. Pe măsură ce oamenii se obișnuiesc cu lacul de date, își dau seama cum să îl optimizeze pentru diverse utilizări și operațiuni, analize și chiar pentru conformitate.
Lacul de date poate fi utilizat în mai multe moduri și are, de asemenea, mai multe platforme asociate. Hadoop este cea mai frecventă, dar nu este singura platformă.
Hadoop este atractivă. S-a dovedit a avea scalabilitate liniară. Presupune un cost redus pentru scalabilitate în comparație cu, de exemplu, o bază de date relațională. Dar Hadoop nu înseamnă doar stocare ieftină. Reprezintă, de asemenea, o platformă puternică de procesare. Iar pentru cei care încearcă să facă analiză algoritmică, Hadoop se poate dovedi foarte utilă.
Sistemul de management al bazelor de date relaționale poate fi, de asemenea, o platformă pentru lacul de date, deoarece unii utilizatori au cantități masive de date pe care doresc să le introducă în lacul de date, date care sunt structurate și, de asemenea, relaționale. Așadar, dacă datele dvs. sunt în mod inerent relaționale, o abordare DBMS pentru lacul de date ar fi perfect logică. De asemenea, dacă aveți cazuri de utilizare în care doriți să realizați activități relaționale, cum ar fi SQL sau îmbinări complexe de tabele, atunci RDBMS este o soluție perfect logică.
Dar tendința este de a folosi sisteme bazate pe cloud, în special sisteme de stocare în cloud. Marele avantaj al mediilor cloud îl reprezintă scalabilitatea elastică. Acestea pot mobiliza resursele serverului și alte resurse pe măsură ce sarcinile de lucru cresc. Iar în comparație cu o mulțime de sisteme locale, cloud-ul poate genera costuri reduse. În parte, acest lucru se datorează faptului că nu există o integrare de sistem.
Dacă doriți să faceți ceva la fața locului, dvs. sau oricine altcineva trebuie să faceți o integrare de sistem pe parcursul mai multor luni, în timp ce pentru o mulțime de sisteme există un furnizor de cloud computing care deja a integrat acest sistem. Practic, cumpărați o licență și puteți fi operațional în câteva ore, nu în câteva luni. În plus, abordarea de stocare a obiectelor în cloud, pe care am menționat-o într-o postare anterioară despre cele mai bune practici pentru lacurile de date, prezintă numeroase avantaje.
Și, bineînțeles, puteți dispune de o combinație hibridă de platforme cu un lac de date. Dacă sunteți familiarizați cu ceea ce numim depozit logic de date, puteți beneficia de un depozit logic de date similar, iar acesta este un lac logic de date. În acest caz, datele sunt distribuite fizic pe mai multe platforme. Și există unele provocări în acest sens, cum ar fi necesitatea unor instrumente speciale care se pretează la interogări federalizate sau la virtualizarea datelor pentru interogări analitice de mare anvergură.
Dar această tehnologie este disponibilă la nivelul instrumentelor și mulți utilizatori o aplică.
În încercarea lor de a extrage mai multă valoare din datele lor, companiile își depășesc mereu limitele. Datorită sistemului informatic bazat pe cloud computing, acestea combină acum frecvent tehnologiile de lac de date și depozite de date într-o singură arhitectură denumită „data lakehouse”. Beneficiile unui data lakehouse includ o mai bună integrare, mai puține transferuri de date, o mai bună guvernare a datelor și asistență pentru mai multe cazuri de utilizare.
Lacul de date este răspunsul dvs. la organizarea tuturor acelor volume mari de date diverse provenite din surse diferite. Iar dacă sunteți gata să experimentați un lac de date, vă putem oferi Oracle Free Tier pentru a începe.