Wyodrębnianie, przekształcanie i ładowanie (ETL) to proces wykorzystywany przez organizacje działające na podstawie danych do gromadzenia i łączenia danych z wielu źródeł w celu wspomagania procesów wykrywania, raportowania, analizowania i podejmowania decyzji.
Źródła danych mogą się bardzo różnić pod względem typu, formatu, rozmiarów i niezawodności, dlatego dane wymagają przetwarzania, by zapewnić ich przydatność po ich zgromadzeniu. Docelowymi magazynami danych mogą być bazy danych, hurtownie danych lub jeziora danych, w zależności od celów i implementacji technicznej.
Wyodrębnienie
Podczas wyodrębnienia ETL identyfikuje dane i kopiuje je ze źródeł, dzięki czemu może je przenieść do docelowego magazynu danych. Dane mogą pochodzić z ustrukturyzowanych oraz nieustrukturyzowanych źródeł, w tym z dokumentów, e-maili, aplikacji biznesowych, baz danych, wyposażenia, czujników, innych firm itp.
Transformacja
Ponieważ wyodrębnione dane są nieprzetworzone w swej pierwotnej formie, konieczne jest ich odwzorowanie i przekształcenie w celu późniejszego przechowania. W procesie transformacji ETL weryfikuje, uwierzytelnia, deduplikuje i/lub agreguje dane w sposób, który daje uzyskanym danym wiarygodność i pozwala wysyłać zapytania na ich temat.
Ładowanie
ETL przenosi przekształcone dane do docelowego magazynu danych. Ten etap może wiązać się z początkowym załadowaniem wszystkich danych źródłowych lub z ładowaniem przyrostowych zmian w danych źródłowych. Dane można ładować w czasie rzeczywistym lub w zaplanowanych partiach.
Etap transformacji jest zdecydowanie najbardziej złożony w całym procesie ETL. ETL i ELT różnią się zatem pod dwoma głównymi względami:
W tradycyjnej hurtowni danych dane są najpierw pobierane z „systemów źródłowych” (systemów ERP, systemów CRM itp.). Narzędzia OLAP i zapytania SQL wymagają standaryzacji wymiarów zbiorów danych w celu uzyskania zagregowanych wyników. Oznacza to, że dane muszą być poddawane serii transformacji.
Traditionally, these transformations have been done before the data was loaded into the target system, typically a relational data warehouse.
Jednak wraz z rozwojem podstawowych technologii przechowywania i przetwarzania danych stanowiących podstawę hurtowni danych, możliwe stało się wprowadzenie zmian w systemie docelowym. Procesy ETL i ELT obejmują obszary przygotowania. W ETL obszary te znajdują się w narzędziu, niezależnie od jego typu. Znajdują się pomiędzy systemem źródłowym (na przykład systemem CRM) a systemem docelowym (hurtownią danych).
W przypadku ELT obszar przygotowania znajduje się w hurtowni danych, a transformacje przeprowadza motor baz danych zasilający DBMS, a nie narzędzie, jak ma to miejsce w ETL. Dlatego jedną z bezpośrednich konsekwencji ELT jest utrata funkcji przygotowywania i oczyszczania danych, za pomocą których narzędzia ETL wspomagają proces transformacji danych.
Tradycyjnie narzędzia do ETL były używane głównie do dostarczania danych do hurtowni danych przedsiębiorstw, wspomagających aplikacje analityki biznesowej (BI). Hurtownie danych są zaprojektowane tak, by reprezentować wiarygodne źródło prawdy na temat wszelkiej działalności prowadzonej przez firmę. Dane w tych hurtowniach są starannie skonstruowane z użyciem ściśle określonych schematów, metadanych i reguł, decydujących o weryfikacji danych.
Narzędzia ETL dla hurtowni danych przedsiębiorstw muszą spełniać wymagania związane z integracją danych: wysokowydajne wczyty wsadowe o dużych wolumenach, sterowane zdarzeniami procesy integracji przesyłu partiami, programowalne transformacje oraz orkiestracje, aby móc poradzić sobie z najbardziej wymagającymi transformacjami i procesami i posiadać łączniki dla najbardziej zróżnicowanych źródeł danych.
Po załadowaniu danych istnieje wiele strategii synchronizowania ich między źródłowymi i docelowymi magazynami danych. Pełne zbiory danych można ładować okresowo, planować okresowe aktualizacje najnowszych danych lub zatwierdzać w celu zachowania pełnej synchronizacji między źródłową a docelową hurtownią danych. Taka integracja w czasie rzeczywistym jest nazywana przechwytywaniem zmian danych (CDC). W tym zaawansowanym procesie narzędzia ETL muszą zrozumieć semantykę transakcji źródłowych baz danych i poprawnie przesłać te transakcje do docelowej hurtowni danych.
Składnice danych są mniejszymi i bardziej wyspecjalizowanymi magazynami danych niż hurtownie danych. Mogą one na przykład koncentrować się na informacjach dotyczących jednego działu lub pojedynczej linii produktów. Z tego powodu użytkownicy narzędzi ETL dla składnic danych są często specjalistami w zakresie linii działalności (LOB), analitykami danych i/lub badaczami danych.
Narzędzia ETL dla składnic danych muszą być zdatne do użytku przez pracowników biznesowych i menedżerów danych, a nie przez programistów i pracowników działu IT. Dlatego narzędzia te powinny oferować wizualne przedstawienie przepływu pracy, ułatwiające konfigurowanie potoków ETL.
Poznaj projektowanie przepływu danych niewymagające programowania
Jeziora danych bazują na innym modelu niż hurtownie i składnice danych. Jeziora danych zazwyczaj przechowują dane w magazynie obiektów lub za pomocą HDFS (Hadoop Distributed File Systems) i dlatego mogą przechowywać mniej ustrukturyzowane dane bez schematu. Ponadto obsługują wiele różnych narzędzi do kierowania zapytań dotyczących tych danych.
Jednym z dodatkowych modeli możliwym dzięki temu jest ekstrakcja, ładowanie i transformacja (ELT), w którym dane są najpierw przechowywane w stanie bieżącym („as-is”), a następnie przekształcane, analizowane i przetwarzane po przechwyceniu danych w jeziorze danych. Takie podejście oferuje kilka korzyści.
Narzędzia ETL dla jezior danych obejmują wizualne narzędzia integracji danych, ponieważ są one przydatne dla badaczy i inżynierów danych. Inne narzędzia często używane w architekturze jezior danych to:
Proces ETL jest kluczowy dla wielu branż ze względu na możliwość szybkiego i niezawodnego gromadzenia danych w jeziorach danych na potrzeby danologii i analiz, przy jednoczesnym tworzeniu modeli wysokiej jakości. Rozwiązania ETL mogą także masowo ładować i przekształcać dane transakcyjne w celu uzyskania zorganizowanego widoku z dużych wolumenów danych. Dzięki temu firmy mogą wizualizować i prognozować trendy branżowe. Wiele branż opiera się na procesie ETL w celu uzyskania praktycznych informacji, szybkiego podejmowania decyzji i zwiększenia wydajności.
Usługi finansowe
Instytucje usług finansowych gromadzą duże ilości ustrukturyzowanych i nieustrukturyzowanych danych, by uzyskać przez to pełny wgląd w zachowania konsumentów. Uzyskane informacje mogą posłużyć do analizowania ryzyka, optymalizowania usług finansowych banków, ulepszania platform internetowych, a nawet dostarczania gotówki do bankomatów.
Przemysł naftowo-gazowy
Branża naftowo-gazowa używa rozwiązań ETL do generowania przewidywań dotyczących użytkowania, składowania i trendów w określonych obszarach geograficznych. ETL gromadzi jak najwięcej informacji ze wszystkich czujników obecnych w miejscu wydobycia i przetwarza je, aby ułatwić ich odczytywanie.
Przemysł motoryzacyjny
Rozwiązania ETL umożliwiają przedstawicielstwom i producentom zrozumienie wzorców sprzedaży, kalibrowanie kampanii marketingowych, uzupełnianie zapasów i dalszą obsługę potencjalnych klientów.
Telekomunikacja
Z powodu bezprecedensowemu wolumenowi i zróżnicowaniu wytwarzanych obecnie danych, dostawcy usług telekomunikacyjnych korzystają z rozwiązań ETL, by lepiej je rozumieć i nimi zarządzać. Po przetworzeniu i przeanalizowaniu tych danych firmy mogą je wykorzystać do ulepszenia swoich reklam, mediów społecznościowych, SEO, zadowolenia klientów, rentowności itp.
Opieka zdrowotna
Mając na uwadze konieczność zmniejszenia kosztów przy jednoczesnym zwiększeniu stopnia opieki, branża opieki zdrowotnej stosuje rozwiązania ETL do zarządzania danymi pacjentów, gromadzenia informacji ubezpieczeniowych i spełniania zmieniających się wymogów prawnych.
Nauki biologiczne
Laboratoria kliniczne wykorzystują rozwiązania ETL i sztuczną inteligencję (SI) do przetwarzania różnych typów danych wytwarzanych przez instytucje badawcze. Dla przykładu, współpraca nad opracowywaniem szczepionek wymaga zebrania, przetwarzania i analizy ogromnych ilości danych.
Sektor publiczny
Dzięki szybko rozwijającym się funkcjom Internetu rzeczy (IoT), inteligentne miasta korzystają z ETL i potęgi sztucznej inteligencji do optymalizowania ruchu, monitorowania jakości wody, ulepszania parkowanie itd.
Pakiet architektury zorientowanej na usługi (Service Oriented Architecture, SOA)
W jaki sposób można zmniejszyć złożoność integracji aplikacji? Dzięki uproszczonym funkcjom integracji chmurowej, mobilnej, lokalnej i IoT – w obrębie jednej platformy – rozwiązanie to może skrócić czas integracji i zwiększyć wydajność, a także zmniejszyć całkowity koszt posiadania (TCO). Wiele aplikacji biznesowych (w tym Oracle E-Business Suite) używa tego produktu w olbrzymim stopniu do orkiestracji przepływów danych.
GoldenGate
Transformacja cyfrowa często wymaga przeniesienia danych z miejsca przechwycenia do miejsca ich wykorzystania. GoldenGate ma celu uproszczenie tego procesu. Oracle GoldenGate to rozwiązanie replikacji danych o wysokiej prędkości, umożliwiające integrację w czasie rzeczywistym pomiędzy heterogenicznymi bazami danych zlokalizowanymi lokalnie, w chmurze lub w autonomicznej bazie danych. GoldenGate poprawia dostępność danych bez wpływu na wydajność systemu, zapewniając dostęp do danych w czasie rzeczywistym i raportowanie operacyjne.
Cloud Streaming
Nasze rozwiązanie Cloud Streaming stanowi w pełni zarządzane, skalowalne i pewne rozwiązanie do przyjmowania i konsumpcji strumieni danych o dużym wolumenie w czasie rzeczywistym. Usługa ta jest używana do wysyłania wiadomości, dzienników aplikacji, operacyjnej telemetrii, internetowych danych dotyczących strumienia kliknięć oraz innych instancji, w których dane są produkowane i przetwarzane sekwencyjnie w modelu przekazywania wiadomości opartym na publikacji i subskrypcji. Jest w pełni kompatybilna z Spark i Kafka.
Rozważasz zakup?
Zadzwoń do działu sprzedażyCzat z działem sprzedażyProblemy dotyczące kont, subskrypcji i promocji
Zacznij rozmowęPotrzebujesz asysty technicznej lub innego rodzaju pomocy?
Zobacz opcje pomocy