Michael Chen | strateg ds. treści | 23 września 2024 r.
Termin Big Data odnosi się do niewiarygodnej ilości ustrukturyzowanych i nieustrukturyzowanych informacji generowanych przez ludzi i maszyny — według PwC każdego dnia powstają ich petabajty. To posty w mediach społecznościowych, w których szukamy opinii klientów, dane z czujników pokazujące stan maszyn czy transakcje finansowe, w wyniku których pieniądze przepływają z ogromną prędkością. Danych tych jest zbyt wiele, są one zbyt zróżnicowane i pojawiają się zbyt szybko, by stare narzędzia i praktyki przetwarzania danych mogły sobie z nimi poradzić.
Są one również zbyt cenne, by pozostawić je bez analizy. Technologia Big Data pozwala na wyciągnięcie wniosków z tego szerokiego zbioru danych, pomagając organizacji zwiększyć wydajność, szybciej wprowadzać innowacje, zarabiać więcej pieniędzy i po prostu wygrywać.
Na szczęście postępy w dziedzinie technologii i narzędzi do analityki i uczenia maszynowego sprawiają, że każda firma może analizować duże zbiory danych.
Termin Big Data odnosi się do niezwykle dużych i złożonych zbiorów danych, którymi nie można łatwo zarządzać ani ich analizować za pomocą tradycyjnych narzędzi do przetwarzania danych, w szczególności arkuszy kalkulacyjnych. Big Data obejmuje dane ustrukturyzowane, takie jak baza danych zapasów lub lista transakcji finansowych; dane nieustrukturyzowane, takie jak posty lub filmy w serwisach społecznościowych; oraz mieszane zestawy danych, takie jak te używane do szkolenia dużych modeli językowych na potrzeby sztucznej inteligencji. Te zestawy danych mogą obejmować wszystko, od dzieł Szekspira po arkusze kalkulacyjne budżetu firmy z ostatnich 10 lat.
Ostatnio opracowane przełomowe technologie Big Data pozwoliły znacznie obniżyć koszty przechowywania i przetwarzania danych, dzięki czemu przechowywanie większych ilości danych stało się łatwiejsze i tańsze niż kiedykolwiek wcześniej. Dzięki temu firmy mogą podejmować dokładniejsze i bardziej precyzyjne decyzje biznesowe na podstawie swoich danych. Osiągnięcie pełnej wartości z Big Data nie polega jednak tylko na analizie danych — co jest kolejną korzyścią. To skomplikowany proces wymagający udziału wnikliwych analityków, użytkowników biznesowych i członków kadry kierowniczej, którzy zadają właściwe pytania, rozpoznają wzorce, przyjmują świadome założenia i przewidują zachowania.
Tradycyjnie duże zbiory danych rozpoznajemy po trzech cechach: różnorodności (variety), ilości (volume) i szybkości (velocity), znanych również jako „trzy V”. Jednak w ciągu ostatnich kilku lat pojawiły się dwa dodatkowe V: wartość (value) i wiarygodność (veracity).
Te dodatkowe cechy są uzasadnione, ponieważ w dzisiejszych czasach dane stały się kapitałem. Wystarczy pomyśleć o największych światowych firmach technologicznych. Wiele z oferowanych przez nie produktów opiera się na danych, które nieustannie analizują w celu zwiększenia wydajności i opracowania nowych inicjatyw. Sukces zależy od wszystkich pięciu V.
Chociaż koncepcja Big Data jest stosunkowo nowa, potrzeba zarządzania dużymi zbiorami danych sięga lat 60. i 70. ubiegłego wieku, gdy pojawiły się pierwsze centra danych i opracowano relacyjną bazę danych.
Dawniej. Około 2005 r. ludzie zaczęli zdawać sobie sprawę, ile danych generują użytkownicy za pośrednictwem Facebooka, YouTube'a i innych serwisów online. Apache Hadoop, framework open source stworzony specjalnie z myślą o przechowywaniu i analizowaniu dużych zbiorów danych, został opracowany w tym samym roku. Zaczęła również wtedy zdobywać popularność baza danych NoSQL.
Obecnie. Rozwój frameworków open source, takich jak Apache Hadoop, a ostatnio Apache Spark, był niezbędny dla postępu w dziedzinie Big Data, ponieważ ułatwiają one pracę z dużymi zbiorami danych i obniżają koszty ich przechowywania. W kolejnych latach objętość wielkich zbiorów danych gwałtownie wzrosła. Użytkownicy wciąż generują ogromne ilości danych — robią to jednak nie tylko ludzie.
Wraz z pojawieniem się Internetu rzeczy (Internet of Things, IoT) do Internetu zaczęto podłączać coraz więcej obiektów i urządzeń, co pozwala gromadzić dane na temat wzorców ich użytkowania przez klientów oraz funkcjonowania produktów. Źródłem jeszcze większych ilości danych stała się technologia samouczenia się maszyn.
Przyszłość. Choć technologia Big Data znacznie się rozwinęła, jej wartość rośnie dopiero w miarę wzrostu wykorzystania generatywnej sztucznej inteligencji i przetwarzania w chmurze w przedsiębiorstwach. Chmura oferuje naprawdę elastyczną skalowalność — programiści mogą po prostu wykorzystywać klastry ad hoc, aby przetestować jakiś podzbiór danych. Coraz większego znaczenia nabierają też graficzne bazy danych, które umożliwiają wyświetlanie ogromnych ilości danych w sposób zapewniający ich szybką i kompleksową analizę.
Usługi Big Data umożliwiają bardziej kompleksowe zrozumienie trendów i wzorców poprzez integrację różnych zestawów danych w celu uzyskania pełnego obrazu. Takie połączenie nie tylko ułatwia analizę retrospektywną, ale także zwiększa możliwości przewidywania, zapewniając dokładniejsze prognozy i pozwalając na podejmowanie strategicznych decyzji. Ponadto — w połączeniu ze sztuczną inteligencją — Big Data wykracza poza tradycyjną analitykę, umożliwiając organizacjom wprowadzanie innowacyjnych rozwiązań i stymulowanie transformacji.
Bardziej kompleksowe odpowiedzi przekładają się na większe zaufanie do danych — a to oznacza całkowicie inne podejście do rozwiązywania problemów.
Big Data może pomóc zoptymalizować szereg działań biznesowych, w tym obsługę klienta i analizę. Oto kilka takich działań.
1. Handel detaliczny i elektroniczny. Firmy takie jak Netflix i Procter & Gamble wykorzystują Big Data do przewidywania zapotrzebowania ze strony klientów. Tworzą modele predykcyjne dla nowych produktów i usług, klasyfikując kluczowe atrybuty dawnych i obecnych produktów i usług oraz modelując związek między tymi atrybutami a komercyjnym sukcesem poszczególnych ofert. Ponadto P&G wykorzystuje dane i analizy z grup fokusowych, mediów społecznościowych, rynków testowych i próbnego wprowadzania nowych produktów w sklepach podczas procesów planowania, wytwarzania i wypuszczania produktów na rynek.
2. Opieka zdrowotna. Placówki opieki zdrowotnej mogą łączyć wiele wewnętrznych źródeł danych, takich jak elektroniczna dokumentacja medyczna, urządzenia do noszenia przez pacjentów i dane dotyczące personelu, a także zewnętrznych, obejmujących m.in. rejestry ubezpieczeniowe i badania chorób, w celu optymalizacji doświadczeń zarówno świadczeniodawców, jak i pacjentów. Na poziomie wewnętrznym można optymalizować harmonogramy zatrudnienia, łańcuchy dostaw i procesy zarządzania obiektami dzięki informacjom dostarczanym przez zespoły operacyjne. W przypadku pacjentów możliwa jest zmiana natychmiastowej i długoterminowej opieki dzięki danym takim jak spersonalizowane zalecenia i skany predykcyjne.
3. Usługi finansowe. Jeśli chodzi o bezpieczeństwo, mamy do czynienia nie z kilkoma atakującymi, ale z całymi zespołami ekspertów. Systemy bezpieczeństwa i wymagania dotyczące zgodności z przepisami ulegają ciągłym zmianom. Technologia Big Data pomaga identyfikować w danych wzorce wskazujące na oszustwa i gromadzić duże ilości informacji, aby znacznie przyspieszyć generowanie sprawozdań wymaganych przez organy regulacyjne.
4. Produkcja. Czynniki pomocne w przewidywaniu awarii mechanicznych mogą być ukryte głęboko w danych ustrukturyzowanych, takich jak rok produkcji, marka czy model urządzenia, a także w danych nieustrukturyzowanych obejmujących miliony wpisów w dzienniku, dane z czujników, komunikaty o błędach i odczyty temperatury silnika. Analizując te oznaki potencjalnych problemów, zanim do nich faktycznie dojdzie, przedsiębiorstwa mogą dokonywać konserwacji w bardziej ekonomiczny sposób i maksymalnie wydłużać czas bezawaryjnego działania części i sprzętu.
5. Administracja rządowa i usługi publiczne. Urzędy państwowe mogą potencjalnie gromadzić dane z wielu różnych źródeł, takich jak rejestry wydziału komunikacji, dane o ruchu drogowym, dane policyjne/strażackie, rejestry szkół publicznych i inne. Może to zwiększyć wydajność na wiele różnych sposobów, takich jak wykrywanie trendów dotyczących kierowców w celu optymalizacji zarządzania skrzyżowaniami czy lepsza alokacja zasobów w szkołach. Organy rządowe mogą również publikować dane publicznie, co pozwala na poprawę przejrzystości, a tym samym zwiększenie zaufania publicznego.
Chociaż technologia Big Data oferuje wiele możliwości, wiążą się z nią również pewne wyzwania.
Po pierwsze, wielkie zbiory danych są… wielkie. Chociaż opracowano nowe technologie ułatwiające przechowywanie danych, według analityków ilość danych podwaja się mniej więcej co dwa lata. Organizacje, które mają trudności z dotrzymaniem kroku swoim danym i znalezieniem sposobów na ich efektywne przechowywanie, nie rozwiążą tych problemów poprzez zmniejszenie ilości danych.
Nie wystarczy tylko przechowywać danych w przystępny cenowo i łatwo dostępny sposób. Aby zapewniać korzyści, dane muszą być wykorzystywane — sukces zależy od ich właściwej selekcji i odpowiedniego przygotowania. Wyselekcjonowane dane — to znaczy takie, które są istotne dla klienta i uporządkowane w sposób umożliwiający konstruktywną analizę — nie pojawiają się ot tak. Ich odpowiedni dobór wymaga wiele pracy. W wielu organizacjach analitycy danych spędzają od 50% do 80% czasu na selekcjonowaniu i przygotowywaniu danych, aby można je było efektywnie wykorzystać.
Gdy wszystkie te dane są przechowywane w repozytorium organizacji, nadal istnieją dwa istotne wyzwania. Po pierwsze, potrzeby w zakresie bezpieczeństwa i prywatności danych będą miały wpływ na sposób zarządzania nimi przez zespoły IT. Obejmuje to zgodność z przepisami regionalnymi/branżowymi, szyfrowanie i dostęp do wrażliwych danych oparty na rolach. Po drugie, dane przynoszą korzyści tylko wtedy, gdy są wykorzystywane. Stworzenie kultury opartej na danych może być wyzwaniem, zwłaszcza jeśli zakorzenione są przestarzałe zasady i utrwalone postawy. Nowe dynamiczne aplikacje, przeznaczone m.in. do samodzielnej analizy, mogą być przełomowe dla niemal każdego działu, ale zespoły IT muszą poświęcić czas i wysiłek na edukację, zapoznanie się z nimi i szkolenie; jest to długoterminowa inwestycja, która powoduje znaczące zmiany organizacyjne umożliwiające uzyskanie wglądu i dokonywanie optymalizacji.
Ponadto technologia Big Data ulega szybkim zmianom. Kilka lat temu popularną technologią używaną do obsługi Big Data była platforma Apache Hadoop. Następnie w 2014 r. wprowadzono platformę Apache Spark. Obecnie połączenie różnych technologii zapewnia nowe przełomy na rynku Big Data. Dotrzymywanie kroku zmianom jest ciągłym wyzwaniem.
Technologia Big Data dostarcza spostrzeżeń, które rzucają światło na nowe możliwości i modele biznesowe. Po pozyskaniu danych rozpoczęcie pracy obejmuje trzy kluczowe działania:
Technologia Big Data pozwala połączyć dane pochodzące z wielu różnych źródeł i aplikacji. Tradycyjne mechanizmy integracji danych, takie jak wyodrębnianie, przekształcanie i ładowanie (extract, transform and load, ETL), zwykle nie nadają się do realizacji tego zadania. Wymaga ono zastosowania nowych strategii i technologii do analizy wielkich zbiorów zawierających terabajty, a nawet petabajty danych.
Podczas integracji trzeba udostępnić dane, przetworzyć je i upewnić się, że są sformatowane i dostępne w formie, od której analitycy biznesowi będą mogli zacząć pracę.
Zbiory Big Data wymagają miejsca do przechowywania. Rozwiązanie do przechowywania danych może być wdrożone w chmurze, lokalnie lub w obu tych środowiskach. Firma może przechowywać swoje dane w dowolnej pożądanej formie i na żądanie stosować wobec tych zbiorów danych niezbędne mechanizmy przetwarzania z uwzględnieniem odpowiednich wymagań dotyczących tego typu procesów. Wiele osób wybiera swoje rozwiązanie do przechowywania danych w zależności od tego, gdzie aktualnie znajdują się ich dane. Jeziora danych stopniowo zyskują na popularności, ponieważ obsługują obecne wymagania obliczeniowe firm oraz w razie potrzeby umożliwiają skorzystanie z dodatkowych zasobów.
Inwestycja w technologię Big Data zwraca się, gdy firma analizuje swoje dane i wykorzystuje uzyskane wnioski w dalszej działalności biznesowej. Wizualna analiza różnych zestawów danych zapewnia większą przejrzystość. Eksploruj dane dalej, aby dokonywać nowych odkryć. Podziel się swoimi spostrzeżeniami z innymi. Twórz modele danych z wykorzystaniem mechanizmów samouczenia się maszyn i sztucznej inteligencji. Wykorzystaj dane do pracy na rzecz swojej organizacji.
Aby pomóc Twojej firmie we wdrożeniu technologii Big Data, zebraliśmy kilka kluczowych najlepszych praktyk, o których należy pamiętać. Oto nasze wskazówki dotyczące utworzenia efektywnego środowiska Big Data.
Bardziej rozbudowane zbiory danych umożliwiają dokonywanie nowych odkryć. W tym celu ważne jest, aby podejmować nowe inwestycje w kwalifikacje pracowników, organizację lub infrastrukturę w oparciu o silny kontekst biznesowy, co pozwoli zagwarantować bieżące inwestycje na potrzeby projektu i jego finansowanie. Aby ustalić, czy jesteś na dobrej drodze, zapytaj, w jaki sposób technologia Big Data wspiera najważniejsze priorytety biznesowe i informatyczne Twojej firmy oraz umożliwia ich realizację. Za przykład może tu posłużyć m.in. zrozumienie, jak filtrować dzienniki sieci WWW, aby właściwie zinterpretować zachowania w handlu elektronicznym, odczytywanie nastrojów klientów z mediów społecznościowych i kontaktów związanych z obsługą klienta oraz zrozumienie metod korelacji statystycznej i ich znaczenia dla analizy danych dotyczących klientów, produktów, produkcji i inżynierii.
Jedną z największych przeszkód w czerpaniu korzyści z inwestycji w technologię Big Data jest brak wystarczającej liczby pracowników posiadających umiejętności niezbędne do analizy danych. Można zminimalizować to ryzyko, dbając o dodanie technologii, zagadnień i decyzji z zakresu Big Data do programu zarządzania infrastrukturą informatyczną. Standaryzacja podejścia umożliwi zarządzanie kosztami i lepsze wykorzystywanie zasobów. Przedsiębiorstwa wdrażające rozwiązania i strategie Big Data powinny wcześnie i często oceniać swoje wymagania dotyczące kwalifikacji pracowników oraz z wyprzedzeniem identyfikować wszelkie potencjalne braki w tych kwalifikacjach. Takim niedoborom można zaradzić, szkoląc lub przekwalifikowując obecnych pracowników i zatrudniając nowych oraz korzystając z usług firm konsultingowych.
Skorzystaj z podejścia opartego na centrum doskonałości, aby udostępniać wiedzę, kontrolować nadzór i zarządzać komunikacją w ramach projektu. Niezależnie od tego, czy firma dopiero wdraża technologię Big Data, czy też rozwija rozwiązanie już istniejące, koszty miękkie i twarde mogą być ponoszone wspólnie przez całe przedsiębiorstwo. Wykorzystanie tego podejścia może pomóc w zwiększeniu możliwości zapewnianych przez Big Data oraz dopracowaniu architektury informacji w bardziej uporządkowany i systematyczny sposób.
Z pewnością warto analizować wielkie zbiory danych samodzielnie. Ale jeszcze lepszy wgląd w działalność biznesową można uzyskać, łącząc i integrując wielkie zbiory danych o niskiej gęstości z danymi ustrukturyzowanymi, które przedsiębiorstwo już dziś wykorzystuje.
Niezależnie od tego, czy firma rejestruje duże ilości danych dotyczących klientów, produktów, sprzętu czy też środowiska, celem jest wzbogacenie podstawowych podsumowań głównych i analitycznych o więcej istotnych danych, co pozwoli wyciągać lepsze wnioski. Istnieje na przykład różnica między opinią wszystkich klientów a nastrojami tylko najlepszych klientów firmy. Dlatego właśnie wiele osób postrzega technologię Big Data jako integralne rozszerzenie już istniejących możliwości analizy biznesowej, platformy hurtowni danych i architektury informacji.
Należy pamiętać, że procesy i modele analityczne technologii Big Data mogą być obsługiwane zarówno przez człowieka, jak i przez maszynę. Możliwości analityczne technologii Big Data obejmują statystykę, analizę przestrzenną, semantykę, interaktywne wykrywanie i wizualizację. Korzystając z modeli analitycznych, można skorelować różne typy i źródła danych w celu tworzenia skojarzeń i dokonywania znaczących odkryć.
Odkrywanie znaczenia danych nie zawsze jest proste. Czasami nawet nie wiemy, czego szukamy. Tego właśnie należy oczekiwać. Kierownictwo firmy i dział IT muszą wspierać ten brak kierunku lub brak jasnych wymagań.
Jednocześnie ważne jest, aby analitycy i inżynierowie danych ściśle współpracowali z pionami biznesowymi, dążąc do identyfikacji kluczowych luk w wiedzy biznesowej i wymagań w tym zakresie. Aby wdrożyć interaktywną eksplorację danych i móc eksperymentować z algorytmami statystycznymi, firma potrzebuje obszarów roboczych o wysokiej wydajności. Upewnij się, że środowiska testowe mają niezbędne wsparcie i są odpowiednio zarządzane.
Procesy i użytkownicy technologii Big Data wymagają dostępu do szerokiej gamy zasobów, na potrzeby zarówno eksperymentów iteracyjnych, jak i wykonywania zadań produkcyjnych. Rozwiązanie Big Data obejmuje wszystkie rodzaje danych, w tym transakcyjne, podstawowe, referencyjne i sumaryczne. Analityczne środowiska testowe powinny być tworzone na żądanie. Zarządzanie zasobami ma kluczowe znaczenie dla zapewnienia kontroli nad całym przepływem danych, w tym nad przetwarzaniem wstępnym i końcowym, integracją, podsumowywaniem w bazie danych i modelowaniem analitycznym. Dobrze zaplanowana strategia udostępniania i bezpieczeństwa w chmurze prywatnej i publicznej stanowi integralny element wspierania tych zmieniających się wymagań.
W przypadku organizacji, które potrzebują wydajnego i kompleksowego zarządzania dużymi zbiorami danych, platforma Oracle Cloud Infrastructure (OCI) Big Data zapewnia szeroki zakres możliwości przy doskonałym stosunku ceny do wydajności. OCI to w pełni zarządzana, zdolna do automatycznego skalowania, elastyczna platforma Big Data wyposażona w natywnie zintegrowane narzędzia. Jest ona dostarczana w modelu pay-as-you-go i łączy w sobie wszystkie dane.
Objętość, szybkość i różnorodność dużych zbiorów danych sprawiają, że uzyskanie znaczących spostrzeżeń i przydatnych informacji stanowi wyzwanie — jednak firmy, które inwestują w narzędzia potrzebne do pozyskania cennych informacji ze swoich danych, mogą odkryć mnóstwo spostrzeżeń, które umożliwiają decydentom oparcie strategii na faktach, a nie domysłach.
Sztuczna inteligencja nie istnieje bez danych — im jest ich więcej, tym lepiej. Pobierz nasz raport, aby dowiedzieć się, jak szybko osiągnąć korzyści oraz rozszerzyć zastosowanie sztucznej inteligencji za pomocą funkcji RAG (retrieval-augmented generation) i wyszukiwania wektorowego.
Jak rozumieć pojęcie Big Data?
Pojęcie Big Data odnosi się do niezwykle dużych i zróżnicowanych zbiorów danych, którymi nie można łatwo zarządzać za pomocą tradycyjnych metod i narzędzi przetwarzania danych.
Big Data — przykłady
Zbiory Big Data charakteryzują się pięcioma V, czyli zawierają dużą ilość (volume) informacji, wykazują dużą szybkość (velocity) generowania danych, obejmują różnorodne (variety) typy danych oraz kładą nacisk na ich wiarygodność (veracity) i wartość (value). Przykładowe źródła obejmują m.in. wiadomości e-mail i SMS-y, filmy, bazy danych, dane z czujników IoT, posty w serwisach społecznościowych czy strony internetowe.
Przykłady branż, w których podejmowanie decyzji opiera się na danych, obejmują opiekę zdrowotną, handel detaliczny, finanse i marketing. W sektorze opieki zdrowotnej można wykorzystać technologię Big Data do zagłębiania się w duże zbiory danych w celu przewidywania, kiedy pacjent może odnieść korzyści z wczesnej interwencji, zanim rozwinie się choroba, taka jak np. cukrzyca typu 2. W handlu detalicznym duże zbiory danych mogą pomóc w optymalizacji zapasów oraz personalizacji ofert i rekomendacji. W branży finansowej technologia Big Data jest wykorzystywana do wykrywania oszustw i lepszego rozpoznawania trendów, podczas gdy marketerzy mogą śledzić ogromne ilości danych nieustrukturyzowanych z mediów społecznościowych w celu identyfikowania nastrojów i optymalizacji kampanii reklamowych.