Дадим простое определение: озеро данных — это место, где хранятся структурированные и неструктурированные данные, а также метод организации больших объемов очень разных данных, поступающих из различных источников.
Озера данных играют все более важную роль, поскольку люди, особенно занятые в бизнесе и сфере технологий, хотят исследовать и обнаруживать все более разнообразные данные. Это гораздо проще сделать, если собрать все данные или хотя бы большинство данных в одном месте.
И озеро данных может еще больше все упростить с учетом особенностей вашей платформы. Оно может работать с многими структурами данных, например с неструктурированными данными и данными с различной структурой, и помогает извлекать максимум пользы из имеющихся данных.
Основное различие между озером данных и хранилищем данных заключается в том, что озеро данных обычно быстрее принимает данные и подготавливает их позже в ходе работы, когда люди начнут к ним обращаться. С другой стороны, при использовании хранилища данных нужно заранее очень тщательно подготовить данные, прежде чем передавать их в хранилище.
Пользователи обычно хотят передавать данные в озеро данных как можно быстрее, чтобы у компаний с практическими сценариями использования, особенно у тех, кто занимается операционными отчетами, аналитикой и бизнес-мониторингом, были самые актуальные данные. Так компании получают доступ к новейшим данным и могут успешно пользоваться обновленной информацией.
Озера данных позволяют вносить данные в исходном формате без изменений. Это может быть полезно для ускорения работы, но также и по ряду других причин, таких как желание выполнять аналитику самыми современными методами, которые требуют использования подробных исходных данных. К этим типам аналитики относится аналитика на основе интеллектуального анализа, такая как:
Чтобы использовать все преимущества озера данных, подходящее решение должно оптимизировать следующие действия:
Озеро данных оказывается более эффективным, когда оно является частью более масштабной платформы управления данными. А чтобы расширить возможности озера данных, нужно интегрировать его с существующими данными и инструментами.
Озеро данных часто используют в дополнение к хранилищу данных, когда занимаются многоканальным маркетингом (иногда его называют мультиканальным маркетингом). При использовании экосистемы данных для маркетинга следует учитывать, что любой канал (или точка взаимодействия) сам по себе может быть базой данных. Кроме того, многие маркетологи покупают данные у сторонних поставщиков.
Например, маркетолог хочет приобрести данные, которые содержат дополнительную информацию о демографических характеристиках и предпочтениях клиентов, а также о перспективах. Эти данные помогут маркетологу составить полное представление о каждом клиенте, а это в свою очередь позволит создавать более точно персонализированные и таргетированные рекламные кампании.
Получается довольно сложная экосистема данных, и со временем ее объем и сложность только увеличиваются. Озеро данных часто добавляют, чтобы размещать в нем данные, поступающие из разных каналов и точек взаимодействия. Причем некоторые из этих источников передают данные в потоковом режиме.
Компании, которые предлагают клиентам мобильное приложение, могут получать такие данные в режиме реального времени или с минимальной задержкой, когда клиенты пользуются этим приложением. Во многих случаях компании не нужно работать с поступающими данными в реальном времени. Ее вполне устроят данные, поступившие час или два назад. Но такой режим передачи данных позволяет отделу маркетинга очень внимательно отслеживать работу компании и создавать специальные предложения, акции, скидки и микрокампании.
Цифровая цепочка поставок также представляет собой весьма разнообразную среду данных, и здесь также может оказаться полезным озеро данных, особенно если оно работает на основе проекта Hadoop. Hadoop — это по большей части файловая система, потому что она изначально создавалась для очень больших и многочисленных файлов журнала, поступающих с веб-серверов. В цепочке поставок довольно часто есть большой объем данных в файловом формате. Это могут быть данные в виде файлов и документов, поступающие из системы документооборота EDI, файлы XML и, конечно, сегодня в цифровых цепочках поставок активно используется формат JSON. Это очень разнообразная информация.
Кроме того, нельзя забывать и о внутренней информации. Производители часто получают данные из цехов, отделов доставки и платежей, которые очень важны для цепочки поставок. Озеро помогает собрать все данные вместе и управлять ими, ориентируясь на файловый формат.
В некоторых компаниях Интернет вещей создает новые источники данных практически каждый день. И, конечно, по мере увеличения количества различных источников увеличиваются и объемы данных. Также со временем появляется все больше оборудования, на которое устанавливается все больше датчиков. Например, на каждом арендованном транспортном средстве (поезде или грузовике), устанавливается множество датчиков, чтобы компания могла отслеживать не только его работу, но и перемещения в пространстве с течением времени. Насколько безопасно движется транспортное средство? Оптимально ли управление с точки зрения потребления горючего? С этих датчиков поступают огромные объемы информации, и озера данных стали очень популярны, потому что они позволяют хранить все эти данные.
Мы привели примеры довольно узкоспециализированного использования озера данных определенными отделами или программами ИТ. Но существует и другой подход, когда централизованный отдел ИТ предоставляет одно большое озеро данных нескольким участникам. Им могут пользоваться несколько отделов, подразделений компании и технологических программ. Когда люди привыкают к использованию облака, они понимают, как оптимизировать его для различных целей и видов операций, методов аналитики и даже нормативных требований.
Озеро данных можно использовать в разных целях, и оно может работать на разных платформах. Hadoop — это самая распространенная, но далеко не единственная такая платформа.
Платформа Hadoop очень привлекательна. Она уже доказала на практике свои возможности линейного масштабирования. И при такой масштабируемости она относительно недорога, если сравнивать, например, с реляционной базой данных. Но Hadoop — это не просто дешевое хранилище. Это также мощная платформа обработки данных. Hadoop будет полезен тем, кто использует алгоритмы для аналитики.
Система управления реляционными базами данных также может использоваться как платформа для озера данных, потому что некоторые организации работают с огромными объемами данных и хотят хранить их в озере, которое представляет собой структурированную и реляционную базу данных. Так что, если ваши данные подходят для реляционной модели, логично использовать для озера данных тот же подход, который используется в системах управления базами данных. Кроме того, если у вас бывают ситуации, когда нужно использовать возможности реляционных баз данных, такие как язык SQL или сложные соединения таблиц, то разумно использовать системы управления реляционными базами данных.
Однако сегодня преобладает тенденция использовать облачные системы, в частности облачные хранилища. Основное преимущество облака — это гибкость и масштабируемость. Они могут собирать серверные и другие ресурсы при увеличении рабочих нагрузок. А по сравнению с многими локальными системами, облако довольно экономично. Отчасти это объясняется отсутствием интеграции с системой.
Чтобы решать задачи локально, вам или кому-то другому придется потратить несколько месяцев на интеграцию с системой, тогда как для многих систем существуют поставщики облачных решений, которые уже выполнили интеграцию. В сущности, вы покупаете лицензию и можете приступать к работе уже через несколько часов (а не месяцев). Кроме того, подход к облаку как к хранилищу объектов, который мы упоминали в предыдущей публикации с рекомендациями по использованию озера данных, также имеет немало преимуществ.
И, разумеется, можно использовать гибридное сочетание платформ и озера данных. Если вы знакомы с тем, что мы называем логическим хранилищем данных, то можете использовать нечто похожее — логическое озеро данных. Это ситуация, когда данные физически распределены между несколькими платформами. У этого подхода есть свои трудности, например нужно пользоваться специальными инструментами, которые подходят для запросов к федеративной системе данных или виртуализации данных, для серьезных аналитических запросов.
Но эта технология доступна на уровне инструментов, и многие ею пользуются.
Стремясь извлечь максимум пользы из имеющихся данных, компании постоянно пытаются выйти за рамки существующих ограничений. Используя возможности облачных вычислений, они зачастую сочетают технологии озера данных и хранилища данных в единой архитектуре, которая называется data lakehouse. Среди преимуществ data lakehouse можно назвать улучшенную интеграцию, уменьшение количества перемещений данных, усовершенствованное управление данными и поддержку большего числа сценариев.
Озеро данных — удачное решение, которое позволит упорядочить большие объемы разнообразных данных, поступающие из разных источников. И если вы готовы к тому, чтобы начать использовать озеро данных, мы предлагаем начать с программы Oracle Free Tier.