Enterprise Data Mesh

Решения, сценарии использования и примеры использования


Forrester Wave: отчет Enterprise Data Fabric, 2-й квартал 2020 г.

Узнайте, почему компания Oracle была признана лидером и получила самую высокую оценку в категории «Стратегия».

Что такое сетка данных?

Сетка данных — актуальная тема в области корпоративного программного обеспечения — это новый подход к осмыслению данных, основанный на распределенной архитектуре управления данными. Идея состоит в том, чтобы сделать данные доступнее для бизнес-пользователей за счет прямой связи с владельцами данных, их источниками и потребителями. Концепция сетка данных нацелена на улучшение бизнес-результатов решений, ориентированных на обработку данных, а также на освоение современных архитектур данных.

С точки зрения бизнеса, сетка данных привносит новые идеи в использование модели «данные как продукт». Другими словами, данные следует рассматривать как продукт, который выполняет необходимую работу, например улучшает процесс принятия решений, помогает выявлять мошенничество или предупреждает организацию о необходимости изменить условия в логистической цепочке. Для создания продуктов данных высокой ценности компаниям необходимо пересмотреть свою культуру и образ мышления, а также применять для моделирования своей деятельности действительно многофункциональный подход.

Что касается технологий, то в представлении Oracle о концепции сетки данных фигурируют три новых важных области для архитектуры, ориентированной на обработку данных:

  1. Инструменты, которые предоставляют продукты данных, такие как наборы данных, события данных и аналитика данных.
  2. Распределенные, децентрализованные архитектуры данных, которые помогают организациям, решившим перейти от монолитных архитектур к мультиоблачным или гибридным облачным решениям, либо компаниям, реализующим концепцию глобальной децентрализации.
  3. Данные в движении для организаций, которые не могут полагаться только на централизованные, статические, пакетные данные, а переходят к использованию управляемых событиями реестров данных и потоковых конвейеров для событий данных реального времени, которые предоставляют более своевременную аналитику.

Другие важные темы, такие как средства самообслуживания для пользователей без технической подготовки, и надежные модели управления федеративными данными, столь же важны для архитектуры сетки данных, как и для других, более централизованных и классических методологий управления данными.

Новая концепция для данных

Посмотрите введение в концепцию сетки данных от Жамак Дехгани (Zhamak Dehghani) (34:51)

Подход сетки данных представляет собой коренное изменение представления о данных как о продукте. Сетка данных предлагает организационные и технологические изменения, необходимые компаниям для управления данными как материальным активом бизнеса. Представление об архитектуре сетки данных, которым руководствуется Oracle, требует согласования организационного и аналитического доменов данных.

Сетка данных призвана связать источники данных напрямую с бизнес-пользователями и в итоге убрать посредника в виде ИТ-отдела из проектов и процессов, которые связаны с использованием, подготовкой и преобразованием ресурсов данных.

При разработке Data Mesh компания Oracle уделяла основное внимание предоставлению нашим заказчикам платформы, способной удовлетворить подобные требования этой новой технологии. Сюда входят инструменты для продуктов данных, децентрализованные архитектуры, управляемые событиями, и модели потоковой передачи данных, находящихся в движении. При работе над моделированием домена продукта данных и другими социотехническими проблемами Oracle ориентируется на результаты работы признанного эксперта в области сетки данных — Жамак Дехгани (Zhamak Dehghani).

Преимущества сетки данных

Инвестиции в сетку данных могут дать впечатляющие преимущества, среди которых:

  • Четкое представление о ценности данных за счет применения передовых методов работы с продуктами данных.
  • Доступность операционных данных на уровне свыше 99,999 % (PDF) за счет применения конвейеров данных на основе микросервисов для консолидации и переноса данных.
  • Десятикратное ускорение циклов разработки инноваций за счет отказа от ручного, ориентированного на обработку пакетов метода ETL в пользу метода непрерывной трансформации и загрузки (CTL).
  • Сокращение объема работ по проектированию методов обработки данных более чем на 70 %, преимущества в сферах CI/CD, инструментов для конвейеров данных с самообслуживанием и работы без кода, а также гибкой разработки.

Сетка данных — это образ мышления и многое другое

Концепция сетки данных все еще находится на ранних этапах рыночной зрелости. И несмотря на появление разнообразных маркетинговых материалов о решениях, которые, как утверждается, реализуют концепцию сетки данных, такие системы часто не соответствуют базовому подходу или принципам.

Правильное решение на основе сетки данных ― это образ мышления, организационная модель и подход к архитектуре корпоративных данных в сочетании с поддерживающими инструментами. Решение для сетки данных должно объединять подход к данным как к продукту, децентрализованную архитектуру данных, владение данными с учетом области их применения, распределенную модель данных в движении, доступ с самообслуживанием и надежное управление данными.

Все, что описано далее, не является решением на основе сетки данных:

  • Продукт одного поставщика. Не существует единого программного продукта для реализации сетки данных.
  • Озеро данных или хранилище озера данных. Это дополнительные компоненты, которые могут входить в состав более крупного решения сетки данных, охватывающего несколько озер, прудов и операционных систем регистрации.
  • Каталог или граф данных. Сетка данных требует физической реализации.
  • Разовый консалтинговый проект. Сетка данных ― это процесс во времени, а не отдельный проект.
  • Продукт для аналитики с самообслуживанием. Классическая аналитика с самообслуживанием, подготовка данных и первичная обработка данных могут входить как в сетку данных, так и в состав других архитектур данных.
  • Матрица данных (Data Fabric). Несмотря на концептуальную связь, принцип матрицы данных включает в себя более широкий спектр стилей интеграции и управления данными, тогда как сетка данных в большей степени связана с децентрализацией и принципами проектирования на основе области применения.

Компания Oracle названа лидером в отчете Forrester Wave: Enterprise Data Fabric за 2-й кв. 2020 г.

Зачем нужна концепция сетки данных?

Неприятный факт: монолитные архитектуры данных прошлого являются громоздкими, дорогостоящими и негибкими. С годами стало понятно, что большая часть времени и затрат на цифровые бизнес-платформы — от приложений до аналитики — уходит на работу по интеграции. Вследствие этого большинство инициатив по созданию платформ оканчиваются неудачей.

И хотя стратегия сетки данных не является панацеей для монолитных централизованных архитектур данных, заложенные в нее принципы, методы и технологии призваны решить самые насущные и пока не решенные задачи в отношении модернизации для бизнес-инициатив, связанных с обработкой данных.

Вот несколько технологических тенденций, которые привели к появлению сетки данных:

Подробнее о том, почему концепция сетки данных настолько актуальна сегодня, читайте в статье Жамак Дехгани (Zhamak Dehghani) от 2019 г. «Как перейти от монолитного озера данных к распределенной модели сетки данных».

Определение сетки данных

Децентрализованная стратегия, лежащая в основе сетки данных, подразумевает обращение с данными, как с продуктом, путем создания инфраструктуры данных с самообслуживанием, чтобы сделать данные более доступными для бизнес-пользователей.

Ориентация на результат

Восприятие данных как продукта
  • Переход на восприятие данных с точки зрения их потребителя
  • Владельцы доменов данных ответственны за ключевые показатели эффективности (КПЭ) и соглашения об уровне обслуживания продуктов данных
Согласование операций и аналитики
  • Единый для всех домен данных и семантика технологической инфраструктуры
  • Больше не нужно перекидывать данные из отдела в отдел
Данные в движении
  • Запись событий данных в реальном времени непосредственно из систем регистрации и обеспечение возможности доставлять данные туда, куда необходимо, с помощью конвейеров с самообслуживанием
  • Важная возможность для обеспечения децентрализации данных и формирования продуктов данных, согласованных с источниками

Отказ от монолитной ИТ-инфраструктуры

Децентрализованная архитектура
  • Архитектура, предназначенная для децентрализованных данных, сервисов и облаков
Реестры данных, управляемые событиями
  • Предназначены для обработки событий любых типов, форматов и уровней сложности
Конвейеры данных, ориентированные на потоковую передачу
  • Потоковая обработка по умолчанию, пакетная обработка в виде исключения
Управляемая платформа самообслуживания
  • Призвана расширить возможности разработчиков и связать потребителей данных напрямую с их источниками
  • Встроенные средства проверки, контроля происхождения и обеспечения безопасности и прозрачности

Возможности Oracle для реализации сетки данных

При переходе от теории к практике возникает потребность в развертывании решений корпоративного класса для обработки важнейших данных. Компания Oracle предлагает ряд надежных решений для построения корпоративной инфраструктуры на основе концепции сетки данных.

Создание продуктов данных и предоставление доступа к ним

  • Многомодельные наборы данных, реализованные с помощью объединенной базы данных Oracle, позволяют создавать революционные продукты данных в форматах, необходимых потребителям данных
  • Продукты данных с самообслуживанием в виде приложений или API с использованием сервисов данных Oracle APEX Application Development и Oracle REST для удобного доступа ко всем данным и обмена ими
  • Единая точка доступа для запросов SQL или виртуализации данных с помощью Oracle Cloud SQL и Big Data SQL
  • Продукты данных для машинного обучения с использованием платформы Oracle для аналитики данных, каталога данных Oracle Cloud Infrastructure (OCI) и платформы облака данных от Oracle для озерных хранилищ
  • Сопоставленные с источниками продукты данных в виде событий реального времени, предупреждений о данных и сервисов событий необработанных данных с помощью Oracle Stream Analytics
  • Сопоставленные с потребителями продукты данных с самообслуживанием в комплексном решении Oracle Analytics Cloud

Эксплуатация архитектуры децентрализованных данных

  • Гибкая инфраструктура непрерывной интеграции и развёртывания (CI/CD) в стиле «сетки сервисов» для контейнеров данных с использованием подключаемых баз данных Oracle с технологиями Kubernetes и Docker или облачно-ориентированного решения на основе Autonomous Database
  • Синхронизация данных между регионами, в мультиоблачной или гибридной облачной среде с помощью микросервисов Oracle GoldenGate и Veridata для надежной структуры транзакций типа «активный–активный».
  • Возьмите под контроль события данных большинства приложений, бизнес-процессов и Интернета вещей с помощью Oracle Integration Cloud и Oracle Internet of Things Cloud
  • Используйте Oracle GoldenGate или Oracle Transaction Manager для создания очередей событий микросервисов с целью получения таких событий или их приема в реальном времени в Kafka и озера данных
  • Примените в своей сетке сервисов шаблоны разработки, ориентированные на децентрализованные домены, с помощью Oracle Verrazzano, Helidon и Graal VM

 

3 основных атрибута Data Mesh

Data Mesh ― это не просто новое модное техническое словосочетание. Это зарождающийся набор принципов, практик и технологических возможностей, который делает данные более доступными и упрощает их поиск. Концепция Data Mesh отличается от предыдущих поколений подходов и архитектур интеграции данных тем, что поощряет уход от гигантских, монолитных корпоративных архитектур данных прошлого с переходом на современную, распределенную, децентрализованную архитектуру данных будущего. В основе концепции Data Mesh лежат следующие основные атрибуты:

1.  Восприятие данных как продукта

Изменение образа мышления является самым важным первым шагом на пути к формированию Data Mesh. Готовность взять на вооружение освоенные методы инноваций является трамплином к успешной модернизации архитектуры данных.

К числу таких освоенных методов относятся:

  • Инженерное мышление — проверенная методология решения сложных проблем, применяемая к доменам корпоративных данных для создания превосходных продуктов данных.
  • Теория задач, подлежащих выполнению — применение процесса разработки инноваций с упором на клиентов и на результат с целью обеспечения того, чтобы продукты корпоративных данных решали реальные проблемы бизнеса.
fpo-01

Методологии инженерного мышления определяют проверенные техники, помогающие разбить обособленность систем организации, которая часто блокирует инновации, охватывающие разные ее подразделения. Теория задач, подлежащих выполнению, является важнейшей основой для проектирования продуктов данных, соответствующих конкретным целям (или выполняемым задачам) конечных потребителей, — она определяет предназначение продукта.

Несмотря на то что изначально подход к данным как к продукту появился в сообществе специалистов по изучению данных, сегодня его применяют ко всем аспектам управления данными. Вместо создания монолитных технологических архитектур, в Data Mesh основное внимание уделяется потребителям данных и результатам для бизнеса.

Конечно, восприятие данных как продукта можно использовать и в других архитектурах данных, однако в концепции Data Mesh эта часть является основополагающей. Чтобы показать на практике, как применять восприятие данных как продукта, команда специалистов Intuit написала подробный анализ, основанный на своем опыте.

Продукты данных

Продукты любого вида: от сырья до товаров в магазине за углом — производятся как ценные активы, предназначенные для потребления и выполняющие определенную работу. Продукты данных могут принимать различные формы, которые зависят от сферы бизнеса или решаемой проблемы. В их числе следующие:

  • Аналитика — отчеты и панели мониторинга, составленные по историческим данным или данным, поступающим в режиме реального времени.
  • Наборы данных — коллекции данных разных форм и форматов.
  • Модели — объекты доменов, модели данных, функции машинного обучения.
  • Алгоритмы — модели машинного обучения, оценки, бизнес-правила.
  • Сервисы данных и API — документы, полезная нагрузка, API REST и др.

Продукт данных создается для потребления, обычно находится за пределами ИТ-отдела и требует отслеживания дополнительных атрибутов, в том числе следующих:

  • Карта заинтересованных сторон. Кто владеет, создает и потребляет этот продукт?
  • Упаковка и документирование. Как он потребляется? Как он маркируется?
  • Назначение и ценность. Какова подразумеваемая/явная ценность продукта? Теряет ли он свою ценность со временем?
  • Качество и согласованность. Каковы показатели KPI и SLA использования? Можно ли проверить?
  • Происхождение, жизненный цикл и управление. Данные являются доверенными и объяснимыми?

2.  Децентрализованная архитектура данных

Децентрализованная архитектура данных

Децентрализованные ИТ-системы являются современной реальностью, а с учетом развития приложений SaaS и инфраструктуры публичного облака (IaaS) можно уверенно говорить, что децентрализация приложений ― это всерьез и надолго. Архитектуры прикладных приложений уходят от централизованного монолита прошлого и смещаются в сторону распределенных микросервисов (сетка сервисов). Архитектура данных последует в том же направлении к децентрализации, при этом данные будут становиться все более распределенными по различным физическим объектам и многим сетям. Это мы и называем Data Mesh.

Что такое сетка?

Сетка ― это сетевая технология, позволяющая большой группе неиерархических узлов плодотворно работать друг с другом.

Вот несколько распространенных примеров:

  • WiFiMesh — множество узлов, работающих совместно для обеспечения более качественного покрытия.
  • ZWave/Zigbee — сеть устройств умного дома с низким потреблением энергии.
  • Сетка 5G — более надежные и устойчивые сотовые подключения.
  • Starlink— сетка спутниковой широкополосной связи в глобальном масштабе.
  • Сетка сервисов — способ предоставления унифицированных элементов управления децентрализованными микросервисами (прикладным программным обеспечением).

Data Mesh соответствует этим концепциям и предоставляет децентрализованный способ распределения данных по виртуальным и физическим сетям, а также на большие расстояния. Для интеграции унаследованных монолитных архитектур данных, таких как ETL и инструменты федерации данных (и даже более недавних сервисов публичного облака, таких как AWS Glue), требуется инфраструктура с высокой степенью централизации.

Комплексное решение Data Mesh должно функционировать в многооблачной структуре, в состав которой, возможно, будут входить локальные системы, несколько публичных облаков и даже граничные сети.

Распределенная безопасность

В мире, где данные отличаются высокой степенью распределения и децентрализации, информационная безопасность играет первостепенную роль. Распределенным системам, в отличие от высокоцентрализованных монолитов, приходится делегировать действия, необходимые для аутентификации и авторизации различных пользователей для получения разных уровней доступа. Безопасное делегирование доверия по сетям очень сложно реализовать.

Вот лишь некоторые соображения на этот счет.

  • Шифрование в состоянии покоя — данные и события, которые записываются в хранилище.
  • Распределенная аутентификация — для сервисов и хранилищ данных, таких как mTLS, сертификатов, SSO, хранилищ секретов и хранилищ данных.
  • Шифрование в движении — данные и события, которые записываются в хранилище.
  • Управление идентификацией — сервисы типа LDAP или IAM (Oracle Identity and Access Management), кроссплатформенные.
  • Распределенная авторизация — для конечных точек сервисов, чтобы редактировать данные.
    Например, расширение Open Policy Agent (OPA) для размещения точки принятия решения по политике (PDP) в контейнер или кластер K8S, где обрабатывается конечная точка микросервиса. В качестве LDAP/IAM может использоваться любой сервис, поддерживающий JWT.
  • Детерминированное маскирование — чтобы надежно и согласованно скрывать данные PII.

Добиться безопасной работы любой ИТ-системы бывает затруднительно, когда же требуется обеспечить высокую безопасность в распределенной системе, сложность только возрастает. Однако все это решаемые проблемы.

Децентрализованные домены данных

Основным компонентом Data Mesh является понятие распределения владения и ответственности. Рекомендуется отдавать владение продуктами данных и доменами данных людям, которые в организации находятся ближе всего к данным. На практике это может соответствовать исходным данным (например, источникам двоичных данных, таким как операционные системы записи или приложения) или аналитическим данным (например, обычно составным или агрегированным данным, отформатированным для простоты использования потребителями данных). В обоих случаях источники и потребители данных часто соответствуют коммерческим подразделениям компании, а не ИТ-организациям.

Старые способы организации доменов данных часто попадают в ловушку соотнесения с технологическими решениями, такими как инструменты ETL, хранилища данных, озера данных, или со структурными подразделениями компании (отделом кадров, маркетинга или других направлений). Однако для решения конкретной бизнес-проблемы домены данных лучше соотносить с областью, в которой имеется эта проблема, контекстом определенного бизнес-процесса или семейством приложений, работающих в сфере данной проблемы. В крупных организациях такие домены данных обычно пересекают внутренние подразделения компании и различные технологии.

В Data Mesh функциональное разделение доменов данных имеет повышенный приоритет. Различные методологии разделения данных для моделирования доменов можно адаптировать под архитектуру Data Mesh, включая моделирование классического хранилища данных (такого как Kimball и Inmon) или моделирование хранилища данных типа Data Vault, однако в настоящее время в архитектуре сетки данных чаще всего используют метод предметно-ориентированного проектирования (domain-driven design, DDD). Метод DDD возник в сфере функционального разделения микросервисов, а теперь его также применяют в контексте Data Mesh.

3.  Динамические данные в движении

Важной сферой, в обсуждении которой в связи с Data Mesh участвует Oracle, является повышение важности данных в движении как ключевого компонента современной сетки данных. Данные в движении имеют основополагающее значение для вывода Data Mesh из старого мира монолитной, централизованной пакетной обработки. Возможности данных в движении дают ответ на несколько базовых вопросов в отношении Data Mesh.

  • Как обращаться к соотнесенным с источником продуктам данных в режиме реального времени?
  • Какие инструменты могут предоставить средства для выполнения транзакций с распределенными доверенными данными в физически децентрализованной Data Mesh?
  • Что мне нужно, чтобы предоставлять события данных как API продуктов данных, что можно для этого использовать?
  • Работая с продуктами аналитических данных, которые необходимо поддерживать в актуальном состоянии, как соотнести домены данных и обеспечить их доверие и достоверность?

Эти вопросы касаются не только «деталей реализации», а имеют важнейшее значение для самой архитектуры данных. В предметно-ориентированном проектировании для статических данных используются методы и инструменты, отличающиеся от тех, которые применяются при работе с динамическими данными в движении, хотя конструкция может быть одной и той же. Например, в архитектурах динамических данных книга данных является центральным источником достоверной информации для событий данных.

Книги данных, управляемые событиями

Книги данных, управляемые событиями

Книги являются основополагающим компонентом, обеспечивающим работу архитектуры распределенных данных. Как и в бухгалтерской книге, в книгу данных записываются транзакции по мере их выполнения.

При распределении такой книги события данных можно будет воспроизвести в любом месте. Некоторые книги немного напоминают черный ящик самолета, который используется для обеспечения высокой доступности и аварийного восстановления.

В отличие от централизованных и монолитных хранилищ данных, распределенные книги создаются специально для отслеживания конкретных событий и/или транзакций, имеющих место в других (внешних) системах.

Data Mesh не является всего лишь одним-единственным видом книги. В зависимости от варианта применения и требований в Data Mesh можно использовать управляемые событиями книги данных разных типов.

  • Книга событий общего назначения, такая как Kafka или Pulsar
  • Книга событий данных — распределенные CDC/инструменты репликации.
  • Промежуточное ПО для обмена сообщениями, в том числе ESB, MQ, JMS и AQ.
  • Книга для блокчейна — для безопасных, неизменяемых, многосторонних транзакций.

Совместно эти книги могут представлять собой своего рода долговечный журнал событий для всего предприятия, содержащий пополняемый список событий данных, происходящих в системах записи и системах аналитики.

Многоязычные потоки данных

Многоязычные потоки данных

Многоязычные потоки данных сегодня используются как никогда часто. Они отличаются по типам событий, полезной нагрузке и разной семантике транзакций. Data Mesh должна поддерживать необходимые типы потоков для различных рабочих нагрузок корпоративных данных.

Простые события:
Base64/JSON — необработанные, бессхемные события
Необработанная телеметрия — разреженные события

Ведения простых журналов приложений / события Интернета вещей (IoT):
JSON/Protobuf — могут иметь схему
MQTT —протоколы для IoT

События бизнес-процессов приложений:
События SOAP/REST — XML/XSD, JSON
B2B — протоколы и стандарты обмена

События данных / транзакции с данными:
Записи о логических изменениях — LCR, SCN, URID
Согласованные границы — фиксации против операций

Обработка потоков данных

Потоковая обработка ― это обращение с данными в потоке события. В отличие от лямбда-функций, процессор потока сохраняет состояние потоков данных в пределах определенного временного окна, а также может применять намного более сложные аналитические запросы к данным.

    Простая фильтрация данных:

    • Пороги, предупреждения и мониторинг телеметрии

    Простой ETL:

    • Функции RegEx, математика/логика и конкатенация
    • Запись-запись, замены и маскирование

CEP и сложный ETL:

  • Обработка сложных событий (CEP)
  • Обработка DML (ACID) и группы кортежей
  • Агрегаты, подстановки и сложные объединения

Аналитика потоков:

  • Аналитика временных рядов и нестандартные временные окна
  • Геопространственные значения, машинное обучение и встроенный ИИ

Другие важные атрибуты и принципы

Разумеется, у Data Mesh больше трех атрибутов. Выше мы выделили три атрибута, чтобы привлечь Ваше внимание к тем из них, которые, как считают в компании Oracle, являются некоторыми новыми и уникальными аспектами зарождающегося современного подхода ― Data Mesh.

Некоторые другие важные атрибуты Data Mesh:

  • Инструменты самообслуживания. В Data Mesh используется общая тенденция в сфере управления данными к расширению самообслуживания. Разработчики должны все чаще выходить из рядов владельцев данных.
  • Управление данными. В Data Mesh также применяется долгосрочная тенденция использования более формализованной федеративной модели управления, которую вот уже много лет поддерживают директора по данным, менеджеры данных и поставщики каталогов данных.
  • Удобство использования данных. Углубляясь в принципы Data Mesh, убеждаешься, что ведется большая базовая работа, направленная на обеспечение максимального удобства использования продуктов данных. Принципы продуктов данных будут касаться данных, являющихся ценными, пригодными для использования и которыми можно обмениваться.

 

7 примеров использования Data Mesh

Успешную Data Mesh можно использовать как для операционных, так и для аналитических данных. Следующие семь примеров использования иллюстрируют те возможности, которые Data Mesh привносит в работу с корпоративными данными.

Интегрируя операционные данные, поступающие в режиме реального времени, и аналитику, компании могут принимать более качественные операционные и стратегические решения.

Школа управления MIT Sloan

1. Модернизация приложений

Если заглянуть немного дальше простого перемещения монолитных архитектур данных в облако, окажется, что многие организации стремятся вывести из эксплуатации свои старые централизованные приложения и перейти к более современной микросервисной архитектуре приложений.

Основание для миграции монолитных систем ― Data Mesh
Основание для миграции монолитных систем ― Data Mesh
Форма золотистого фикуса для разделения монолита и поэтапной миграции
Форма золотистого фикуса для разделения монолита и поэтапной миграции

Однако монолит старых приложений, как правило, покоится на громадных базах данных, в связи с чем возникает вопрос о том, как составить план миграции так, чтобы свести к минимуму перерывы в работе, риски и затраты. Data Mesh может предоставить важную операционную возможность клиентам, которые выполняют поэтапный переход от монолита к архитектуре сетки. Ниже перечислены типы пользователей, которым подойдет версия XE.

  • Перемещение в поддомен транзакций баз банных, например фильтрация данных по ограниченному контексту
  • Двухсторонняя репликация транзакций для поэтапной миграции
  • Кроссплатформенная синхронизация, например между мейнфреймом и DBaaS

На языке архитекторов микросервисов такой подход называется использованием двусторонних контейнеров исходящих транзакций для применения шаблона миграции в виде золотистого фикуса , по одному ограниченному контексту за один раз.

2. Доступность и непрерывность данных

Data Mesh для географически распределенных событий данных
Data Mesh для географически распределенных событий данных

Критически важным для бизнеса приложениям требуются очень высокие показатели KPI и SLA в отношении устойчивости и непрерывности. Являются такие приложения монолитными или основанными на микросервисах либо чем-то средним, они должны работать всегда!

Для важнейших систем модель распределенных данных с постепенным обеспечением согласованности обычно не подходит. Однако такие приложения должны работать в нескольких центрах обработки данных. В связи с чем возникает вопрос в отношении непрерывности бизнеса. Как выполнять приложения в нескольких центрах обработки данных, гарантируя при этом наличие правильных и согласованных данных?

Будь то монолитные архитектуры, использующие сегментированные наборы данных, или микросервисы, настроенные на обеспечение высокой доступности между объектами, Data Mesh позволяет с высокой скоростью получать правильные данные на любом расстоянии.

Data Mesh может стать основой для децентрализованных, при этом на 100 % правильных данных между объектами. Ниже перечислены типы пользователей, которым подойдет версия XE.

  • Логические транзакции с очень низкой задержкой (кроссплатформенные)
  • Поддержка ACID гарантирует получение правильных данных
  • Широкий спектр активности, двунаравленность и разрешение конфликтов

Получение событий и контейнер исходящих транзакций

Взаимодействие между разными приложениями, микросервисами и БД на основе событий
Взаимодействие между разными приложениями, микросервисами и БД на основе событий
Общий шаблон для контейнера исходящих транзакций
Общий шаблон для контейнера исходящих транзакций (Примечание. Существуют варианты или оптимизации Data Mesh для этого шаблона).

Современная платформа в стиле сетки сервисов использует события для обмена данными. Вместо того чтобы зависеть от пакетной обработки на уровне данных, полезная нагрузка данных протекает непрерывно, когда события происходят в приложении или хранилище данных.

В некоторых архитектурах микросервисам требуется обмениваться полезной нагрузкой данных друг с другом. В других шаблонах требуется обмен между монолитными приложениями или хранилищами данных. В связи с чем возникает вопрос. Как обеспечить надежный обмен полезными нагрузками данных между приложениями и хранилищами данных?

Data Mesh может предоставить базовую технологию для обмена данными между микросервисами. Ниже перечислены типы пользователей, которым подойдет версия XE.

  • Между микросервисами в контексте
  • Между микросервисами и между контекстами
  • Из монолита в микросервис и наоборот

Варианты микросервисов, такие как получение событий, CQRS и контейнер исходящих транзакций, являются хорошо известными решениями; а Data Mesh предоставляет инструментарий и структуры, позволяющие сделать эти варианты повторяемыми и надежными в большом масштабе.

4. Интеграция, управляемая событиями

Помимо вариантов дизайна микросервисов, потребность в корпоративной интеграции простирается и на другие ИТ-системы, в том числе базы данных, бизнес-процессы, приложения и физические устройства всех типов. Data Mesh предоставляет основу для интеграции данных в движении.

Данные в движении обычно управляются событиями. Действие пользователя, событие устройства, этап процесса или фиксация в хранилище данных ― все это может инициировать событие в полезной нагрузке данных. Эти полезные нагрузки данных имеют важнейшее значение для интеграции систем Интернета вещей (IoT), бизнес-процессов и баз данных, хранилищ данных и озер данных.

Интеграция, управляемая событиями

Data Mesh предоставляет базовую технологию для интеграции систем предприятия в режиме реального времени. Ниже перечислены типы пользователей, которым подойдет версия XE.

  • Связывание событий устройств в реальном мире с ИТ-системами
  • Интеграция бизнес-процессов в ERP-системах
  • Соотнесение операционных баз данных с хранилищами данных для аналитики

Разумеется, в больших организациях имеется смесь старых и новых систем, монолитов и микросервисов, хранилищ операционных и аналитических данных; с помощью Data Mesh эти ресурсы из разных областей бизнеса и данных можно объединить.

Получение потоков (для аналитики)

Использование Data Mesh для получения обычных данных в озера данных, хранилища данных и киоски данных
Использование Data Mesh для получения обычных данных в озера данных, хранилища данных и киоски данных

В хранилищах данных для аналитики могут быть киоски данных, другие хранилища данных, кубы OLAP, озера данных и озерные хранилища данных.

Вообще, существует только два способа внесения данных в эти хранилища данных для аналитики:

  • Загрузка пакетов/микропакетов — планировщик по времени.
  • Получение потоков — непрерывная загрузка событий данных.

Data Mesh предоставляет основу для реализации возможности получения потоковых данных. Ниже перечислены типы пользователей, которым подойдет версия XE.

  • События данных из баз данных или хранилищ данных
  • События устройств от телеметрии физических устройств
  • Ведение журналов событий приложений или бизнес-транзакции

Получение событий по потоку позволяет снизить влияние на исходные системы, улучшить достоверность данных (что важно для изучения данных), а также вести аналитику в режиме реального времени.

6. Конвейеры потоковых данных

Data Mesh может создавать и выполнять конвейеры потоков в озере данных, а также управлять ими.
Data Mesh может создавать и выполнять конвейеры потоков в озере данных, а также управлять ими.

После получения данных в хранилища данных для аналитики обычно возникает необходимость в конвейерах данных, чтобы готовить и преобразовывать данные на разных этапах или в разных зонах. Этот процесс доработки данных часто требуется для реализации последующих продуктов аналитических данных.

Data Mesh позволяет создать слой конвейеров данных с независимым управлением, который взаимодействует с хранилищами данных для аналитики, предоставляя следующие основные сервисы:

  • Обнаружение и подготовка данных с самоуправлением
  • Управление ресурсами данных в разных доменах
  • Подготовка и преобразование данных в требуемые форматы продуктов данных
  • Проверка данных по политике, которая гарантирует их согласованность

Эти конвейеры данных должны иметь возможность работать с разными физическими хранилищами данных (такими как киоски, хранилища или озера) или как «магазинный поток данных» в платформах аналитических данных, поддерживающих потоковые данные, таких как Apache Spark и другие технологии озерных хранилищ.

7. Потоковая аналитика

События всех типов (IoT, DB и т. д.) можно анализировать в потоках, идущих в режиме реального времени.
События всех типов можно анализировать в потоках, идущих в режиме реального времени.

События происходят непрерывно. Анализ событий в потоке может иметь важнейшее значение для понимания происходящего на тот или иной момент времени.

Такой анализ потоков событий в режиме реального времени на основе временных рядов может иметь важное значение для данных устройств IoT, а также для понимания происходящего в центрах обработки данных ИТ либо в финансовых транзакциях, например для мониторинга мошенничества.

Полноценная Data Mesh должна иметь базовые возможности для анализа событий всех видов во многих различных типах временных окон событий. Ниже перечислены типы пользователей, которым подойдет версия XE.

  • Анализ простого потока событий (веб-событий)
  • Мониторинг бизнес-действий (события SOAP/REST)
  • Обработка сложных событий (многопотоковая корреляция)
  • Анализ событий данных (по транзакциям БД/ACID)

Как и конвейеры данных, потоковая аналитика может работать в имеющейся инфраструктуре озерных хранилищ или отдельно как облачные cloud native сервисы.

Достижение максимальной ценности с помощью общей сетки во всем массиве данных

Тем, кто работает на переднем крае интеграции данных, требуется интеграция операционных и аналитических данных в режиме реального времени из разрозненного набора отказоустойчивых хранилищ данных. Инновации наступают быстро и неумолимо по мере того, как архитектура данных эволюционирует в потоковую аналитику. Высокая доступность операционных данных привела к появлению аналитики в режиме реального времени, а автоматизация инжиниринга данных упрощает подготовку данных, предоставляя в распоряжение исследователей и аналитиков данных инструменты самообслуживания.

Краткое описание примеров использования Data Mesh

Краткое описание примеров использования Data Mesh

Выстраивание сетки операционных и аналитических данных по всему массиву данных.
Применение всех этих возможностей по управлению данными в рамках объединенной архитектуры окажет влияние на каждого потребителя данных. Data Mesh поможет Вам усовершенствовать свои глобальные системы записи и системы вовлечения, чтобы они надежно работали, соотнося поступающие в режиме реального времени данные с менеджерами, трудящимися в конкретных областях, исследователями данных и Вашими клиентами. Она также упрощает управление данными для реализации микросервисных приложений следующего поколения. Применяя современные методы и средства анализа, Ваши пользователи, аналитики и исследователи данных будут еще более чутко реагировать на потребности клиентов и угрозы со стороны конкурентов. Сведения о хорошо задокументированном примере см. в целях и результатах от Intuit.

Преимущество Data Mesh для точечных проектов.
По мере принятия нового восприятия и операционной модели данных как продукта важно разработать приемы работы в каждой из этих прорывных технологий. На пути к формированию Data Mesh можно получать промежуточные преимущества, преобразуя архитектуру быстрых данных в потоковую аналитику, используя вложения в обеспечение высокой доступности операционных данных в аналитике в режиме реального времени, а также предоставляя аналитику с самообслуживанием в режиме реального времени своим специалистам по анализу и изучению данных.

Сравнение и противопоставление

  Матрица данных Интеграция App-Dev Хранилище аналитических данных
  Data Mesh Интеграция данных Метакаталог Микросервисы Обмен сообщениями Озерное хранилище Распределенное хранилище данных
Люди, процесс и методы:
Фокус на данные как продукт
доступно
доступно
доступно
Предложение 1/4
Предложение 1/4
Предложение 3/4
Предложение 3/4
Атрибуты технической архитектуры:
Распределенная архитектура
доступно
Предложение 1/4
Предложение 3/4
доступно
доступно
Предложение 1/4
Предложение 3/4
Управляемые событиями книги
доступно
недоступно
Предложение 1/4
доступно
доступно
Предложение 1/4
Предложение 1/4
Поддержка ACID
доступно
доступно
недоступно
недоступно
Предложение 3/4
Предложение 3/4
доступно
Ориентация на поток
доступно
Предложение 1/4
недоступно
недоступно
Предложение 1/4
Предложение 3/4
Предложение 1/4
Фокус на аналитические данные
доступно
доступно
доступно
недоступно
недоступно
доступно
доступно
Фокус на операционные данные
доступно
Предложение 1/4
доступно
доступно
доступно
недоступно
недоступно
Физическая и логическая сетка
доступно
доступно
недоступно
Предложение 1/4
Предложение 3/4
Предложение 3/4
Предложение 1/4

Коммерческие результаты


Общие преимущества

Ускорение циклов разработки инноваций на основе данных

Снижение затрат для важнейших операций с данными

Операционные результаты

Ликвидность мультиоблачных данных
-  Позвольте капиталу данных свободно перемещаться

Обмен данными в режиме реального времени
-  Между операциями и между операциями и аналитикой

Граничные сервисы данных с учетом расположения
-  Соотнесение IRL--устройства и событий данных

Обмен данными между доверенными микросервисами
-  Снабжение событий правильными данными
-  DataOps и CI/CD для данных

Непрерывная работа
-  Соглашение об уровне обслуживания предусматривает время бесперебойной работы свыше 99,999 %
-  Миграция в облако

Результаты аналитики

Автоматизация и упрощение продуктов данных
-  Многомодельные наборы данных

Анализ данных временных рядов
-  Изменения / измененные записи
-  Точность от события к событию

Устранение полных копий данных для хранилища операционных данных
-  Конвейеры и книги на основе журналов

Распределенные озера и хранилища данных
-  Гибридные/мультиоблачные/глобальные
-  Интеграция потоковой передачи / ETL

Предиктивная аналитика
-  Монетизация данных, новые сервисы данных на продажу

Сведение всего воедино

Цифровая трансформация дается очень и очень тяжело, и, к сожалению, для большинства компаний она закончится неудачей. Со временем технология, конструкция программного обеспечения и архитектура данных становятся все более распределенными по мере того, как современные методы работы уходят от стилей с высокой степенью централизации и монолитности.

Data Mesh (новая концепция для работы с данными) — намеренный переход к высокораспределенным событиям данных, происходящим в режиме реального времени с отказом от монолитной, централизованной, пакетной обработки данных. По своей сути Data Mesh представляет собой культурный сдвиг в образе мышления, при котором на первое место выходят потребности потребителей данных. Это настоящая технологическая революция, выводящая на передний план платформы и сервисы, которые обеспечивают децентрализованную архитектуру данных.

Data Mesh применяется как для операционных, так и для аналитических данных, что является ключевым отличием от традиционных озер данных или озерных хранилищ и хранилищ данных. Такое соотнесение доменов операционных и аналитических данных является ключевым элементом в обеспечении большей степени самообслуживания для потребителей данных. Современные технологии платформ обработки данных позволяют отказаться от посредника при подключении источников данных к их потребителям.

Компания Oracle уже в течение длительного времени является лидером в сфере важнейших решений для обработки данных. Ей удалось разработать несколько самых современных систем, позволяющих реализовать надежную Data Mesh.

  • Облачная инфраструктура Oracle второго поколения, в состав которой входит более 33 активных регионов
  • Многомодельная база данных для революционных продуктов данных
  • Книга событий данных, работающая на базе микросервисов, для всех хранилищ данных
  • Мультиоблачная потоковая обработка для получения достоверных данных в режиме реального времени
  • Oracle API Platform, современная AppDev и инструменты самообслуживания
  • Аналитика, визуализация данных и cloud native подход в изчении данных