엔터프라이즈 데이터 메시

솔루션, 사용 사례, 사례 연구

데이터 메시란 무엇인가?
데이터 메시의 주요 속성
데이터 메시 사용 사례

The Forrester Wave: 엔터프라이즈 데이터 패브릭, Q2 2020

Oracle이 '전략' 카테고리에서 최고의 점수를 받으며 리더로 선정된 이유를 확인해 보세요.

데이터 메시 관련 주제

데이터에 관한 새로운 개념
데이터 메시의 이점
사고방식 그 이상의 의미를 가지는 데이터 메시
데이터 메시를 선택해야 하는 이유
데이터 메시의 정의
Oracle의 데이터 메시 구동 역량

데이터 메시란 무엇인가?

최근 엔터프라이즈 소프트웨어 관련 자주 언급되는 주제인 데이터 메시는, 데이터 관리용 분산형 아키텍처를 기반으로 하는, 데이터를 생각하는 새로운 접근 방식입니다. 핵심은 데이터 사용자, 데이터 생산자, 데이터 소비자를 직접 연결함으로써 비즈니스 사용자들이 더 많은 데이터를 활용할 수 있게 하는 것입니다. 데이터 메시의 목표는 데이터 중심 솔루션의 비즈니스 결과를 개선하고, 모던 데이터 아키텍처의 도입을 독려하는 것입니다.

비즈니스 관점에서 봤을 때, 데이터 메시는 '데이터 제품에 대한 사고 방식'을 둘러싼 새로운 개념을 제시합니다. 다시 말하면, 데이터를 '완수해야 할 과업(JTBD, Job to be Done)'을 이행하는 제품으로서 인식하는 것입니다. 예를 들자면, 의사결정 개선, 사기 감지 지원 또는 공급망 환경의 변화를 기업에 알리기 위해 쓰일 수 있습니다. 가치가 높은 데이터 제품을 만들기 위해서는 기업이 문화 및 사고방식의 변화에 대응하고, 비즈니스 도메인 모델링에 대한 부서 간 협업을 장려하는 접근 방식을 택해야 합니다.

기술적 측면에서 데이터 메시에 대한 Oracle의 관점은 데이터 기반 아키텍처에 관한 세 가지 중요한 중점 영역을 포함합니다:

데이터 수집, 데이터 이벤트, 데이터 분석을 위한 데이터 제품을 제공하는 도구
모놀리식 아키텍처에서 벗어나 멀티클라우드 및 하이브리드 클라우드 컴퓨팅으로의 이전을 선택한 기업 조직 또는 전 세계적으로 분산된 방식으로 운영해야 하는 기업 조직을 지원하는 분산형, 탈중앙형 데이터 아키텍처
중앙형, 정적, 일괄 처리 지향 데이터에만 의존할 수 없고, 이벤트 기반 데이터 원장 및 보다 시의적절한 분석을 위한, 실시간 데이터 이벤트용, 스트리밍 중심의 파이프라인을 사용하는 기업 조직을 위한 동작 데이터

기타 중앙화된 전통적인 데이터 관리 방법론에서처럼 비기술전문가를 위한 셀프 서비스 툴링 및 강력한 통합 데이터 거버넌스 모델 등 다른 중요한 고려 사항들 역시 데이터 메시 아키텍처에도 매우 중요합니다.

Oracle 데이터 메시 웹캐스트 시청하기

데이터를 위한 새로운 개념

데이터 메시 접근 방식은 데이터를 제품으로 인식하는, 패러다임의 전환을 의미합니다. 데이터 메시는 기업이 데이터를 비즈니스의 유형 자본 자산으로 관리하는 데 필요한 조직적 변화 및 프로세스 변화를 야기합니다. Oracle은 데이터 메시 아키텍처를 위해 조직 및 분석 데이터 도메인 전반의 연계가 필요하다고 생각합니다.

데이터 메시의 목표는 데이터 생산자를 비즈니스 사용자와 최대한 직접 연결하여, 데이터 리소스를 수집, 준비 및 변환하는 프로젝트 및 프로세스에서 IT 중간자를 제거하는 것입니다.

Oracle은 데이터 메시의 이와 같은 새로운 기술 요구 사항들을 처리할 수 있는 플랫폼을 고객에게 제공하는 데 중점을 두고 있습니다. 여기에는 데이터 제품을 위한 도구, 탈중항화된 이벤트 기반 아키텍처, 동작 데이터를 위한 스트리밍 패턴이 포함됩니다. 데이터 제품 도메인 모델링 및 기타 사회공학적 우려에 대해서는 Oracle이 데이터 메시의 사고 리더인 Zhamak Dehghani의 작품과 연계하여 작업을 진행하고 있습니다.

데이터 메시의 이점

데이터 메시에 대한 투자로 다음과 같은 놀라운 이점을 얻을 수 있습니다:

응용 데이터 제품 사고 모범 사례를 통한 데이터의 가치에 대한 명확성 확보.
데이터 통합 및 데이터 마이그레이션용 마이크로서비스 기반 데이터 파이프라인을 사용한 99.999% 이상의 운영 데이터 가용성.
수동의 일괄 처리 지향 ETL 방식에서 벗어나 연속 변환 및 로딩(CTL)으로 전환하여 10배 빠른 혁신 주기 달성.
데이터 엔지니어링 작업 70% 이상 감소, CI/CD 이점, 노코드 및 셀프 서비스 데이터 파이프라인 툴링, 민첩한 개발.

사고방식 그 이상의 의미를 가지는 데이터 메시

데이터 메시 시장의 성숙도는 여전히 초기 단계라고 할 수 있습니다. 따라서 '데이터 메시'를 표방한 솔루션에 대한 수많은 마케팅 콘텐츠가 쏟아져 나오는 와중에도, 소위 데이터 메시 솔루션이라고 부르는 이 제품들이 핵심 접근 또는 원칙 면에서 데이터 메시에 정확히 들어맞지 않는 경우가 많습니다.

진정한 데이터 메시는 사고방식, 조직 모델, 지원 도구를 갖춘 엔터프라이즈 데이터 아키텍처를 의미합니다. 데이터 메시 솔루션은 데이터 제품에 대한 사고방식, 탈중앙화된 데이터 아키텍처, 도메인 지향 데이터 소유권, 분산형 동작 데이터, 셀프 서비스 액세스, 강력한 데이터 거버넌스를 고루 갖춰야 합니다.

다음에 해당하는 것은 데이터 메시가 아닙니다:

공급업체 제품: 단일 데이터 메시 소프트웨어 제품이란 건 없습니다.
데이터 레이크 또는 데이터 레이크하우스: 이 둘은 상호 보완적이며, 여러 레이크, 폰드, 레코드의 운영체제를 아우르는 더 큰 데이터 메시의 일부일 수 있습니다.
데이터 카탈로그 또는 그래프: 데이터 메시는 물리적인 구현을 필요로 합니다.
일회성 컨설팅 프로젝트: 데이터 메시는 여정이지 일회성 프로젝트가 아닙니다.
셀프 서비스 분석 제품: 전형적인 셀프 서비스 분석, 데이터 준비, 데이터 랭글링은 데이터 메시 및 기타 데이터 아키텍처의 일부분이 될 수 있습니다.
데이터 패브릭: 개념상 연관성이 있긴 하지만 데이터 패브릭의 개념은 다양한 데이터 통합 및 데이터 관리 스타일을 아우르는 보다 포괄적인 개념입니다. 반면 데이터 메시는 탈중앙화 및 도메인 중심의 디자인 페턴과 보다 밀접한 관련이 있습니다.

Oracle이 Q2 2020 Forrester Wave 보고서 Enterprise Data Fabric 부문 리더로 선정되었습니다

데이터 메시를 선택해야 하는 이유

슬픈 사실은, 과거의 모놀리식 데이터 아키텍처가 번거롭고, 값비싸고, 유연성이 떨어진다는 것입니다. 지난 수년간 애플리케이션에서부터 분석에 이르기까지 디지털 비즈니스 플랫폼에 투입된 대부분의 시간과 비용이 통합 노력에 할애되었다는 사실이 점점 명확히 드러나고 있습니다. 결과적으로 대부분의 플랫폼 이니셔티브는 실패로 돌아갔습니다.

데이터 메시가 중앙화된 모놀리식 데이터 아키텍처를 위한 만능 해결책은 아니지만, 데이터 메시 전략의 원칙, 관행, 기술은 데이터 기반 비즈니스 이니셔티브를 위한 가장 시급하지만 아직 해결되지 않은 현대화 목표 중 일부를 해결하기 위해 설계되었습니다.

솔루션으로서의 데이터 메시의 등장을 야기하는 기술 트렌드 중 일부를 아래에 소개합니다:

70-80%의 디지털 혁신이 실패로 돌아감
운영 데이터 중단으로 인한 비용 증가
클라우드 종속 현상은 실재하며 향후 비용 증가가 예상됨
데이터 레이크의 성공은 드물게 발생하는 한편, 오직 분석에만 중점을 둠
분산형 데이터의 증가로 인해 보다 효과적이고, 효율적이며 경제적인 아키텍처에 대한 요구가 높아짐
조직의 사일로 현상이 데이터 공유 문제를 악화시킴
데이터가 경쟁 우위의 촉매제이며 데이터를 잘 관리하는 것이 중요함

오늘날 데이터 메시가 필요한 이유에 대한 자세한 내용은 Zhamak Dehghani의 2019년도 오리지널 논문을 확인하세요: 모놀리식 데이터 레이크를 벗어나 분산형 데이터 메시로 이전하는 방법.

데이터 메시의 정의

데이터 메시의 탈중앙화 전략의 목표는 셀프 서비스 데이터 인프라를 생성함으로써 비즈니스 사용자에 대한 데이터 접근성을 높이고, 데이터를 제품으로 취급하는 것입니다.

결과 중심

데이터 제품 사고 방식

데이터 소비자의 관점으로 사고 방식 전환
데이터 도메인 소유자가 데이터 제품 KPI/SLA에 책임을 짐

운영 및 분석과의 연계

모두를 위한 동일한 데이터 도메인 및 기술 메시 의미론
데이터 낭비는 그만

동작 데이터

SOR(system of record)로부터 직접 데이터 이벤트를 실시간으로 수집하고, 셀프 서비스 파이프라인을 활성화해 필요한 곳에 데이터 제공
탈중앙형 데이터 및 소스 연계 데이터 제품 지원을 위한 필수 기능

모놀리식 IT 아키텍처 거부

탈중앙형 아키텍처

탈중앙형 데이터, 서비스, 클라우드를 위해 구축된 아키텍처

이벤트 기반 데이터 원장

모든 이벤트 유형, 형식 및 복잡성 처리를 위한 설계

스트리밍 중심 데이터 파이프라인

기본으로 스트림 처리, 예외인 배치 처리

셀프 서비스, 관리형 플랫폼

개발자들의 역량을 높이고 데이터 소비자와 생산자를 직접 연결하기 위해 구축된 플랫폼
내장 보안, 검증, 출처, 투명성

Oracle 기술 개요 읽어보기(PDF)

Oracle의 데이터 메시 구동 역량

이론을 실행으로 옮기는 단계에서는, 미션 크리티컬 데이터를 위한 엔터프라이즈급 솔루션을 배포해야 합니다. 이때 Oracle이 신뢰할 수 있는 광범위한 솔루션을 제공해 기업의 데이터 메시 구동을 지원할 수 있습니다.

데이터 제품 생성 및 공유

Oracle 컨버지드 데이터베이스를 통한 멀티 모델 데이터 수집으로 데이터 소비자가 요구하는 양식의 '구성 변경' 데이터 제품 지원
모든 데이터에 대한 손쉬운 액세스 및 공유를 위해 Oracle APEX Application Development 및 Oracle REST Data Services를 사용하는 애플리케이션 또는 API로서의 셀프 서비스 데이터 제품

Oracle Cloud SQL 및 Big Data SQL을 통한 SQL 쿼리 또는 데이터 가상화용 단일 액세스 지점
Oracle의 데이터 과학 플랫폼, Oracle Cloud Infrastructure(OCI) Data Catalog 및 Oracle의 데이터 레이크하우스용 클라우드 데이터 플랫폼을 갖춘 머신러닝용 데이터 제품

Oracle Stream Analytics를 통한 실시간 이벤트, 데이터 알림, 원시 데이터 이벤트 서비스로서의 소스 연계 데이터 제품
포괄적인 Oracle Analytics Cloud 솔루션에 포함된 소비자 연계, 셀프 서비스 데이터 제품

탈중앙형 데이터 아키텍처 운영

Oracle 플러그형 데이터베이스(Kubernetes, Docker) 또는 클라우드 네이티브(Autonomous Database)를 사용한 데이터 컨테이너용 민첩한 '서비스 메시' 스타일 CI/CD
Oracle GoldenGate 마이크로서비스 및 Veridata를 통한 신뢰할 수 있는 활성-활성 트랜잭션 패브릭용 리전 간, 멀티클라우드, 하이브리드 클라우드 데이터 동기화

Oracle Integration Cloud 및 Oracle Internet of Things Cloud를 통해 대부분의 애플리케이션, 비즈니스 프로세스, 사물인터넷(IoT) 데이터 이벤트 활용 가능

마이크로서비스 이벤트 소싱 또는 Kafka 및 데이터 레이크로의 실시간 통합을 위해 Oracle GoldenGate 또는 Oracle Transaction Manager for Microservices 이벤트 대기열 사용

Oracle Verrazzano, Helidon 및 Graal VM을 통해 탈중앙형 도메인 중심 디자인 패턴을 고객의 서비스 메시에 구현

데이터 메시의 3가지 주요 속성

데이터 메시는 그저 새로운 기술 유행어이기만 한 게 아닙니다. 데이터 메시는 데이터의 접근성 및 검색 가능성을 높이는 새로운 원칙, 관행, 기술 역량 세트를 의미합니다. 데이터 메시의 개념은 앞선 세대의 데이터 통합 접근 및 아키텍처와는 구분됩니다. 데이터 메시는 과거의 거대한 모놀리식 엔터프라이즈 데이터 아키텍처에서 벗어나 미래의 모던한 분산형, 탈중앙형 데이터 중심 아키텍처로의 이전을 촉진합니다. 데이터 메시의 개념은 다음과 같은 주요 속성을 토대로 합니다:

1. 데이터 제품 사고 방식

데이터 메시 도입에 있어 가장 중요한 첫 번째 단계는 사고 방식의 전환입니다. 혁신에 대한 학습된 관행을 수용하려는 의지가 데이터 아키텍처 현대화의 성공을 이끌 디딤돌이 될 것입니다.

이 학습된 관행의 영역에는 다음이 포함됩니다:

디자인 사고 방식—'까다로운 문제' 해결을 위한 입증된 방법론으로, 훌륭한 데이터 제품 구축을 위한 엔터프라이즈 데이터 도메인에 적용됩니다
완수해야 할 작업(JTBD) 이론——엔터프라이즈 데이터 제품을 통한 실제 비즈니스 문제 해결을 보장하는 고객 중심의 혁신 및 결과 중심의 혁신 프로세스입니다

디자인 사고 방식(Design thinking) 방법론은 부서 간 혁신을 가로막는 주범인 조직의 사일로를 해체하는 데 도움이 되는 입증된 기술을 제공합니다. 완수해야 할 작업 이론은 특정 최종 사용자의 목표를 이행하는(또는 작업을 완수하는) 데이터 제품 설계의 핵심 토대입니다. 제품의 목표를 정의하는 이론이기도 합니다.

초기에는 데이터 제품 접근 방식이 과학자 커뮤니티를 통해 등장했지만, 이제 이 이론은 데이터 관리의 모든 측면에 적용되고 있습니다. 데이터 메시는 모놀리식 기술 아키텍처를 구축하는 대신, 데이터 소비자 및 비즈니스 결과에 중점을 둡니다.

데이터 제품 사고 방식은 타 데이터 아키텍처에도 적용 가능한, 데이터 메시의 핵심 요소입니다. 데이터 제품 사고 방식의 적용 방법에 대한 실용적인 사례를 제공하기 위해, Intuit의 팀은 자신들의 경험에 대한 자세한 분석을 글로 남겼습니다.

Intuit의 데이터 메시 전략

데이터 제품

원자재에서부터 지역 매장에 전시된 제품에 이르기까지, 모든 종류의 제품은 가치 있는 자산으로서, 소비를 목적으로 생산되며, 특정한 목적을 보유합니다. 데이터 제품은 비즈니스 도메인 또는 해결해야 할 문제에 따라 다음과 같은 다양한 형태를 띨 수 있습니다:

분석—과거의 이력/실시간 보고 및 대시보드
데이터 세트—다양한 구성/양식의 데이터 컬렉션
모델—도메인 객체, 데이터 모델, 머신러닝(ML) 기능
알고리즘—ML 모델, 점수 부여, 비즈니스 규칙
데이터 서비스 및 API—문서, 페이로드, 토픽, REST API 등

데이터 제품은 소비를 목적으로 생산되며, 보통 IT 팀 외부에서 이를 소유합니다. 또한 다음과 같은 추가 속성에 대한 추적을 요구합니다:

이해관계자 맵—이 제품을 소유, 생산, 소비한 사람은 누구인가?
패키징 및 설명서—어떻게 소비되는가? 레이블링은 어떤 방식으로 이루어졌는가?
목적 및 가치—제품에 내포된/명시된 가치는 무엇인가? 시간이 지날수록 감가상각이 발생하는가?
품질 및 일관성—사용 KPI 및 SLA는 무엇인가? 검증 가능한가?
출처, 수명 주기, 거버넌스—데이터를 신뢰할 수 있고, 설명 가능한가?

2. 탈중앙형 데이터 아키텍처

탈중앙형 IT 시스템은 이제 현실이며, SaaS 애플리케이션 및 퍼블릭 클라우드 인프라(IaaS)의 부상은 애플리케이션 및 데이터의 탈중앙화를 지속시키고 있습니다. 애플리케이션 소프트웨어 아키텍처는 과거의 중앙형 모놀리스에서 벗어나 분산형 마이크로서비스(서비스 메시)로 전환되고 있습니다. 데이터가 광범위한 물리적 공간 및 다양한 네트워크 전반에 분산됨에 따라, 데이터 아키텍처 역시 동일한 탈중앙화 트렌드를 따르게 될 것입니다. 우리는 이것을 데이터 메시라고 부릅니다.

메시란 무엇일까요?

메시는 대규모 비계층 노드가 서로 협업할 수 있게 지원하는 네트워크 토폴로지를 의미합니다.

일반적인 기술 사례는 다음과 같습니다:

WiFiMesh—커버리지 개선을 위한 여러 노드의 동기화
ZWave/Zigbee—저전력 스마트 홈 디바이스 네트워크
5G 메시—보다 안정적이고 탄력적인 셀 연결
Starlink—전 세계적 규모의 위성 광대역 메시
서비스 메시—탈중앙형 마이크로서비스(애플리케이션 소프트웨어)에 통합 제어를 제공하기 위한 방법

데이터 메시는 이와 같은 메시의 개념과 연계되어 있으며, 가상/물리 네트워크 및 원거리 전역에 데이터를 분산시키는 탈중앙형 방식을 제공합니다. ETL 및 데이터 통합 도구와 같은 레거시 데이터 통합 모놀리식 아키텍처, 그리고 최근에는 AWS Glue와 같은 퍼블릭 클라우드 서비스도 고도의 중앙 집중식 인프라를 필요로 합니다.

완전한 데이터 메시 솔루션은 온프레미스 시스템, 여러 퍼블릭 클라우드, 심지어 에지 네트워크까지 아우르는 멀티클라우드 프레임워크에서 운영할 수 있어야 합니다.

분산형 보안

데이터가 고도로 분산 및 탈중앙화된 세계에서 정보 보안의 역할은 말할 수 없이 중요합니다. 고도로 중앙화된 모놀리스와 달리 분산형 시스템은 다양한 사용자를 인증하고, 사용자마다 다양한 수준의 액세스 권한을 부여하는 데 필요한 작업 위임이 필요합니다. 네트워크 전반에 걸쳐 안전하게 신뢰를 확보하는 일은 잘 해내기 어려운 일입니다.

그중에서도 다음과 같은 사항들을 고려해야 합니다:

저장 상태에서의 암호화—스토리지에 기록된 데이터/이벤트
분산형 인증—mTLS, 인증서, SSO, 암호 저장소, 데이터 볼트 등 서비스 및 데이터 저장소
동작 중 암호화—인메모리에 유입되는 데이터/이벤트
ID 관리—LDAP/IAM 유형 서비스, 교차 플랫폼
분산형 인증—데이터 삭제를 위한 서비스 엔드포인트
예: Open Policy Agent(OPA) 사이드카를 사용해 마이크로서비스 엔드포인트를 처리 중인 컨테이너/K8S 클러스터 내에 PDP(policy decision point) 배치. 모든 유형의 JWT 지원 서비스가 LDAP/IAM에 해당될 수 있습니다.
결정적 마스킹—PII 데이터의 안정적이고 일관적인 난독화

IT 시스템의 보안을 유지하는 일은 어려운 일입니다. 게다가 분산형 시스템에서는 고도의 보안을 제공하는 일이 훨씬 더 어려울 수 있습니다. 그러나 해결할 수 있는 문제입니다.

탈중앙형 데이터 도메인

데이터 메시의 핵심 원칙은 소유권 및 책임의 분산입니다. 데이터 제품 및 데이터 도메인의 소유권을 조직 내 해당 데이터와 가장 연관성이 높은 사람들에게 연결하는 것이 모범적인 관행입니다. 실제로 소스 데이터(예: 레코드/애플리케이션의 운영 시스템 등 원시 데이터 소스) 또는 분석 데이터(예: 일반적으로 데이터 소비자에 의한 손쉬운 소비를 위해 만들어진 복합 또는 집계 데이터)와 연계될 수 있습니다. 두 사례 모두에서 데이터의 생산자와 소비자는 보통 IT 조직보다는 사업 부문과 연계됩니다.

과거 데이터 도메인을 구성하던 방식에서는 이들을 ETL 도구, 데이터 웨어하우스, 데이터 레이크 등 기술 솔루션 또는 기업의 구조적 조직(HR, 마케팅, 기타 LOB 등)과 연계하는 함정에 빠지곤 했습니다. 그러나 비즈니스 문제를 고려했을 때, 데이터 도메인은 해결 중인 문제의 범위, 특정 비즈니스 프로세스의 맥락, 특정 문제 영역 내 애플리케이션 제품군에 연계되는 게 가장 좋습니다. 대규모 조직에서는 이와 같은 데이터 도메인이 내부 조직 및 기술 영역 전반에 연계되곤 합니다.

데이터 도메인의 기능적 분해는 데이터 메시에서 가장 중요한 우선순위를 차지합니다. 도메인 모델링을 위한 다양한 데이터 분해 방법론은 전형적인 데이터 웨어하우스 모델링(예: Kimball 및 Inmon), 데이터 볼트 모델링 등 데이터 메시 아키텍처에 적용될 수 있지만, 현재 데이터 메시 아키텍처에서 시도되고 있는 가장 일반적인 방법론은 도메인 기반 설계(DDD)입니다. DDD 접근 방식은 마이크로서비스 기능 분해에서 비롯되었으며 현재는 데이터 메시의 맥락에서 적용되고 있습니다.

3. 동적 동작 데이터

Oracle이 데이터 메시에 관한 논의에 추가한 중요한 주제는 모던 데이터 메시의 핵심 요소인 동작 데이터의 중요성을 높이는 일에 관한 것입니다. 동작 데이터는 중앙형, 모놀리식 배치 프로세싱으로 이루어진 구식 세계에서 벗어나 데이터 메시를 도입하기 위한 핵심 요소입니다. 동작 데이터의 기능은 다음과 같은 데이터 메시 관련 핵심 질문에 대한 답을 제공합니다:

소스와 연계된 데이터 제품에 실시간으로 액세스하려면 어떻게 해야 하는가?
물리적으로 분산된 데이터 메시 전반에 신뢰할 수 있는 데이터 트랜잭션을 분산하기 위한 수단을 제공할 수 있는 도구는 무엇인가?
데이터 이벤트를 데이터 제품 API로 만들고 싶으면 뭘 사용해야 하나?
지속적인 업데이트가 필요한 분석 데이터 제품의 경우 어떻게 데이터 도메인을 연결해야 신뢰 및 유효성을 보장할 수 있나?

이와 같은 질문들은 '구현 세부 정보' 측면에서뿐만 아니라 데이터 아키텍처 자체에도 대단히 중요합니다. 정적 데이터를 위한 도메인 기반 설계는 동일한 설계의 동적인 동작 데이터 처리와는 다른 기술 및 도구를 사용합니다. 예를 들어 동적 데이터 아키텍처에서 데이터 원장은 데이터 이벤트를 위한 신뢰할 수 있는 중앙 소스입니다.

이벤트 기반 데이터 원장

원장은 분산형 데이터 아키텍처의 작동을 위한 기본 구성 요소입니다. 회계 원장과 마찬가지로 데이터 원장은 트랜잭션이 발생할 때마다 이를 기록합니다.

원장을 분산하면, 데이터 이벤트는 어느 위치에서나 '재생 가능한' 상태가 됩니다. 일부 원장은 고가용성 및 재해 복구 기능을 위해 사용되는 항공기 비행 기록 장치와도 유사합니다.

중앙형 모놀리식 데이터 저장소와 달리 분산형 원장은 다른 (외부의) 시스템에서 발생하는 아토믹 이벤트 및/또는 트랜잭션을 추적하기 위한 목적으로 구축됩니다.

하나의 데이터 메시는 단일한 종류의 원장 그 이상을 의미합니다. 사용 사례 및 요구 사항에 따라 데이터 메시는 다양한 유형의 이벤트 기반 데이터 원장을 사용할 수 있으며, 그 종류는 다음과 같습니다:

범용 이벤트 원장— Kafka, Pulsar 등
데이터 이벤트 원장—분산형 CDC/복제 도구
메시징 미들웨어—ESB, MQ, JMS, AQ 등
블록체인 원장—안전하고, 변경 불가능한, 다자간 트랜잭션용

이 원장들이 결합되면 기업 전체를 위한 내구성 있는 이벤트 로그와 같은 역할을 하며, 기록 시스템 및 분석 시스템에서 발생하는 데이터 이벤트의 실행 목록을 제공합니다.

다중 언어 데이터 스트림

다중 언어 데이터 스트림이 그 어느 때보다 보편화되었습니다. 이 데이터 스트림은 이벤트 유형, 페이로드, 다양한 트랜잭션 의미에 따라 달라집니다. 데이터 메시는 다양한 엔터프라이즈 데이터 워크로드를 위해 필요한 스트림 유형을 지원해야 합니다.

단순 이벤트:
- Base64 / JSON—원시, 스키마리스 이벤트
- 원시, 원격 측정, 희소 이벤트

기본 앱 로깅/사물인터넷(IoT) 이벤트:
- JSON/Protobuf— 스키마 보유 가능
- MQTT—IoT 전용 프로토콜

애플리케이션 비즈니스 프로세스 이벤트:
- SOAP/REST 이벤트—XML/XSD, JSON
- B2B—교환 프로토콜 및 표준

데이터 이벤트/트랜잭션:
- 논리적 변경 레코드—LCR, SCN, URID
- 일관된 경계—커밋 vs 운영

스트림 데이터 처리

스트림 처리는 이벤트 스트림 내에서 데이터가 조작되는 방식을 의미합니다. '람다 함수'와 달리 스트림 프로세서는 특정 시간대 데이터 흐름의 스테이트풀니스를 유지하며, 이를 통해 데이터에 훨씬 고급의 분석 쿼리를 적용할 수 있습니다.

기본 데이터 필터링:

임계값, 알림, 원격 측정 모니터링

단순한 ETL:

RegEx 함수, 수학/논리, 연속성
레코드별, 대체, 마스킹

CEP 및 복잡한 ETL:

복잡한 이벤트 처리(CEP)
DML(ACID) 처리 및 튜플 그룹
집계, 조회, 복합 조인

스트림 분석:

시계열 분석 및 맞춤 시간대
지리 공간, 머신러닝, 내장 AI

기타 주요 속성 및 원칙

물론 데이터 메시에는 이 세가지 외에도 다양한 속성이 존재합니다. 앞서 다룬 세 가지 속성은 Oracle이 생각하는 새롭고 독특한 모던 데이터 메시의 속성을 소개하기 위해 중점적으로 다룬 것입니다.

다른 중요한 데이터 메시 속성에는 다음이 포함됩니다:

셀프 서비스 툴링— 데이터 메시는 셀프 서비스를 위한 전반적인 데이터 관리 트렌드를 수용하며, 시민 개발자 중 데이터 소유자 계급을 보유한 사람들이 증가할 것입니다
데이터 거버넌스— 데이터 메시 역시도 최고 데이터 책임자, 데이터 관리자, 데이터 카탈로그 공급업체 등이 수년간 지지해 온 공식화된 통합 거버넌스 모델을 추구하는 오랜 트렌드를 받아들였습니다.
데이터 사용성 — 데이터 메시의 원칙을 자세히 들여다 보면, 데이터 제품의 높은 사용성을 보장하기 위한 수많은 기초 작업이 진행된다는 사실을 알 수 있습니다. 데이터 제품의 원칙은 공유할 만큼의 가치와 사용성, 합리성을 갖춘 데이터에 관한 것이 될 것입니다.

데이터 메시 사용 사례 관련 주제

애플리케이션 현대화
데이터 가용성 및 연속성
이벤트 소싱 및 트랜잭션 아웃박스
이벤트 기반 통합
스트리밍 수집(분석용)
스트리밍 데이터 파이프라인
스트리밍 분석

7가지 데이터 메시 사용 사례

운영 및 분석 데이터 도메인을 위한 성공적인 데이터 메시 이행 사용 사례입니다. 다음의 7가지 사용 사례는 데이터 메시가 엔터프라이즈 데이터에 제공할 수 있는 광범위한 역량을 보여줍니다.

실시간 운영 데이터 및 분석을 통합함으로써 기업은 보다 나은 운영 및 전략 결정을 내릴 수 있습니다.
MIT Sloan School of Management

1. 애플리케이션 현대화

모놀리식 데이터 아키텍처를 클라우드로 마이그레이션하는 '리프트 앤 시프트' 방식을 넘어 많은 기업 조직들은 과거의 중앙형 애플리케이션을 폐기하고, 보다 모던한 마이크로서비스 애플리케이션 아키텍처로의 이전 방안을 모색하고 있습니다.

모놀리스 분해 및 단계별 마이그레이션을 위한 교살자 무화과나무(Strangler fig) 패턴

그러나 레거시 애플리케이션 모놀리스는 일반적으로 대규모 데이터베이스에 의존적이며, 중단, 위험, 비용 절감을 위한 마이그레이션 계획을 어떻게 구성해야 하는지에 대한 의문을 남깁니다. 데이터 메시는 모놀리스에서 메시 아키텍처로의 단계별 전환을 진행 중인 고객들에게 중요한 운영 IT 기능을 제공할 수 있습니다. 예:

'제한된 컨텍스트(bounded context)'에 따른 데이터 필터링 등 데이터베이스 트랜잭션의 하위 도메인 오프로딩
단계별 마이그레이션을 위한 양방향 트랜잭션 복제
메인프레임과 DBaaS 간의 동기화 등 교차 플랫폼 동기화

마이크로서비스 아키텍트들이 사용하는 언어에서는, 이 접근 방식이 양방향 트랜잭션 아웃박스를 사용해 교살자 무화과나무 마이그레이션 패턴을 지원하며, 한 번에 하나의 제한된 컨텍스트를 지원합니다.

2. 데이터 가용성 및 연속성

비즈니스 크리티컬 애플리케이션은 회복 탄력성 및 연속성에 관한 한 대단히 높은 KPI 및 SLA를 필요로 합니다. 이 애플리케이션이 모놀리식이든, 마이크로서비스든, 그 사이의 어느 것이든 상관없이 애플리케이션은 중단되어서는 안 됩니다.

미션 크리티컬 시스템에서는 분산형 결과적 일관성(eventual-consistency) 데이터 모델은 보통 허용되지 않습니다. 그러나 이 애플리케이션들은 또한 다양한 데이터 센터를 넘나들며 운영될 수 있어야 합니다. 이와 같은 상황 때문에 비즈니스 연속성에 관한 다음과 같은 질문이 제기됩니다. “하나 이상의 데이터 센터 전반에서 앱을 구동하는 동시에 데이터의 정확성과 일관성을 보장하려면 어떻게 해야 하는가?”

모놀리식 아키텍처가 '샤딩된 데이터세트'를 사용하든, 마이크로서비스가 교차 사이트 고가용성을 위해 설정되었든 상관없이, 데이터 메시는 어떤 거리에서든 정확한 데이터를 고속으로 제공합니다.

데이터 메시는 탈중앙형의, 그러나 100% 정확한 데이터가 여러 위치를 오갈 수 있도록 토대를 제공할 수 있습니다. 예:

초저 대기 시간의 논리적 트랜잭션(플랫폼 간)
데이터 정확성을 보장하는 ACID 기능
다중 액티브, 양방향 및 충동 해결

3. 이벤트 소싱 및 트랜잭션 아웃박스

트랜잭션 아웃박스를 위한 제네릭 패턴(참고: 이 패턴에는 데이터 메시 변형/최적화가 포함됨).

모던, 서비스 메시 스타일 플랫폼은 이벤트를 데이터 교환용으로 활용합니다. 데이터 페이로드는 데이터 계층 내 배치 처리에 의존하는 대신, 애플리케이션 또는 데이터 저장소에서 이벤트가 발생할 때마다 지속적으로 흐릅니다.

일부 아키텍처에서는 마이크로서비스가 데이터 페이로드를 서로 교환해야 합니다. 다른 패턴들은 모놀리식 애플리케이션 또는 데이터 저장소 간 상호 교환을 필요로 합니다. 이와 같은 상황은 다음과 같은 질문을 야기합니다. “앱 및 데이터 저장소 간에 마이크로서비스 데이터 페이로드를 안정적으로 교환하려면 어떻게 해야 하는가?”

데이터 메시는 마이크로서비스 중심 데이터 상호 교환을 위한 근본 기술을 제공할 수 있습니다. 예:

컨텍스트 내 마이크로서비스 간 상호 교환
컨텍스트 전반의 마이크로서비스 간 상호 교환
모놀리스에서 마이크로서비스로/마이크로서비스에서 모놀리스로

이벤트 소싱, CQRS, 트랜잭션 아웃박스 등 마이크로서비스 패턴은 일반적으로 많이들 알고 있는 솔루션입니다. 데이터 메시는 이 패턴들이 대규모에서도 반복 가능하고 안정적일 수 있도록 하는 도구 및 프레임워크를 제공합니다.

4. 이벤트 기반 통합

엔터프라이즈 통합의 필요성은 마이크로서비스 디자인 패턴을 넘어 데이터베이스, 비즈니스 프로세스, 애플리케이션, 모든 유형의 물리 장치 등 다양한 IT 시스템으로 확장됩니다. 데이터 메시는 동작 데이터 통합을 위한 토대를 제공합니다.

동작 데이터는 보통 이벤트 기반 데이터입니다. 사용자의 행동, 장치 이벤트, 프로세스 단계, 데이터 저장소 커밋은 모두 데이터 페이로드를 통해 이벤트를 실행시킬 수 있습니다. 이 데이터 페이로드는 사물인터넷(IoT) 시스템, 비즈니스 프로세스 및 데이터베이스, 데이터 웨어하우스, 데이터 레이크 통합에 핵심입니다.

데이터 메시는 전사적인 실시간 통합을 위한 근본적인 기술을 제공합니다. 예:

실제 장치 이벤트를 IT 시스템과 연결
ERP 시스템 전반에서 비즈니스 프로세스 통합
분석 데이터 저장소를 통한 운영 데이터베이스 연계

대규모 기업 조직은 보통 구형 및 신형 시스템, 모놀리스 및 마이크로서비스, 운영 및 분석 데이터 저장소 등을 복합적으로 보유하게 됩니다. 데이터 메시는 이와 같은 다양한 비즈니스 및 데이터 도메인 전반의 리소스 통합을 지원할 수 있습니다.

5. 스트리밍 수집(분석용)

데이터 레이크, 데이터 웨어하우스, 데이터 마트 전반의 공통 데이터 수집을 위한 데이터 메시 활용

분석 데이터 저장소에는 데이터 마트, 데이터 웨어하우스, OLAP 큐브, 데이터 레이크, 데이터 레이크하우스 기술이 포함될 수 있습니다.

일반적으로 데이터를 이 분석 데이터 저장소로 가져가는 방법은 두 가지 뿐입니다:

배치/마이크로 배치 로딩—시간 스케줄러 사용
스트리밍 수집—지속적인 데이터 이벤트 로딩

데이터 메시는 스트리밍 데이터 수집 기능의 토대를 제공합니다. 예:

데이터베이스 또는 데이터 저장소로부터 수집한 데이터 이벤트
물리적 장치 원격 측정을 통해 수집한 장치 이벤트
애플리케이션 이벤트 로깅 또는 비즈니스 트랜잭션

스트림별 이벤트 수집 방식으로 소스 시스템에 미치는 영향을 줄이고, 데이터의 충실도를 개선하고(데이터 과학에 중요한 요소), 실시간 분석을 지원할 수 있습니다.

6. 스트리밍 데이터 파이프라인

데이터 메시는 데이터 레이크 내에서 스트리밍 파이프라인을 생성, 실행 및 관리할 수 있습니다.

일단 데이터가 분석 데이터 저장소에 수집되고 나면 데이터 파이프라인이 다양한 데이터 단계 또는 데이터 영역 전반에서 데이터를 준비 및 변환해야 합니다. 이 데이터 세분화 프로세스는 보통 다운스트림 분석 데이터 제품에 필요합니다.

데이터 메시는 분석 데이터 저장소와 호환되는, 독립적으로 관리되는 데이터 파이프라인 계층을 제공함으로써 다음과 같은 핵심 서비스를 제공합니다:

셀프 서비스 데이터 검색 및 데이터 준비
도메인 전반의 데이터 리소스 관리
요구된 데이터 제품 양식에 맞춰 데이터 준비 및 변환
일관성을 보장하는 정책을 기반으로 한 데이터 검증

이 데이터 파이프라인은 다양한 물리적 데이터 저장소(데이터 마트, 웨어하우스, 레이크 등) 또는 Apache Spark 및 기타 데이터 레이크하우스 기술 등 스트리밍 데이터를 지원하는 분석 데이터 플랫폼 내에서 '푸시다운 데이터 스트림'으로 작동할 수 있어야 합니다.

7. 스트리밍 분석

실시간 스트림에서 모든 종류의 이벤트(IoT, DB 등) 분석 가능 — 실시간 스트림에서 모든 종류의 이벤트 분석 가능

이벤트는 지속적으로 발생합니다. 스트림 내에서의 이벤트 분석은 매 순간 어떤 일이 발생하는지 파악하기 위한 중요한 단계로 활용될 수 있습니다.

실시간 이벤트 스트림에 대한 이와 같은 종류의 시계열 기반 분석은 실제 IoT 장치 데이터에 중요할 수 있습니다. 또한 고객이 IT 데이터 센터 또는 재무 트랜잭션 전반에서 어떤 일이 발생하는지(예: 사기 모니터링) 이해하는 데 중요할 수 있습니다.

모든 기능을 갖춘 데이터 메시는 다양한 유형의 이벤트 시간대 전반에서 모든 종류의 이벤트를 분석할 수 있는 근본적인 역량을 갖추고 있습니다. 예:

단순 이벤트 스트림 분석(웹 이벤트)
비즈니스 활동 모니터링(SOAP/REST 이벤트)
복잡한 이벤트 처리(멀티스트림 상관관계)
데이터 이벤트 분석(DB/ACID 트랜잭션에서)

데이터 파이프라인과 마찬가지로 스트리밍 분석 역시 구축된 데이터 레이크하우스 인프라 내부에서 또는 별도로 클라우드 네이티브 서비스로서 실행될 수 있습니다.

전체 데이터 자산에서 공통 메시를 운영함으로써 최대의 가치 달성

데이터 통합의 선두 주자들은 회복 탄력성을 갖춘 다양한 데이터 저장소 컬렉션으로부터 수집한 운영 및 분석 데이터를 실시간으로 통합할 방안을 모색 중입니다. 데이터 아키텍처가 스트리밍 분석으로 진화함에 따라 높은 기세와 빠른 속도로 혁신이 진행되었습니다. 운영 고가용성은 실시간 분석으로 이어졌고, 데이터 엔지니어링 자동화는 데이터 준비 간소화에 기여하고 있습니다. 또한 데이터 과학자 및 분석가들은 셀프 서비스 도구를 활용할 수 있게 되었습니다.

데이터 메시 사용 사례 요약

전체 데이터 자산 전반에 운영 및 분석 메시 구축
이 모든 데이터 관리 기능을 통합된 아키텍처에서 한데 실행하면 모든 데이터 소비자가 영향을 받게 됩니다. 데이터 메시는 글로벌 기록 시스템 및 참여 시스템을 개선하여 안정적인 실시간 운영을 지원하고, 이렇게 수집한 실시간 데이터를 LOB 관리자, 데이터 과학자 및 고객의 고객들에게 연계해 줍니다. 또한 차세대 마이크로서비스 애플리케이션을 위한 데이터 관리를 간소화해 줍니다. 모던 분석 방법 및 도구를 사용하면 고객의 최종 사용자, 분석가, 데이터 과학자들은 고객의 수요 및 경쟁사의 위협에 훨씬 효과적으로 대응할 수 있게 됩니다. Intuit의 목표 및 결과에서 문서화된 사례를 읽어보세요

포인트 프로젝트에서 데이터 메시가 제공하는 이점
데이터 제품 및 운영 모델에 관한 새로운 사고방식을 얻게 되었다면, 이제 각각의 지원 기술에 대한 경험을 늘리는 것이 중요합니다. 데이터 메시 여정에서 고속 데이터 아키텍처를 스트리밍 분석으로 진화시킴으로써 점진적인 이점을 얻을 수 있습니다. 동시에 운영 고가용성 투자를 실시간 분석에 활용하고, 데이터 과학자 및 분석가를 위한 실시간 셀프 서비스 분석을 제공할 수 있습니다.

비교 및 대조

	데이터 패브릭			앱 개발 통합		분석 데이터 저장소
	데이터 메시	데이터 통합	메타카탈로그	마이크로서비스	메시징	데이터 레이크하우스	분산형 DW
인력, 프로세스, 방법:
데이터 제품 주안점	지원	지원	지원	1/4 상품	1/4 상품	3/4 상품	3/4 상품
기술 아키텍처 속성:
분산형 아키텍처	지원	1/4 상품	3/4 상품	지원	지원	1/4 상품	3/4 상품
이벤트 기반 원장	지원	미지원	1/4 상품	지원	지원	1/4 상품	1/4 상품
ACID 지원	지원	지원	미지원	미지원	3/4 상품	3/4 상품	지원
스트림 지향	지원	1/4 상품	미지원	미지원	1/4 상품	3/4 상품	1/4 상품
분석 데이터 주안점	지원	지원	지원	미지원	미지원	지원	지원
운영 데이터 주안점	지원	1/4 상품	지원	지원	지원	미지원	미지원
물리 및 논리 메시	지원	지원	미지원	1/4 상품	3/4 상품	3/4 상품	1/4 상품

비즈니스 결과

전체적인 이점

더욱 빠른, 데이터 기반의 혁신 주기

미션 크리티컬 데이터 운영 비용 절감

운영 결과

멀티클라우드 데이터 유동성
- 데이터 자본의 자유로운 흐름

실시간 데이터 공유
- Ops-to-Ops 및 Ops-to-분석

에지, 위치 기반 데이터 서비스
- 관련된 IRL 장치/데이터 이벤트

신뢰할 수 있는 마이크로서비스 데이터 상호 교환
- 정확한 데이터를 통한 이벤트 소싱
- 데이터용 DataOps 및 CI/CD

무중단 연속성
- >99.999% 가동 시간 SLA
- 클라우드 마이그레이션

분석 결과

데이터 제품 자동화 및 간소화
- 멀티 모델 데이터 세트

시계열 데이터 분석
- 델타/변경된 기록
- 이벤트별 충실도

운영 데이터 저장소를 위한 전체 데이터 사본 제거
- 로그 기반 원장 및 파이프라인

분산형 데이터 레이크 및 웨어하우스
- 하이브리드/멀티클라우드/글로벌
- 스트리밍 통합/ETL

예측 분석
- 데이터 수익화, 판매를 위한 새로운 데이터 서비스

이 모든 기능을 한꺼번에

디지털 전환은 대단히 어렵습니다. 실제로 대부분의 기업이 시도하는 데이터 전환은 실패로 돌아가곤 합니다. 지난 몇 년간 모던 기술이 고도로 중앙화된 모놀리식 스타일에서 벗어나면서, 기술, 소프트웨어 디자인, 데이터 아키텍처 역시 점점 더 분산되었습니다.

데이터 메시는 데이터를 위한 새로운 개념입니다. 모놀리식의, 중앙화된, 배치 스타일 데이터 처리와 반대로 고도로 분산된, 실시간 데이터 이벤트로의 정교한 전환을 의미합니다. 핵심은, 데이터 메시가 데이터 소비자의 니즈를 최우선시하는 문화적 사고방식의 전환이라는 데 있습니다. 데이터 메시는 탈중앙형 데이터 아키텍처 강화를 위한 플랫폼과 서비스를 향상시키는 진정한 기술 전환이기도 합니다.

데이터 메시의 사용 사례는 운영 데이터 및 분석 데이터 모두를 아우릅니다. 이것이 기존의 데이터 레이크/레이크하우스 및 데이터 웨어하우스와의 차별점이기도 합니다. 운영 데이터 도메인과 분석 데이터 도메인의 이와 같은 연계는 데이터 소비자들을 위한 셀프 서비스 추가 도입에 관한 니즈를 충족시켜 주는 중요한 요인입니다. 모던 데이터 플랫폼 기술은 중간자를 없애 데이터 생산자와 데이터 소비자를 직접 연결할 수 있게 해 줍니다.

Oracle은 오랜 시간 미션 크리티컬 데이터 솔루션 업계의 리더로 자리잡아 왔고, 신뢰할 수 있는 데이터 메시 역량을 제공하기 위해 가장 현대적인 기능 중 일부를 제공해 왔습니다:

Oracle의 2세대 클라우드 인프라 및 33개 이상의 활성 리전
'구성 전환' 데이터 제품을 위한 멀티 모델 데이터베이스
모든 데이터 저장소를 위한 마이크로서비스 기반 데이터 이벤트 원장
신뢰할 수 있는 실시간 데이터를 위한 멀티클라우드 스트림 처리
API 플랫폼, 모던 AppDev, 셀프 서비스 도구
분석, 데이터 시각화, 클라우드 네이티브 데이터 과학