티스토리 뷰
많은 기업들이 데이터를 모으기 위해 데이터 플랫폼, 데이터 레이크, 데이터 웨어하우스 등을 구축하기 시작한 후 많은 시간이 흘렀다. 이러한 플랫폼들이 부상한 이유는 다양한 소스의 데이터를 한 곳에 모아 데이터 분석, 시각화 등을 통해 새로운 인사이트를 얻고자 했기 때문이다.
처음엔 이렇게 모으면 데이터를 잘 활용할 수 있을거란 기대가 있었지만 세상일은 언제나 맘같이 돌아가지 않는다~
이번 글에선 데이터 중앙화를 채택하게 된 배경과 문제점, 새로운 데이터 관리 아키텍처인 데이터 메시에 대해서 알아보자.
데이터 중앙화
데이터가 그 자체로서 기업의 자산으로 여겨지는 순간부터 많은 기업이 데이터를 모으고 관리하기 시작하였다.
데이터 분석가가 신제품 출시 후 고객 반응을 분석하고 싶었다고 치자. 마케팅팀에게 캠페인 참여 고객 리스트를 요청해야하고 광고 클릭 데이터 등도 받아와야한다. CRM데이터를 관리하는 팀에게는 기본 고객 정보 및 거래 이력을 요청해야하고, CS데이터를 관리하는 팀에게 고객 설문 정보를 요청해야한다. IT팀에게 웹사이트 행동 데이터를 요청해야할 수도 있다. 벌써 4개 팀에 요청을 해야 하는 상황! 어렵게 접속 권한을 다 받아 데이터를 열어봐도 데이터의 형태가 모두 달라 서로 연계(Join)해 사용하기 어렵다. 분석가는 이런 복잡한 상황에 점점 분석에 대한 의욕을 잃어간..다..
이렇게 데이터가 여러 곳에 흩어져 있는 데이터를 중앙에 모으는게 데이터 플랫폼, 웨어하우스 등의 개념이다.
데이터를 중앙에서 관리하면 전사의 모든 데이터를 손쉽게 관리하며 활용도를 높일 수 있지 않을까? 라는 생각에서 출발하여 이미 많은 기업들이 데이터 웨어하우스 등의 개념을 통해 데이터를 중앙에 모아놓았다. 이렇게 많은 자산들이 모였는데..
데이터 중앙화의 한계
데이터를 중앙화하면 데이터 엔지니어 팀(편의상 데이터팀으로 통일하여 작성) 이 열심히 현업과 의논하여 어떤 데이터를 모을 것인지, 어떻게 모을 것인지(파이프라인), 스키마는 어떻게 변형할 것인지, 스케줄은 몇 시로 잡을 것인지, 배치성인지 실시간성인지 호우,,,
(아래 글에 정리해 놓았다.)
데이터 파이프라인 구축 시 고려사항 체크리스트!
다수의 회사에 다수의 데이터 파이프라인을 구축하는 프로젝트에 참여해본 경험을 바탕으로 초반에 고려하지 않으면 후반에 힘들어질 사항들을 정리해보고자 한다. 보통 우리를 통해서 파이
raiknow.tistory.com
이 모든 관리를 데이터팀에서 진행을 한다. 그랬더니 아래와 같은 문제점이 발생하였다.
- 병목현상 : 데이터팀 이 모든 데이터를 담당하다보니 데이터 요청이 몰릴 수 밖에 없는 구조이다. 변경 요청이 있으면 전체 파이프라인을 손봐야할 수도 있고 이는 즉각적인 응답이 힘들어진다.
- 데이터 품질 문제 : 각 비즈니스 도메인의 데이터 특성을 고려하지 않고 무작정 통일화시킬 가능성이 있다. 이는 데이터 품질 저하로 연결된다.
- 데이터 사일로화 : 다양한 부서의 데이터가 서로 공유되지 못하고 해당 팀에게 종속적으로 고여있는 상태를 의미한다. 중앙화된 플랫폼에서 데이터를 관리하더라도 데이터팀과 부서 간 협업이 부족하면 데이터 사일로 현상이 해결되지 않는다.
결론적으론! 여전~히 데이터의 효율적인 활용이 어렵다는거다.
이러한 한계로 인해 기업들은 기존의 데이터 관리 방식에서 벗어나 분산화된 데이터 관리 방식을 모색하고 있으며 데이터 메시는 이러한 요구를 충족시킬 수 있는 모델로 관심을 받고 있다.

데이터 메시란?
우선, mesh란?
그물망이란 뜻으로 분산되어 있지만 서로 촘촘히 연결된 네트워크 형태로 작동하는 구조라는 점을 강조하는 용어이다.
데이터 측면에서 다시 설명하자면 데이터 소유권을 개별 도메인에 분산하여 각 도메인이 데이터를 직접 관리하고 책임지는 방식을 의미한다.
데이터 메시 개념을 만든 ZHamak Dehghani씨가 말한 4가지 기본 원칙은 아래와 같다.
- 도메인 기반 데이터 소유: 기업 내 각 도메인(예: 마케팅, 영업, 제품 개발 팀 등)은 데이터를 직접 소유하고 관리한다. 이를 통해 도메인별로 데이터 특성에 맞는 관리가 가능해지며 비즈니스 요구에 즉각적으로 대응할 수 있다.
- 데이터 제품: 각 도메인은 데이터를 제품처럼 관리하여 다른 부서나 시스템에서 사용할 수 있도록 제공한다. 이러한 접근은 데이터의 재사용성을 높이고 데이터 활용도를 극대화할 수 있게 돕는다.
- 자율적인 데이터 플랫폼: 각 도메인이 독립적으로 데이터를 관리하는 동시에 공통된 기술 인프라와 표준을 제공하여 일관성을 유지하도록 한다.
- 공통 표준과 거버넌스: 데이터 메시의 분산화된 구조를 유지하면서도 보안, 컴플라이언스 등의 요구사항을 충족할 수 있도록 공통 거버넌스가 필수적이다.

mesh 개념을 보다보니 이런 의문이 생긴 사람이 있을거다.
도메인 기반 데이터 소유..? 이거 과거로의 회귀 아니야? 과거엔 다양한 팀이 각자 데이터를 관리하였으니 그걸로 돌아가는거랑 뭐가 다른건데?
이에 대한 답변은 아래와 같다.
과거에는 각 팀이 데이터를 독립적으로 관리해 데이터가 사일로 상태로 고립되는 경우가 많았다. 하지만 데이터 메시는 각 도메인의 데이터를 '제품'처럼 관리하여 특정 팀이 소유하더라도 다른 부서나 사용자가 쉽게 접근하고 활용할 수 있도록 설계하는 차이점이 있다.
또한 기존 방식은 데이터 호환성 혹은 일관성이 부족하였는데 일관된 표준 가이드라인을 유지하면서 개별 도메인에 자율성을 부여하는 것이기 때문에 분산된 데이터가 체계적으로 연결되도록 한다.
이렇듯 가장 중요한 요소는 공통 표준과 거버넌스라고 생각한다. 이들이 정확히 정해져있고 관리되어야 과거로의 회귀가 되지 않는 것이다. 공통 표준 없이 각자의 데이터를 관리한다면 이는 효율적인 데이터 활용으로 이어지기 힘들다.
데이터 메시의 이점
기존의 중앙 집중형 데이터 모델과는 달리 데이터 메시는 개별 도메인들이 데이터의 관리와 책임을 직접 맡음으로써 더욱 유연하고 효율적인 데이터 관리를 가능한다. 모든 데이터를 중앙 데이터팀에 의존해 관리하면서 발생했던 여러 문제점들이 데이터 메시를 통해 효과적으로 해결될 수 있다.
- 자율성과 민첩성 증가: 각 팀이 독립적으로 데이터를 관리하고 활용할 수 있어 필요에 따라 빠르게 데이터를 제공할 수 있다.
- 스케일링 용이성: 데이터의 양이 증가하더라도 개별 도메인에서 데이터를 관리하므로 시스템 전체에 걸쳐 효율적으로 확장할 수 있다.
- 데이터 품질 향상: 데이터를 직접 사용하는 팀이 소유하고 관리하기 때문에 데이터의 품질과 정확성이 높아진다. 이를 통해 데이터 기반 의사결정의 신뢰성도 개선된다.
데이터 메시 구현의 과제와 고려 사항
데이터 메시를 성공적으로 구현하기 위해 고려해야하는 사항들은 무엇이 있을까?
- 도메인 간 표준화 문제: 도메인마다 데이터 관리 방식이 다를 경우 시스템 전체의 일관성을 유지하기 어려울 수 있. 과거로 회귀하지 않으려면 각 도메인이 준수해야 할 공통 표준과 데이터 거버넌스를 마련하는 것이 중요하다.
- 기술적 요구사항: 각 도메인이 데이터를 효과적으로 관리할 수 있도록 지원하는 데이터 인프라가 필요하다. 이를 위해서는 데이터 플랫폼과 API 표준화 등의 기술적 지원이 요구된다. 데이터 플랫폼/데이터 포탈을 구축하여 적극적인 데이터 메시화를 지원해야한다.
- 문화적 전환: 데이터 메시로의 전환은 단순한 기술 도입이 아니라 조직 문화의 변화라고 봐야한다. 데이터의 소유권과 책임이 중앙에서 개별 도메인으로 이동하면서 각 팀은 데이터의 품질과 보안에 대한 책임을 새롭게 인식해야 한다.
역시 요즘 시대는 데이터를 어떻게 '잘' 활용하는 지가 참 중요한 시대이다. 이렇듯 데이터 메시의 개념을 알아보았다. 다음 글은 데이터 메시를 구현하려면 어떠한 요구사항이 있고 기술팀에선 어떤 문제 해결 방식을 채택해야할건지 등을 공부해보려고 하는데 그러려면 책을 읽어야하나 싶기도하고,, 쓰다보니 이 개념이 정말 데이터 민주화에 결정적인 영향력을 끼칠수 있을 지 궁금해져서 더 알아보고 싶어졌다. 우선 이번엔 여기까지!
Reference
https://www.samsungsds.com/kr/insights/data_mesh_in_financial_services.html
'데이터 엔지니어링' 카테고리의 다른 글
Pydantic 기본 사용법과 활용 사례 (0) | 2024.12.22 |
---|---|
데이터 엔지니어링에서의 Conf 파일 관리(쪼갤까, 합칠까) (0) | 2024.11.24 |
데이터 파이프라인 구축 시 고려사항 체크리스트! (0) | 2024.05.12 |
내가 경험한 데이터 스택 (0) | 2024.03.30 |
DBT를 도입한대요 (2) - 기초편 (0) | 2024.02.29 |