[데이터 메시] - 13편. 데이터 검색, 이해 및 구성 설계

데이터 메시(Data Mesh)는 여러 도메인에 분산된 데이터 프로덕트를 독립적으로 운영하고, 필요한 경우 서로 연결하여 활용할 수 있게 하는 것이 핵심입니다. 이번 글에서는 이러한 목표를 달성하기 위해 데이터 검색과 이해, 그리고 여러 프로덕트를 연결하여 가치를 극대화하는 데이터 구성 설계를 어떻게 할 수 있는지 살펴봅니다. 또한 메시 접근 방식이 지향하는 것과 그렇지 않은 지점을 간단히 짚어봅니다.

데이터 메시의 범위와 목적: 호환되는 것 vs. 호환되지 않는 것

데이터 메시 접근 방식은 독립적인 도메인 오너십과 탈중앙화를 지향합니다. 즉, 조직 내 모든 데이터를 중앙 집중화해 일괄 관리·통제하기보다, 도메인별로 자율적으로 데이터를 관리하고, 필요 시 다른 도메인과 표준화된 인터페이스를 통해 쉽게 연동할 수 있게 합니다.

•

호환: 분산된 거버넌스, 도메인 중심 모델링, 셀프 서비스 플랫폼

•

호환되지 않음: 빅뱅식 중앙 집중 모델, 모놀리식 스키마 강제, 복잡한 승인 절차 등

1. 데이터 검색, 이해, 신뢰 및 탐색

1.1 데이터 사용자가 원하는 것

조직 내 분석 데이터 사용자(분석가, 데이터 과학자, 머신러닝 모델, 보고서 작성자 등)는 현재의 분석 사용 사례에 맞는 올바른 데이터를 찾고(검색), 이해하고, 신뢰해야 합니다. 이때 데이터가 해당 목적에 적합한지 탐색할 수 있어야 합니다.

데이터 메시에서의 두 가지 접근

아 포스테리오리(사후) 큐레이션 및 통합

•

이미 생성된 데이터를 나중에 식별·태그·문서화하고 통합

•

데이터 프로덕트 수명 주기 전반에 걸쳐 계속해서 큐레이션

아 포스테리오리 조사적 인텔리전스

•

머신러닝 알고리즘 등으로 데이터를 자동 관찰하고, 메타데이터를 추출·분류

•

데이터 프로덕트 생성 시점부터 일관적으로 적용 가능

1.2 기계적 액세스 vs. 인위적 액세스

•

인위적 액세스: 사람이 직접 프로덕트를 찾아 검색·확인·이해·신뢰

•

기계적 액세스: 검색 기능을 자동화해, 스크립트나 시스템이 특정 메타데이터나 속성 기반으로 데이터를 찾아 활용

2. 데이터 프로덕트를 자가 등록하여 검색 기능 시작하기

데이터 메시 환경에서는 각 데이터 프로덕트가 스스로 빌드·배포·런타임 시점에 존재를 알리는 과정이 중요합니다.

•

등록 정보: 이름, 주소(URI), 위치, 핵심 메타데이터 등

•

서비스 메시 선행기술: 운영 플랫폼에서의 서비스 등록·어드레싱 기법 등을 활용할 수 있음

글로벌 URI 검색하기

•

글로벌 URI: 모든 데이터 프로덕트는 전 세계적으로 유일·접근 가능한 주소를 가져야 함

•

검색 API: 프로덕트 수준 정보(데이터 시맨틱 스펙, 문서, 액세스 로그, 품질 보증 등)를 제공

•

프로덕트 개발자는 이러한 검색 가능성 정보를 프로덕트 자체와 함께 꾸준히 유지·관리

3. 시맨틱 모델 & 신택스 모델 이해하기

데이터 프로덕트를 찾은 후, 사용자는 해당 데이터가 무엇을 의미하고, 어떻게 접근할 수 있는지 알아야 합니다.

구분	설명
시맨틱 모델	- 도메인 비즈니스 현실에 가깝게 모델링한 데이터 구조 - 개체 간 관계, 속성 등을 인간 친화적으로 표현 - 예) “플레이리스트”라는 개념, 곡 간 관계 등
신택스 모델	- 출력 포트에서 사용하는 구체적 액세스 모델 - 기계적 프로세싱에 최적화 - 예) JSON 스키마, 컬럼 지향 파일, 관계형 테이블로 인코딩된 형태

4. 데이터 보증으로 신뢰 구축하기

데이터 메시에서 데이터 보증은 사용자에게 “이 데이터가 기대하는 품질·성숙도·표준 준수·시간적 특징 등을 만족한다”고 알려주는 기능입니다.

4.1 데이터 품질 메트릭

•

정확도: 실제 콘텍스트와의 근접도

•

완전성: 누락 없이 실제를 반영하는지 여부

•

일관성: 내부적으로 충돌이 없는지

•

정밀도: 속성값이 얼마나 세밀하게 표현되는지

4.2 데이터 성숙도 메트릭

•

사용 빈도, 수명 주기, 다양성(지원 액세스 방식), 연계성(다른 프로덕트와 연계 정도) 등

•

조직마다 커스텀 지표를 두어 메트릭을 세분화할 수 있음

4.3 데이터 표준 준수

•

도메인별로 필요한 표준이 있다면, 그 표준을 준수했는지 기록하고 노출

4.4 시간성 메트릭

•

실제 에포크 vs. 처리 에포크: 언제 실제로 발생했고, 언제 데이터로 처리되었는지

•

프로세싱 간격, 적시성(스큐), 마지막 처리 시점 등

4.5 사용자 주도 메트릭

•

사용자(분석가, 과학자 등)가 데이터 사용 후 남기는 피드백, 경험을 수집해 품질 지표로 활용

5. 데이터 형태 탐색하기

•

데이터 프로덕트는 소비자가 레코드를 개별적으로 열람하지 않고도 분포, 범위, 빈도, 백분위수 등 형태를 한눈에 파악할 수 있게 해야 함

•

예) 검색 인터페이스에 열/필드 분포를 시각적으로 표현

6. 문서를 통해 학습하기

•

주피터 노트북 등 직관적·인터랙티브 툴을 사용해 데이터 탐색 가능

•

다만 주피터 노트북은 테스트·확장성·모듈화 측면에서 제한이 있으므로, 실제 애플리케이션 수준에선 대안이 필요

7. 데이터 검색·탐색·이해 설계하기

검색가능성 정보는 모든 데이터 프로덕트에서 표준화되어야 하며, 데이터 프로덕트 사이드카가 이런 검색 가능성 특성을 확장 지원하는 방식을 택할 수 있습니다.

데이터 구성(Composition)

데이터 메시가 지향하는 분산된 데이터 관리 속에서, 도메인이나 프로덕트 간 데이터를 연결하고 조합(Compose)함으로써 더 큰 분석 가치를 창출하는 일이 매우 중요합니다. 앞서 살펴본 데이터 검색과 이해 단계를 통과한 사용자는, 이제 여러 도메인에서 제공하는 데이터를 자연스럽게 조합하여 새로운 통찰을 얻을 수 있어야 합니다. 이를 위해서는 다음과 같은 설계 요소를 고려해야 합니다.

데이터 소비 속성 설계

•

소비 범위 명시: 각 데이터 프로덕트는 “어떤 데이터를, 어떤 소스에서, 어떤 방식으로 소비할 수 있는지”를 명시적으로 정의해야 합니다. 예를 들어, A 프로덕트는 음악 청취 로그(이벤트 데이터)와 사용자 정보(관계형 데이터)를 동시에 소비해 분석을 수행할 수 있다고 설정할 수 있습니다.

•

권한·보안·성능 요구사항: 프로덕트 간 데이터 연결 시, 도메인별 보안 정책과 데이터 성능 요건(대량 조회, 실시간 등)을 고려해야 합니다.

◦

예) A 프로덕트가 B 프로덕트의 고빈도 스트리밍 데이터를 소비하려면, B 프로덕트 측에서 액세스 빈도와 API 응답 속도를 조절할 수 있는 메커니즘을 제공해야 합니다.

•

상호 운용성 선언: 어떤 프로토콜(REST, gRPC 등)이나 데이터 포맷(JSON, Avro, Parquet 등)을 사용할지, 실제 시각·처리 시각을 어떻게 관리할지 등을 데이터 프로덕트 스스로 선언해, 나중에 연결하려는 다른 프로덕트가 미리 호환성을 평가할 수 있도록 합니다.

데이터 컴포저빌리티 기존 접근 방식

•

중앙 모놀리식 스키마 & 글로벌 모델: 과거에는 전사 차원의 마스터 스키마를 만들거나, 모든 데이터에 일괄 적용되는 강력한 모델을 강제하는 방식을 택했습니다. 그러나 이는 새 도메인이 추가될 때마다 스키마 충돌이 일어나고, 한 도메인의 변경이 전체 모델에 파급되어 유연성을 심각하게 저해합니다.

•

데이터 메시 접근: “약한 연결(loose coupling)” & “도메인별 모델링”

◦

약한 연결: 각 도메인은 독립적으로 데이터를 정의하고 변환하며, 필요한 시점에만 표준화된 인터페이스를 통해 다른 도메인과 데이터 교환

◦

도메인별 모델링: 대규모 글로벌 모델 대신, 도메인 중심으로 설계된 시맨틱·신택스 모델을 프로덕트 내부에 캡슐화. 이로써 한 도메인이 바뀌어도 전체 시스템에 최소 영향만 미칩니다.

데이터 구성 설계

데이터 검색·이해 단계를 통해 적합한 데이터 프로덕트를 파악했다면, **데이터 구성(Composition)**을 통해 여러 프로덕트를 상호 연계해 새로운 분석 시나리오나 비즈니스 가치를 만들어낼 수 있습니다.

스키마·API·시간적 특징 고려

•

각 프로덕트가 서로 어떤 스키마를 노출하고, 어떤 시점(실제 시각, 처리 시각)을 기준으로 데이터를 제공하는지 확인해야 합니다.

•

불변 데이터, 바이템포럴 데이터 등이 혼합될 경우, 분석 로직에서 특정 시점의 데이터만 골라 연관시키는 식으로 작동 가능

조합 시나리오 예시

•

도메인 A(플레이리스트)와 도메인 B(사용자 취향 데이터)의 출력 포트를 조인하여, 사용자 맞춤형 플레이리스트 추천을 생성

•

도메인 C(결제 정보)까지 결합해, 결제 이력에 따른 프리미엄 구독 타겟팅 등 상위 분석 시나리오 수행

구성(Composition) 패턴

•

직접 조인: 두 프로덕트의 공통 식별자(사용자 ID 등)를 통해 직접 연결

•

중개 프로덕트: 중간에 별도의 데이터 프로덕트가 있어, 여러 입력 포트를 받아 집계나 변환 후 최종 출력 제공

•

이벤트 스트림 기반 결합: 이벤트를 발행·구독 방식으로 연결해, 각 도메인이 필요한 이벤트만 실시간으로 수신

확장성과 유연성 보장

•

도메인 팀 간 긴밀한 의존을 만들지 않도록, API 버전 관리와 호환성 정책을 명시

•

조인이 복잡해질수록, 데이터 변환 로직을 외부 파이프라인이 아닌, 데이터 프로덕트 내부에 배치하는 전략을 고려

마무리

이번 글에서는 데이터 검색, 이해, 신뢰를 높이기 위한 보증·메트릭·시맨틱 모델, 그리고 데이터 구성(Composition)을 통한 확장성을 살펴봤습니다. 데이터 메시에서 각 도메인 팀이 독립적으로 데이터를 관리하면서도, 다른 프로덕트와 손쉽게 협업하고 가치를 극대화하려면 표준화된 검색 가능성, 시맨틱·신택스 모델의 구분, 품질·시간성 메트릭 등에 대한 설계가 필수입니다.

다음 글에서는 이러한 데이터 관리·거버닝·관찰 능력이 실제 조직 운영에서 어떻게 데이터 메시 생태계를 단단히 연결하고, 분산된 거버넌스 속에서도 품질과 신뢰를 유지할 수 있게 하는지 살펴보겠습니다.