17. 실시간 데이터 패브릭: 배치 처리를 넘어 실시간 동기화의 시대로
전날 밤 배치로 처리된 공급업체 정보가 다음 날 아침 조달 시스템에 반영됩니다. 고객이 어제 변경한 주소는 오늘 밤 배치가 돌아야 콜센터 시스템에 업데이트됩니다. 이것이 수십 년간 MDM의 현실이었습니다. 하루 한 번, 또는 주 한 번 돌아가는 배치가 마스터 데이터 동기화의 전부였습니다.
그런데 AI가 실시간 데이터를 필요로 하고, 고객이 채널을 실시간으로 전환하며, 공급망이 실시간 반응을 요구하는 시대에 이 모델은 더 이상 충분하지 않습니다. 데이터 패브릭(Data Fabric)은 이 문제를 해결합니다. 이 글에서는 데이터 패브릭의 개념, MDM과의 연결, 실시간 동기화 아키텍처, 구현 기술 스택, 그리고 현실적인 도입 방법을 정리합니다.
1. 배치 기반 MDM의 한계 — 왜 실시간이 필요한가
배치 처리가 충분했던 시대는 지났습니다. 현대 비즈니스가 마스터 데이터에 요구하는 것이 근본적으로 달라졌기 때문입니다.
| 비즈니스 요구 | 배치 MDM의 한계 | 실시간 MDM의 해법 |
|---|---|---|
| AI 실시간 추천 | 전날 배치 데이터 기반 추천. 어제 구매한 상품을 오늘도 추천 | 고객 마스터 변경 즉시 AI 모델에 반영. 실시간 개인화 |
| 옴니채널 고객 경험 | 앱에서 변경한 배송지가 콜센터에 반영되는 데 하루 소요 | 채널 간 고객 마스터 변경 수 초 내 동기화 |
| 공급망 실시간 최적화 | 공급업체 납기 변경이 배치 후 반영. 그 사이 잘못된 발주 | 공급업체 마스터 변경 즉시 조달 시스템 반영 |
| 실시간 재고 관리 | 자재 마스터 변경이 다음 날 반영. 당일 재고 계산 오류 | 자재 마스터 변경 즉시 재고 시스템에 전파 |
| 규제 즉시 대응 | 제재 대상 공급업체 등록 해지가 배치 후에야 시스템 반영 | 제재 목록 변경 즉시 마스터 데이터에 반영·차단 |
배치 MDM의 한계가 가장 치명적으로 드러나는 것은 위기 상황입니다. 공급업체 부도, 제품 리콜, 고객 데이터 침해 사고가 발생했을 때 관련 마스터 데이터가 모든 시스템에 즉시 반영되어야 합니다. 배치를 기다리는 12시간은 재앙이 될 수 있습니다.
2. 데이터 패브릭이란 무엇인가
데이터 패브릭(Data Fabric)은 이기종 데이터 환경(온프레미스·클라우드·멀티클라우드)에 분산된 데이터를 단일하고 통합된 방식으로 접근·관리·활용할 수 있게 하는 통합 데이터 아키텍처입니다.
"패브릭(Fabric, 직물)"이라는 이름은 다양한 실(데이터 소스)을 하나의 천(통합 레이어)으로 엮는다는 비유에서 왔습니다.
| 데이터 패브릭 특성 | MDM에서의 의미 |
|---|---|
| 통합 메타데이터 계층 | 어디에 어떤 마스터 데이터가 있는지 하나의 카탈로그로 관리. 온프레미스 ERP의 자재 마스터와 클라우드 MDM의 고객 마스터를 같은 인터페이스로 접근 |
| 지능형 데이터 통합 | AI가 데이터 패턴을 학습하여 마스터 데이터 통합 및 품질 개선을 자동화. 새로운 데이터 소스가 추가될 때 자동으로 매핑 제안 |
| 실시간 데이터 접근 | 배치 이전 없이 소스 시스템의 마스터 데이터를 실시간으로 읽고 업데이트하는 가상화(Virtualization) 기능 |
| 자동화된 거버넌스 | 데이터 분류·품질·접근 제어가 자동으로 적용되어 마스터 데이터 거버넌스를 코드화하고 자동 집행 |
3. MDM과 데이터 패브릭의 관계
데이터 패브릭과 MDM은 경쟁 관계가 아닙니다. MDM이 마스터 데이터의 진실을 정의하는 허브라면, 데이터 패브릭은 그 진실을 전체 데이터 생태계에 실시간으로 전달하는 고속도로입니다.
| 역할 | MDM | 데이터 패브릭 |
|---|---|---|
| 핵심 목적 | 단일 진실의 원천(마스터) 생성·관리 | 마스터 데이터를 전체 생태계에 통합·배포 |
| 데이터 처리 | 마스터 레코드 품질·거버넌스 보장 | 마스터 변경을 실시간으로 하위 시스템에 전파 |
| AI 역할 | 데이터 품질·엔티티 해상도 자동화 | 데이터 매핑·통합 자동화 |
| 협업 방식 | MDM이 Golden Record를 패브릭에 발행 | 패브릭이 MDM 변경 이벤트를 구독하여 전파 |
2026년 현재 Informatica·Reltio·Semarchy 등 주요 MDM 벤더들이 데이터 패브릭 기능을 MDM 플랫폼에 통합하고 있습니다. 독립적인 두 시스템이 점점 하나의 통합 플랫폼으로 수렴하는 추세입니다. 새로 MDM을 도입하는 기업은 데이터 패브릭 기능 내장 여부를 벤더 선택 기준의 하나로 고려해야 합니다.
4. 실시간 마스터 데이터 동기화의 핵심 아키텍처
실시간 MDM 아키텍처는 이벤트 기반(Event-Driven) 설계를 기반으로 합니다.
| 레이어 | 역할 | 구성요소 |
|---|---|---|
| 이벤트 감지 | 소스 시스템의 마스터 데이터 변경을 실시간으로 감지 | CDC(Change Data Capture), 데이터베이스 트리거, API 훅 |
| 이벤트 스트리밍 | 변경 이벤트를 실시간으로 전달하는 메시지 파이프라인 | Apache Kafka, AWS Kinesis, Azure Event Hub |
| MDM 처리 | 이벤트 수신 후 품질 검증·엔티티 해상도·골든 레코드 업데이트 | MDM 엔진, AI 에이전트, 품질 검증 파이프라인 |
| 이벤트 발행 | MDM 처리 완료 후 업데이트된 마스터 데이터를 하위 시스템에 배포 | 이벤트 토픽, Webhook, API Gateway |
| 소비자 시스템 | 업데이트된 마스터 데이터를 구독하여 자체 데이터 갱신 | ERP, CRM, AI 모델, 분석 플랫폼, 고객센터 시스템 |
- 고객이 앱에서 배송지 변경
- CRM이 고객 레코드 업데이트 → CDC가 변경 감지
- Kafka 토픽에 "customer.address.updated" 이벤트 발행
- MDM 엔진이 이벤트 수신 → 품질 검증 → 골든 레코드 업데이트
- MDM이 "master.customer.updated" 이벤트 재발행
- ERP·콜센터·배송 시스템이 이벤트 구독 → 자체 데이터 즉시 갱신
- 전체 처리 시간: 수 초 이내
5. 이벤트 기반 MDM — Change Data Capture
CDC(Change Data Capture)는 데이터베이스의 변경 내역을 실시간으로 캡처하는 기술입니다. 배치 기반 MDM에서 실시간 MDM으로 전환하는 핵심 기술입니다.
| CDC 방식 | 작동 원리 | 장점 | 단점 |
|---|---|---|---|
| 로그 기반 CDC | DB의 트랜잭션 로그(WAL·Redo Log)를 읽어 변경 감지 | 소스 DB 부하 최소. 가장 안정적 | DB별 로그 형식 차이. 설정 복잡 |
| 트리거 기반 CDC | DB 트리거로 변경 발생 시 별도 테이블에 기록 | 구현 단순. 범용 DB 지원 | DB 부하 증가. 트리거 관리 복잡 |
| 타임스탬프 기반 | 마지막 수정 시각 칼럼을 주기적으로 비교 | 구현 매우 단순 | 삭제 감지 불가. 준실시간(배치 주기 1~5분) |
| API 이벤트 훅 | 소스 시스템이 직접 변경 이벤트를 API로 발행 | 소스 시스템 통제 시 가장 깔끔 | 소스 시스템의 이벤트 발행 지원 필요 |
SAP S/4HANA는 SAP Event Mesh와 SAP Integration Suite을 통해 마스터 데이터 변경 이벤트를 외부 시스템에 발행하는 기능을 제공합니다. SAP를 핵심 마스터 소스로 사용하는 국내 대기업은 이 기능을 활용하여 CDC 복잡성을 줄일 수 있습니다.
6. 실시간 데이터 패브릭 기술 스택
실시간 MDM과 데이터 패브릭을 구현하는 주요 기술 스택을 용도별로 정리합니다.
| 기술 영역 | 주요 기술 | MDM 활용 |
|---|---|---|
| CDC 도구 | Debezium, Oracle GoldenGate, AWS DMS, Qlik Replicate | 소스 DB에서 마스터 데이터 변경 실시간 캡처 |
| 스트리밍 플랫폼 | Apache Kafka, AWS Kinesis, Azure Event Hub, Confluent | 마스터 데이터 변경 이벤트 고신뢰 전달 |
| 스트림 처리 | Apache Flink, Apache Spark Streaming, Kafka Streams | 실시간 데이터 품질 검증, 변환, 엔티티 해상도 |
| 데이터 카탈로그 | Collibra, Alation, DataHub, Microsoft Purview | 마스터 데이터 계보·메타데이터 실시간 갱신 |
| 데이터 가상화 | Denodo, TIBCO Data Virtualization, dbt | 소스 이전 없이 마스터 데이터 실시간 접근 |
| API 관리 | Kong, Apigee, AWS API Gateway, Azure APIM | 소비자에게 실시간 마스터 데이터 API 제공 |
7. 실시간 동기화의 3가지 패턴
모든 마스터 데이터가 같은 실시간 수준을 필요로 하지는 않습니다. 비즈니스 요구에 따라 3가지 패턴을 적절히 조합합니다.
적용 대상: 결제·사기 탐지에 관련된 고객 마스터, 제재 목록 관련 공급업체 마스터, 재고 임박 자재 마스터
기술: CDC → Kafka → 스트림 처리 → 즉시 배포
비용: 높음. 인프라 복잡도 높음. 꼭 필요한 도메인에만 적용
적용 대상: 고객 프로파일·배송 주소 변경, 공급업체 연락처 변경, 제품 가격·재고 상태
기술: 타임스탬프 기반 CDC(1~5분 주기) 또는 마이크로 배치
비용: 중간. 대부분의 마스터 도메인에 적합한 현실적 선택
적용 대상: 아카이브 데이터, 장기 계약 조건, 분석용 히스토리 데이터
기술: 기존 ETL 배치 파이프라인
비용: 낮음. 변경 빈도가 낮고 실시간 요구가 없는 도메인에 적합
모든 마스터 데이터를 실시간으로 동기화하려 하면 인프라 비용이 폭증합니다. 비즈니스 임팩트와 변경 빈도를 기준으로 10~20%는 실시간, 40~50%는 준실시간, 30~50%는 배치로 분류하는 것이 현실적입니다.
8. 현실적인 도입 전략 — 배치와 실시간의 공존
배치 기반 MDM에서 실시간 MDM으로의 전환은 하루아침에 이루어지지 않습니다. 현실적인 단계별 전환 전략이 필요합니다.
| 단계 | 기간 | 핵심 작업 |
|---|---|---|
| 1단계 현황 분석 |
1~2개월 | 마스터 도메인별 변경 빈도 분석. 실시간 요구 긴급도 매핑. 소스 시스템의 CDC 지원 여부 확인. 인프라 현황 파악 |
| 2단계 우선 도메인 선정 |
2~3개월 | 실시간 요구가 가장 높고, 변경이 빈번하며, 영향 범위가 명확한 단일 도메인 선정. 고객 배송지 변경 또는 공급업체 긴급 상태 변경이 일반적으로 좋은 시작점 |
| 3단계 파일럿 구현 |
3~6개월 | CDC + Kafka + MDM 파이프라인 구축. 준실시간(1~5분) 동기화로 시작. 성능·안정성·비용 측정 |
| 4단계 점진적 확장 |
6~18개월 | 파일럿 성과 기반으로 도메인 순차 확장. 비즈니스 요구에 따라 실시간·준실시간·배치 패턴 최적화. 데이터 패브릭 레이어 점진적 구축 |
- 이벤트 중복 처리 미비: 같은 변경 이벤트가 두 번 처리되어 데이터가 두 번 업데이트되는 중복 문제. 멱등성(Idempotency) 설계 필수
- 이벤트 순서 보장 미비: 변경→원복 이벤트가 역순으로 처리되어 삭제되어야 할 데이터가 복원되는 문제. 파티션 키 설계로 순서 보장 필요
- 장애 시 롤백 계획 부재: 실시간 파이프라인 장애 시 배치로 자동 전환하는 폴백(Fallback) 메커니즘이 없으면 서비스 중단
9. 정리
실시간 데이터 패브릭은 MDM을 "야간 배치로 돌아가는 시스템"에서 "비즈니스 실시간 인프라"로 격상시킵니다. AI가 실시간 데이터를 요구하고, 고객이 실시간 일관성을 기대하며, 공급망이 실시간 반응을 필요로 하는 시대에 실시간 MDM은 경쟁 우위의 요소가 됩니다.
실시간 MDM은 지금 이 순간의 진실을 제공합니다.
AI 시대에는 지금 이 순간이 중요합니다."
다음 글에서는 AI 에이전트 시대에 MDM API 전략이 어떻게 달라져야 하는지, MCP(Model Context Protocol)와 데이터 연동 표준화의 최전선을 살펴봅니다.
Part 4. Technical Deep-Dive — 아키텍처와 표준의 혁신
- Data Product 컨셉의 도입
- 하이브리드 페더레이티드 모델
- 실시간 데이터 패브릭: 배치 처리를 넘어 실시간 동기화의 시대로 (현재 글)
- AI 에이전트 시대의 MDM API 전략: 데이터 연동 표준화의 최전선
- Gartner. (2024). Data Fabric Architecture Is the Future of Data Management. Gartner Research.
- Apache Software Foundation. (2024). Apache Kafka: A Distributed Event Streaming Platform. https://kafka.apache.org
- Debezium. (2024). Debezium Documentation: Change Data Capture. Red Hat. https://debezium.io
- Apache Software Foundation. (2024). Apache Flink: Stream Processing Framework. https://flink.apache.org
- Microsoft. (2024). Azure Event Hubs Documentation. Microsoft Learn.
- Forrester Research. (2024). The Data Fabric Market: Vendor Landscape and Emerging Trends. Forrester Research.
※ 이 블로그는 MDM, CIAM, DX, AX, AI 등 글로벌 IT 트렌드와 디지털 전략을 실무 전문가 관점에서 분석합니다.
댓글
댓글 쓰기