5. 지식 그래프 기반 엔티티 해상도: 중복 데이터 제로에 도전하다
"Samsung Electronics"와 "삼성전자㈜"는 같은 회사입니다. "서울시 서초구 서초대로 130"과 "130 Seocho-daero, Seocho-gu, Seoul"은 같은 주소입니다. 사람은 이를 즉시 알아챕니다. 그런데 전통적인 MDM 시스템은 이것을 서로 다른 두 개의 엔티티로 등록합니다. 여기서 중복이 시작되고, 데이터 품질 문제가 누적됩니다.
지식 그래프(Knowledge Graph) 기반 엔티티 해상도(Entity Resolution)는 이 문제에 대한 가장 강력한 해법입니다. 단순한 문자열 비교를 넘어 데이터 간의 맥락과 관계를 이해하여 동일 실체를 정확하게 식별합니다. 이 글에서는 엔티티 해상도의 개념과 전통 방식의 한계, 지식 그래프가 이를 어떻게 혁신하는지, 실제 구현 아키텍처와 도입 전략을 정리합니다.
1. 엔티티 해상도란 무엇인가
엔티티 해상도(Entity Resolution)는 서로 다른 소스 시스템에 존재하는 레코드들이 실제 세계에서 동일한 대상을 가리키는지 판별하고, 이를 하나의 통합된 표현으로 연결하는 과정입니다. Record Linkage, Entity Matching, Deduplication이라고도 불립니다.
MDM의 핵심 목표는 단일 진실의 원천(Single Source of Truth) 구축입니다. 동일한 고객, 제품, 공급업체가 여러 시스템에 서로 다른 이름과 코드로 등록되어 있다면, 아무리 좋은 MDM 시스템을 도입해도 통합 뷰는 불가능합니다. 엔티티 해상도는 이 통합의 기반을 만드는 작업입니다.
| 엔티티 해상도 유형 | 설명 |
|---|---|
| 중복 제거 (Deduplication) | 동일 시스템 내에서 같은 실체를 가리키는 중복 레코드를 찾아 하나로 병합 |
| 레코드 연결 (Record Linkage) | 서로 다른 시스템의 레코드 중 같은 실체를 가리키는 것을 연결하되 병합하지 않음 |
| 정준화 (Canonicalization) | 여러 표현 중 하나의 표준 표현을 선정하여 마스터로 지정 |
| 엔티티 통합 (Entity Fusion) | 여러 소스의 속성 정보를 결합하여 가장 완전한 마스터 레코드 구성 |
2. 중복 데이터가 비즈니스에 미치는 실제 피해
중복 데이터는 단순한 데이터 정리 문제가 아닙니다. 비즈니스 전반에 걸쳐 직접적인 비용과 기회 손실을 야기합니다.
| 피해 영역 | 구체적 피해 내용 |
|---|---|
| 마케팅 낭비 | 동일 고객에게 중복 DM·이메일·쿠폰 발송. 발송 비용 낭비, 고객 불쾌감, 스팸 신고 증가로 이메일 도달률 하락 |
| AI 모델 오염 | 중복 고객을 각각 다른 사람으로 학습한 추천·이탈 예측 AI의 정확도 저하. 투자 대비 AI 효과 반감 |
| 재고·발주 오류 | 동일 자재가 다른 코드로 등록되어 실제 재고보다 부족한 것으로 인식, 불필요한 발주 실행으로 재고 비용 과다 |
| 규제 컴플라이언스 | 동일 거래처에 대한 이중 계약, 중복 세금계산서 발행, 공급망 투명성 보고 오류로 규제 위반 위험 |
| 고객 경험 저하 | 채널별로 다르게 인식되는 고객에게 일관되지 않은 서비스 제공. 포인트 분산, 할인 혜택 누락 |
| 분석 신뢰성 | 중복이 포함된 데이터로 생성된 경영 리포트의 왜곡. 실제보다 부풀려진 고객 수, 공급업체 수 보고 |
업계 조사에 따르면 기업 마스터 데이터의 평균 중복 비율은 5~30%에 달하며, 이로 인한 연간 비용 손실은 대기업 기준 수십억 원에서 수백억 원으로 추정됩니다. 중복은 단순한 데이터 문제가 아니라 경영 문제입니다.
3. 전통적 중복 탐지 방식의 한계
기존 MDM 시스템이 중복을 탐지하는 방식은 크게 두 가지입니다. 그런데 두 방식 모두 한계가 명확합니다.
이름, 사업자번호, 이메일 같은 특정 필드가 완전히 일치할 때만 중복으로 판정합니다.
한계: 오타 하나, 띄어쓰기 하나, 영문·한글 표기 차이만 있어도 탐지 실패. "삼성전자"와 "Samsung Electronics"는 완전히 다른 레코드로 처리됩니다.
편집 거리(Levenshtein), 음성 유사도(Soundex) 등 문자열 유사도를 기반으로 중복 후보를 추출합니다.
한계: 문자열이 비슷해도 전혀 다른 엔티티(예: "SK하이닉스"와 "SK하이테크"), 문자열이 달라도 같은 엔티티(예: 한글·영문 표기)를 제대로 처리하지 못합니다. 언어적 맥락과 비즈니스 관계를 이해하지 못합니다.
두 방식의 공통된 근본 한계는 데이터의 의미(Semantics)와 관계(Relationship)를 이해하지 못한다는 것입니다. 지식 그래프는 바로 이 한계를 해결합니다.
4. 지식 그래프란 무엇인가 — MDM 관점의 이해
지식 그래프(Knowledge Graph)는 엔티티(노드)와 그 관계(엣지)를 그래프 구조로 저장하는 데이터베이스입니다. 단순히 데이터를 저장하는 것이 아니라 데이터 간의 맥락과 의미를 함께 저장합니다.
[삼성전자㈜] ──(모회사)──→ [Samsung Electronics Co., Ltd.]
[삼성전자㈜] ──(위치)──→ [서울특별시 서초구]
[삼성전자㈜] ──(생산)──→ [반도체], [스마트폰], [가전]
[삼성전자㈜] ──(등록번호)──→ [110-81-01521]
[Samsung Electronics] ──(동의어)──→ [삼성전자㈜]
이 그래프에서 "삼성전자㈜"와 "Samsung Electronics Co., Ltd."는 동의어 관계(sameAs)로 연결되어 있어, 어떤 표기로 검색해도 동일 엔티티로 인식됩니다.
| 구분 | 관계형 DB (기존 MDM) | 지식 그래프 기반 MDM |
|---|---|---|
| 데이터 저장 방식 | 테이블·행·열 구조 | 노드(엔티티)·엣지(관계) 그래프 구조 |
| 관계 표현 | 외래키(FK)로 제한적 표현 | 다양한 관계 유형 자유롭게 표현 |
| 맥락 이해 | 없음 (구조적 데이터만) | 관계 경로를 통한 맥락 추론 가능 |
| 중복 탐지 | 필드값 비교 중심 | 관계 패턴까지 고려한 의미론적 비교 |
| 확장성 | 스키마 변경 시 대규모 수정 필요 | 새로운 엔티티·관계 유형 유연하게 추가 |
5. 지식 그래프 기반 엔티티 해상도의 작동 원리
지식 그래프를 활용한 엔티티 해상도는 4가지 신호를 종합하여 두 레코드가 동일 엔티티인지 판단합니다.
| 신호 유형 | 내용 | 예시 |
|---|---|---|
| ① 속성 유사도 | 이름, 주소, 전화번호 등 직접 속성의 유사도. 퍼지 매칭 기반 | "삼성전자㈜"와 "Samsung Electronics" → 문자열 유사도 낮음, 하지만 다른 신호들이 보완 |
| ② 관계 일치도 | 동일한 엔티티와 관계를 맺고 있는지 확인 | 두 레코드 모두 같은 사업자번호·대표자와 연결되어 있으면 동일 가능성 높음 |
| ③ 그래프 이웃 패턴 | 연결된 엔티티들의 패턴이 유사한지 확인 | 두 공급업체가 동일한 자재, 동일한 구매처와 거래한 이력이 있으면 동일 가능성 높음 |
| ④ 외부 지식 연계 | 외부 기업 정보 DB, 공공 데이터와 대조 | 국세청 사업자 DB, Dun & Bradstreet 기업 정보와 대조하여 동일성 확인 |
이 4가지 신호를 가중치 기반으로 결합하여 최종 동일성 확률(Similarity Score)을 계산합니다. 단일 신호가 낮더라도 다른 신호들이 보완하여 높은 정확도를 달성합니다. 이것이 단순 퍼지 매칭과의 근본적 차이입니다.
6. 핵심 기술 구성요소
| 구성요소 | 역할 | 대표 기술 |
|---|---|---|
| 그래프 데이터베이스 | 엔티티와 관계를 그래프 구조로 저장·조회. 관계 경로 탐색에 최적화 | Neo4j, Amazon Neptune, TigerGraph |
| 임베딩 모델 | 텍스트 속성을 벡터로 변환. 의미론적 유사도 계산의 기반 | BERT, Sentence-BERT, OpenAI Embeddings |
| 벡터 데이터베이스 | 임베딩 벡터 저장·근사 이웃 검색(ANN). 수백만 레코드 대상 유사도 계산 | Pinecone, Weaviate, pgvector |
| 그래프 신경망(GNN) | 그래프 구조에서 패턴을 학습하여 엔티티 동일성 예측 정확도 향상 | PyTorch Geometric, DGL |
| 외부 데이터 커넥터 | 기업 정보 DB, 공공 데이터와의 실시간 대조 연동 | D&B API, 국세청 API, OpenCorporates |
| 결정 엔진 | 복합 신호를 통합하여 최종 동일성 판단. 확신도별 처리 경로 분기 | 커스텀 ML 모델, 규칙 엔진 결합 |
Informatica IDMC, Reltio, Stibo Systems 같은 주요 MDM 플랫폼들이 지식 그래프 기반 엔티티 해상도 기능을 내장하거나 연동 기능을 제공하고 있습니다. 자체 구축보다 검증된 플랫폼 도입이 대부분의 기업에게 현실적입니다.
7. 도메인별 적용 시나리오
문제: 동일 고객이 이메일·카카오·네이버 로그인으로 각각 가입. 이름 오타, 주소 형식 차이로 중복 탐지 실패.
지식 그래프 접근: 이름·이메일·전화번호 속성 유사도 + 구매 패턴 그래프 이웃 유사도 + CI(연계정보) 대조 → 동일인 확률 95% 이상 시 자동 통합.
효과: 고객 중복률 15% → 2%, 개인화 마케팅 효율 40% 향상
문제: 글로벌 자회사별 ERP에 동일 공급업체가 국가마다 다른 이름·코드로 등록. 그룹 전체 공급업체 수가 실제의 3배로 집계.
지식 그래프 접근: 법인명 다국어 임베딩 + 그룹사 관계 그래프 + D&B 글로벌 기업 정보 연동 → 동일 기업 그룹 자동 계층화.
효과: 공급업체 레코드 수 62% 통합, 구매 협상력 강화, ESG 공급망 보고 정확도 개선
문제: 동일 부품이 구매 부서, 생산 부서, 유지보수 부서에서 각각 다른 이름과 코드로 등록. 재고 현황 오파악으로 불필요한 발주 반복.
지식 그래프 접근: 제품 사양 속성 유사도 + 공급업체 관계 패턴 + 기술 문서 임베딩 유사도 → 동일 부품 자동 식별 및 표준 코드 매핑.
효과: 자재 중복 코드 45% 제거, 재고 발주 비용 연간 10~15% 절감
8. 구현 로드맵과 주요 고려사항
| 단계 | 기간 | 주요 작업 |
|---|---|---|
| 1단계 현황 파악 |
1~2개월 | 중복 비율 현황 측정. 중복 발생 주요 소스 시스템 및 도메인 파악. 비즈니스 영향 우선순위 정의 |
| 2단계 파일럿 |
2~4개월 | 단일 도메인(고객 또는 공급업체) 파일럿. 그래프 DB 구축 + 임베딩 모델 적용. 결과 정확도 측정 및 임계값 튜닝 |
| 3단계 자동화 |
4~8개월 | 확신도 기반 자동 처리 활성화. 스튜어드 검토 워크플로우 연동. 처리 이력 감사 로그 구축 |
| 4단계 전체 확장 |
8개월~ | 전체 마스터 도메인으로 확장. 실시간 스트리밍 기반 자동 탐지. 외부 데이터 연동으로 정확도 고도화 |
- 골든 레코드 정책 먼저: 어떤 소스 시스템의 값을 마스터(Golden Record)로 할 것인지 비즈니스 규칙을 먼저 정의해야 합니다. 기술 구현 전에 거버넌스 정책이 선행되어야 합니다.
- 잘못된 병합의 롤백 설계: AI가 틀렸을 때 병합을 되돌릴 수 있는 롤백 메커니즘을 반드시 구현해야 합니다. 잘못된 병합은 잘못된 중복보다 더 위험할 수 있습니다.
- 점진적 신뢰 구축: 처음에는 탐지만 하고 사람이 승인하는 방식으로 시작하십시오. AI의 판단이 충분히 검증된 후에 자동화 범위를 넓혀가는 것이 안전합니다.
9. 정리
지식 그래프 기반 엔티티 해상도는 MDM의 가장 어려운 문제—동일 실체의 다양한 표현을 정확히 식별하는 것—에 대한 현재 가장 강력한 해법입니다. 문자열 비교를 넘어 관계·맥락·외부 지식을 종합하여 사람에 가까운 수준의 동일성 판단을 자동화합니다.
지식 그래프는 그 목표를 향해
지금까지와는 다른 속도로 접근하게 합니다."
이것으로 Part 1 "AI & Agentic MDM — 지능형 데이터 관리의 시대" 5편이 완성되었습니다. 다음 Part 2에서는 글로벌 트렌드에서 벗어나 한국 기업 현장의 실제 MDM 문제로 들어갑니다. 한국 기업의 DX 실패율 70%의 진짜 이유를 마스터 데이터 관점에서 분석합니다.
Part 1. AI & Agentic MDM — 지능형 데이터 관리의 시대 ✅ 완료
- 2026 MDM의 대전환: AI 에이전트가 주도하는 지능형 마스터 데이터 혁신
- AI-Ready Data: 왜 현대의 AI는 고품질 마스터 데이터에 목마른가?
- 에이전틱 데이터 관리(ADM)의 핵심: Data Steward Agent의 역할과 미래
- Self-healing Master Data: AI가 스스로 데이터 오류를 탐지하고 치유하는 방법
- 지식 그래프 기반 엔티티 해상도: 중복 데이터 제로에 도전하다 (현재 글)
Part 2. 한국 기업 MDM 현장 — 실패의 패턴과 극복 전략
- 한국 기업의 DX 실패율 70%의 진짜 이유: 마스터 데이터 문제
- MDM 프로젝트, 왜 경영진의 지원을 받지 못하는가?
- 국내 기업 MDM 도입 실패의 7가지 패턴과 극복 전략
- 한국 대기업 MDM 거버넌스의 현실
- ERP 현대화에서 MDM이 실패하는 이유
- W3C. (2014). RDF 1.1 Concepts and Abstract Syntax. W3C Recommendation. https://www.w3.org/TR/rdf11-concepts/
- Neo4j. (2024). The Definitive Guide to Graph Databases. Neo4j, Inc. https://neo4j.com
- Gartner. (2024). Knowledge Graph Technology: Enterprise Use Cases. Gartner, Inc.
- Christen, P. (2012). Data Matching: Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection. Springer.
- Dun & Bradstreet. (2024). D-U-N-S Number: Global Business Identification. Dun & Bradstreet. https://www.dnb.com
- Pinecone. (2024). Vector Database Documentation: Semantic Similarity Search. Pinecone Systems.
※ 이 블로그는 MDM, CIAM, DX, AX, AI 등 글로벌 IT 트렌드와 디지털 전략을 실무 전문가 관점에서 분석합니다.
댓글
댓글 쓰기