유니온 파인드(Union-Find) 자료구조 (서로소 집합과 경로 압축 최적화)

소셜 네트워크 서비스에서 "A와 B가 서로 친구 관계인가?" 혹은 네트워크 인프라 환경에서 "특정 컴퓨터 노드들이 동일한 로컬 네트워크 망 내에 연결되어 있는가?"와 같은 동적 연결성(Dynamic Connectivity) 문제는 실무에서 빈번하게 마주하는 과제입니다. 만약 이러한 판별 작업을 매번 깊이 우선 탐색(DFS)이나 너비 우선 탐색(BFS)을 통해 수행한다면, 노드와 간선의 개수가 수백만 개로 늘어날 때 엄청난 탐색 시간(O(V+E))이 소요되어 시스템 퍼포먼스에 심각한 병목을 초래합니다. 이렇게 여러 개의 노드가 존재할 때 특정 노드들이 같은 그룹에 속해 있는지를 획기적으로 빠르게 판별하고 병합할 수 있는 자료구조가 바로 유니온 파인드(Union-Find)입니다. 수학적 용어로는 서로소 집합(Disjoint Set)이라고도 불리는 이 알고리즘의 동작 원리와, 실무 적용 시 반드시 수반되어야 하는 경로 압축(Path Compression) 최적화 기법에 대해 전문적인 관점에서 심층 분석해 보겠습니다.

1. 유니온 파인드 알고리즘의 핵심 개념과 필요성

유니온 파인드는 전체 집합을 교집합이 존재하지 않는 여러 개의 부분 집합으로 나누어 관리하는 트리 기반의 자료구조입니다. 초기에는 모든 노드가 자기 자신만을 원소로 가지는 독립적인 집합 상태로 존재하며, 일련의 연산을 통해 점진적으로 하나의 거대한 집합으로 병합되어 가는 과정을 추적합니다.

1-1. 서로소 집합(Disjoint Set)의 이해

서로소 집합이란 말 그대로 '공통 원소가 없는 두 집합'을 의미합니다. 데이터베이스의 트랜잭션 충돌 관리, 컴파일러의 변수 스코프 묶음 처리 등에서 어떤 두 객체가 독립적인지 아니면 연관되어 있는지를 논리적으로 그룹화할 때 이 서로소 집합 모델이 완벽하게 들어맞습니다. 유니온 파인드는 이러한 서로소 집합들의 상태를 메모리 상에서 가장 효율적으로 유지하기 위해 고안되었습니다.

1-2. 두 가지 핵심 연산: Find와 Union

Find 연산: 특정 노드 `X`가 주어졌을 때, 해당 노드가 속한 집합의 '대표 노드(Root Node)'를 반환합니다. 만약 노드 `A`와 노드 `B`에 대해 Find 연산을 수행한 결과값이 동일하다면, 두 노드는 같은 집합에 속해 있음을 논리적으로 확정할 수 있습니다.
Union 연산: 서로 다른 두 개의 집합을 하나의 집합으로 합치는 연산입니다. 내부적으로는 한 집합의 대표 노드를 다른 집합의 대표 노드의 자식으로 연결함으로써 두 트리를 병합(Merge)합니다.

2. 유니온 파인드의 기본 아키텍처와 한계점

가장 직관적이고 기본적인 유니온 파인드는 1차원 배열 하나만을 사용하여 각 노드의 부모(Parent) 노드 정보를 저장하는 방식으로 구현됩니다.

2-1. 1차원 배열을 활용한 상태 관리

크기가 N인 배열 `parent`를 선언하고, 인덱스를 각 노드의 고유 식별자로 활용합니다. 알고리즘 초기화 단계에서는 모든 노드가 자기 자신을 부모로 가리키도록 설정합니다. 즉, `parent[i] = i` 상태가 되며, 이는 모든 노드가 각각 1개의 원소를 가진 N개의 집합으로 나뉘어 있음을 뜻합니다.

2-2. 편향 트리(Skewed Tree) 현상으로 인한 성능 저하

기본적인 방식(Naive Implementation)으로 Union 연산을 수행하다 보면 치명적인 알고리즘적 결함이 발생합니다. 예를 들어 노드 1을 2에 붙이고, 2를 3에 붙이고, 3을 4에 붙이는 식으로 한쪽으로만 계속 연결될 경우, 트리가 아닌 마치 '연결 리스트(Linked List)'처럼 일자 형태의 편향 트리가 형성됩니다. 이 상태에서 마지막 노드에 대해 Find 연산을 호출하면, 최상위 루트 노드를 찾기 위해 모든 노드를 순차적으로 거쳐 올라가야 하므로 시간 복잡도가 O(N)으로 폭증하게 됩니다. 이는 유니온 파인드를 사용하는 근본적인 목적을 상실하게 만듭니다.

3. 성능의 극대화: 경로 압축과 랭크 기반 병합 최적화

편향 트리 문제를 해결하고 유니온 파인드의 연산 속도를 상수에 가깝게 최적화하기 위해, 현업 엔지니어링 환경에서는 다음의 두 가지 고도화된 최적화 기법을 도입합니다.

3-1. 경로 압축 (Path Compression)의 마법

경로 압축은 Find 연산을 수행하는 과정에서 만나는 모든 노드의 부모 포인터를 최상위 루트 노드로 직접 갱신해 버리는 기법입니다. 단 한 번만 Find 탐색을 거치고 나면, 해당 경로에 있던 모든 하위 노드들이 루트 노드 바로 밑에 평면적으로 달라붙게 됩니다.


// C++ 기준: 경로 압축이 적용된 Find 함수
int findRoot(int x) {
    if (parent[x] == x) return x; // 자기 자신이 루트인 경우 반환
    // 재귀적으로 루트를 찾음과 동시에 parent 배열의 값을 루트로 직접 갱신
    return parent[x] = findRoot(parent[x]); 
}

이 한 줄의 최적화를 통해 다음 탐색부터는 중간 과정을 생략하고 곧바로 루트에 도달할 수 있으며, 탐색에 소요되는 시간 복잡도를 비약적으로 낮출 수 있습니다.

3-2. 랭크에 의한 병합 (Union by Rank)

Union 연산을 수행할 때 아무렇게나 부모-자식 관계를 맺는 것이 아니라, 트리의 높이(Rank) 혹은 깊이를 기준으로 병합의 방향을 결정하는 기법입니다. 항상 트리의 높이가 더 낮은 쪽을 높이가 더 높은 쪽의 루트 밑으로 자식으로 편입시킵니다. 이렇게 하면 두 트리를 합치더라도 전체 트리의 최대 높이가 증가하는 것을 최대한 방지할 수 있습니다. 경로 압축과 랭크 최적화를 모두 적용한 유니온 파인드의 최종 시간 복잡도는 애커만 함수의 역함수인 O(α(N))이 되며, 이는 사실상 상수 시간 O(1)으로 간주될 만큼 경이로운 퍼포먼스를 냅니다.

4. 실무 응용: 무방향 그래프의 사이클 판별 및 MST 구조화

유니온 파인드가 가장 눈부시게 활약하는 분야는 바로 그래프 이론입니다. 주어진 무방향 그래프에서 간선을 하나씩 추가하며 노드들을 Union으로 연결할 때, 연결하려는 두 노드가 이미 같은 최상위 부모(동일한 루트)를 공유하고 있다면, 해당 간선을 연결하는 순간 반드시 '사이클(Cycle)'이 발생한다는 것을 O(1)에 판별할 수 있습니다. 이러한 속성은 통신망 설계, 도로망 구축 등 최소 비용으로 모든 거점을 연결해야 하는 크루스칼(Kruskal) 알고리즘의 최소 신장 트리(MST)를 구현할 때 중추적인 엔진 역할을 수행하게 됩니다.

[핵심 요약: 유니온 파인드 자료구조]
1. 여러 개의 데이터 중 선택된 두 데이터가 같은 집합(그래프)에 속해 있는지 빠르게 판별하는 트리형 자료구조입니다.
2. 부모 노드를 갱신하며 루트 노드를 찾는 Find 연산과 두 집합을 하나로 합치는 Union 연산으로 구성됩니다.
3. 편향 트리에 의한 O(N) 탐색 저하를 막기 위해, 탐색 과정에서 부모 노드를 루트 노드로 꽂아버리는 '경로 압축(Path Compression)'이 필수적으로 요구됩니다.

코드 아카이브