ML Systems Labeling
대부분의 머신러닝 시스템은 비지도 학습의 가능성에도 불구하고 여전히 감독학습에 의존하고 있으며, 이는 곧 라벨 데이터의 품질과 양이 모델 성능을 직접적으로 좌우함을 의미합니다. 실무 환경에서 라벨링은 더 이상 부수적인 작업이 아니라, 모델 개발과 운영을 지속하기 위한 핵심 기능으로 자리 잡았습니다. 라벨링 전략을 어떻게 설계하느냐에 따라 실험 속도, 모델 신뢰도, 그리고 시스템 확장성이 크게 달라집니다.
Labeling의 기본 문제의식
라벨링 단계에서 다루는 핵심 질문은 다음과 같습니다.
- 라벨을 어떤 방식으로 확보할 것인가
- 라벨 품질을 어떻게 보장하고 관리할 것인가
- 라벨이 부족하거나 늦게 도착할 때 어떻게 대응할 것인가
이 질문들은 단순히 데이터 수집의 문제가 아니라, 전체 ML 시스템의 반복 주기와 리스크 관리 문제로 연결됩니다.
Hand Labels
수작업 라벨링은 가장 직관적인 방식이지만, 실무에서는 여러 근본적인 제약을 가집니다.
첫째, 비용 문제입니다. 단순한 작업은 크라우드소싱으로 비교적 저렴하게 처리할 수 있지만, 의료 영상 판독처럼 도메인 전문성이 요구되는 경우에는 고가의 전문가 인력이 필요합니다.
둘째, 프라이버시와 보안 문제입니다. 민감 데이터는 외부로 반출이 불가능하거나 제한이 크기 때문에, 라벨링 인력을 내부에 두거나 별도의 안전한 환경을 구축해야 합니다.
셋째, 속도 문제입니다. 정밀한 라벨링은 매우 느리게 진행됩니다. 예를 들어 음성 데이터를 음소 단위로 정확히 전사하는 작업은 실제 음성 길이의 수백 배에 달하는 시간이 소요될 수 있습니다. 이러한 지연은 모델 반복 주기를 느리게 만들고, 환경 변화에 대한 적응력을 떨어뜨립니다.
라벨링이 지연되면 모델 수정 역시 지연됩니다. 문제 정의가 바뀌거나 클래스 체계가 확장될 경우, 기존 데이터의 재라벨링이 필요해지고 그동안 기존 모델 성능은 점점 저하될 수 있습니다.
Label Multiplicity
실무에서는 충분한 라벨 수를 확보하기 위해 여러 출처의 데이터와 여러 라벨러를 활용하는 경우가 많습니다. 이 과정에서 라벨러 간 판단 기준과 숙련도 차이로 인해 하나의 샘플에 서로 다른 라벨이 부여되는 문제가 발생합니다. 이를 라벨 다중성 또는 라벨 모호성 문제라고 합니다.
엔티티 인식과 같은 과제에서는 엔티티 경계 설정에 따라 결과가 크게 달라질 수 있습니다. 어떤 라벨을 정답으로 삼느냐에 따라 모델의 학습 방향과 성능 특성이 달라지므로, 단순 다수결로 해결하기 어렵습니다.
라벨 다중성을 완화하기 위해서는 다음이 중요합니다.
- 문제 정의를 가능한 한 구체적으로 명시합니다.
- 모호한 경우의 처리 규칙을 사전에 정합니다.
- 이러한 정의와 규칙을 라벨러 교육과 가이드라인에 반영합니다.
Data Lineage
여러 출처에서 수집되고, 서로 다른 기준으로 라벨링된 데이터를 무분별하게 섞으면 모델 성능 저하의 원인을 추적하기 어려워집니다. 예를 들어 기존 고품질 라벨 데이터에 대량의 저품질 라벨 데이터를 추가했을 때, 모델 성능이 오히려 악화되는 상황이 발생할 수 있습니다.
이를 방지하기 위해 데이터 계보(data lineage)를 관리하는 것이 중요합니다. 데이터 계보란 각 샘플과 라벨이 어디에서, 언제, 어떤 기준과 도구로 생성되었는지를 추적 가능한 형태로 기록하는 것을 의미합니다.
Natural Labels
수작업 라벨링만이 라벨의 유일한 원천은 아닙니다. 어떤 과제에서는 시스템 자체가 라벨을 자연스럽게 생성할 수 있습니다. 이를 자연 라벨이라고 합니다.
추천 시스템에서는 사용자의 클릭, 구매, 반응이 라벨 역할을 합니다. 이러한 라벨은 사용자 행동에서 유도되므로 행동 라벨이라고도 부릅니다.
Feedback Loop Length
자연 라벨이 생성되기까지 걸리는 시간을 피드백 루프 길이라고 합니다. 추천 시스템처럼 클릭 기반 피드백은 분 단위로 빠른 반면, 의류 추천이나 사기 탐지처럼 결과 확인이 지연되는 과제는 수 주에서 수 개월이 걸릴 수 있습니다.
피드백 루프 길이는 다음과 같은 트레이드오프를 만듭니다.
- 짧은 루프는 빠른 문제 감지와 모델 수정이 가능합니다.
- 긴 루프는 더 정확한 라벨을 제공하지만, 문제를 늦게 발견할 위험이 있습니다.
Handling the Lack of Labels
라벨 확보의 어려움 때문에 다음과 같은 네 가지 접근이 널리 사용됩니다.
- 약지도(weak supervision)
- 준지도(semi-supervision)
- 전이학습(transfer learning)
- 능동학습(active learning)
Weak Supervision
약지도는 도메인 지식을 휴리스틱으로 표현해 라벨을 생성하는 접근입니다. 라벨링 함수(labeling function)는 다음과 같이 표현할 수 있습니다.
\[\hat{y} = \arg\max_y \; p(y \mid \lambda_1(x), \dots, \lambda_K(x))\]Semi-supervision
준지도 학습은 소량의 초기 라벨과 데이터의 구조적 가정을 활용해 라벨을 확장하는 방식입니다. 자기 학습에서는 다음 조건을 만족하는 샘플을 추가합니다.
\[\max_y p_\theta(y \mid x) \ge \tau\]Transfer Learning
전이학습은 사전학습된 모델을 새로운 과제에 활용하는 방법입니다. 파인튜닝은 다음과 같이 표현할 수 있습니다.
\[\theta^* = \arg\min_\theta \sum_{(x,y)} \ell(f_\theta(x), y)\]Active Learning
능동학습에서는 불확실성이 높은 샘플을 우선 라벨링합니다. 분류 문제에서 불확실성은 엔트로피로 표현할 수 있습니다.
\[H(p(y\mid x)) = -\sum_y p(y\mid x)\log p(y\mid x)\]맺음말
라벨링은 머신러닝 시스템의 반복 주기와 신뢰성을 좌우하는 핵심 설계 요소입니다. 수작업 라벨의 한계를 인식하고, 자연 라벨과 다양한 라벨 효율화 기법을 적절히 결합하는 것이 중요합니다.