XAI Global Explanation Methods

Posted Nov 10, 2025 Updated Dec 16, 2025

By Hoon

15 min read

Global Explanation Methods는 개별 입력 하나의 예측 근거를 설명하는 Local Explanation과 달리, 모델 전체가 어떤 규칙과 패턴을 학습했는지를 설명하는 방법입니다. 이러한 방법은 모델의 평균적인 동작과 전반적인 의사결정 구조를 이해하는 데 목적이 있습니다. Global Explanation은 모델 디버깅, 편향 탐지, 정책적 의사결정 지원 등에서 중요한 역할을 하며, 특히 모델이 전체 데이터 분포에 대해 어떤 행동을 하는지 파악하는 데 적합합니다.

Global Explanation

Global Explanation에서 ‘global’이라는 의미는 개별 샘플이 아니라 전체 데이터셋 또는 입력 공간 전반에 걸친 평균적 또는 구조적 특성을 설명한다는 뜻입니다. 모델이 특정 특성에 대해 전반적으로 어떤 반응을 보이는지, 어떤 개념을 중요하게 사용하고 있는지를 분석합니다.

이를 통해 다음과 같은 질문에 답할 수 있습니다.

모델은 어떤 입력 특성을 중요하게 사용하고 있는가
특정 특성이 증가하거나 감소할 때 예측은 전반적으로 어떻게 변하는가
신경망의 각 층이나 유닛은 어떤 개념을 담당하고 있는가
데이터 분포를 대표하는 전형적인 사례는 무엇인가

Global Explanation Methods는 크게 모델 독립적 방법, 개념 기반 방법, 프로토타입 기반 방법으로 설명됩니다.

Model-Agnostic Global Explanation

모델 독립적 방법은 특정 모델 구조에 의존하지 않고, 어떤 예측 모델에도 동일한 방식으로 적용할 수 있는 설명 방법입니다. 이러한 방법은 서로 다른 모델 간 비교가 가능하다는 장점을 가집니다.

Partial Dependence Plot

Partial Dependence Plot은 특정 입력 특성이 모델 예측에 미치는 평균적 영향을 시각화하는 방법입니다. 하나의 특성 또는 소수의 특성을 선택한 뒤, 나머지 특성들은 데이터 분포에 대해 평균을 취함으로써 관심 특성과 예측값 간의 관계를 분석합니다.

모델을 $f(\mathbf{x})$라 하고, 관심 특성을 $x_S$, 나머지 특성을 $x_C$라고 하면, 부분 의존 함수는 다음과 같이 정의됩니다.

\[f_S(x_S) = \mathbb{E}_{x_C}[f(x_S, x_C)]\]

이는 특정 $x_S$ 값이 주어졌을 때, 다른 특성들이 데이터 분포를 따른다고 가정하고 평균적인 예측값을 계산하는 방식입니다.

실제로는 $x_C$의 분포를 정확히 알기 어렵기 때문에, 데이터셋에 포함된 표본을 이용한 몬테카를로 근사를 사용합니다. 데이터셋 크기를 $n$이라 하면 다음과 같이 근사됩니다.

\[\hat{f}_S(x_S) = \frac{1}{n} \sum_{i=1}^{n} f(x_S, x_C^{(i)})\]

PDP는 구현이 직관적이고 해석이 쉬우며, 특성과 예측 간의 전반적인 관계를 이해하는 데 유용합니다. 그러나 입력 특성들 간 상관관계가 강한 경우, 현실적으로 발생하지 않는 조합을 포함하게 되어 왜곡된 해석을 유도할 수 있다는 한계가 있습니다.

Accumulated Local Effects

Accumulated Local Effects는 PDP의 한계를 보완하기 위해 제안된 방법입니다. ALE는 특성 간 상관관계를 고려하여, 실제 데이터가 존재하는 구간 내에서만 예측 변화량을 계산합니다.

ALE는 관심 특성 $x_S$의 값을 여러 구간으로 나눈 뒤, 각 구간 내에서 $x_S$가 조금 변할 때 예측이 얼마나 변하는지를 측정하고 이를 누적합니다. 즉, 절대적인 예측값이 아니라 국소적인 변화량을 평균내어 누적하는 방식입니다.

구간 $[z_{k-1}, z_k]$에서의 국소 효과는 다음과 같이 정의됩니다.

\[\hat{f}_{S,k} = \frac{1}{|D_k|} \sum_{x^{(i)} \in D_k} \left[ f(z_k, x_C^{(i)}) - f(z_{k-1}, x_C^{(i)}) \right]\]

여기서 $D_k$는 $x_S$가 해당 구간에 속하는 데이터 포인트 집합입니다. 최종 ALE 값은 이 국소 효과들을 누적하여 계산됩니다.

ALE의 장점은 실제 데이터 분포를 벗어난 입력 조합을 사용하지 않는다는 점이며, 특성 간 상관관계를 보다 잘 반영할 수 있다는 점입니다. 이로 인해 PDP보다 안정적인 전역 해석을 제공하는 경우가 많습니다.

Concept-Based Global Explanation

개념 기반 설명은 모델이 단순한 입력 특성이 아니라 사람이 이해할 수 있는 개념 수준의 정보를 어떻게 활용하는지를 분석하는 방법입니다. 여기서 개념이란 색상, 질감, 패턴, 형태와 같이 인간의 직관과 일치하는 중간 수준 표현을 의미합니다.

Network Dissection

Network Dissection은 신경망의 각 유닛이 어떤 시각적 개념을 담당하고 있는지를 정량적으로 분석하는 방법입니다. 이를 위해 미리 정의된 개념 레이블을 포함한 데이터셋을 사용합니다.

절차는 다음과 같은 흐름으로 이루어집니다.

먼저 색상, 재질, 물체, 부위 등 다양한 수준의 개념을 포함한 데이터셋을 준비합니다. 각 이미지에는 개념별 이진 마스크가 제공됩니다. 이후 분석 대상 신경망에 해당 이미지를 입력하고, 특정 유닛의 활성화 맵을 추출합니다. 이 활성화 맵을 입력 해상도로 업샘플링한 뒤 임계값을 적용하여 이진 마스크로 변환합니다.

그 다음, 활성화 마스크와 개념 마스크 간의 IoU를 계산합니다.

\[\mathrm{IoU} = \frac{|A \cap C|}{|A \cup C|}\]

IoU 값이 높을수록 해당 유닛은 특정 개념을 감지하는 역할을 수행한다고 해석합니다. 이를 통해 하위 층은 색상이나 텍스처와 같은 저수준 개념을, 상위 층은 물체나 장면과 같은 고수준 개념을 담당함을 확인할 수 있습니다.

TCAV

TCAV는 개념이 특정 클래스 예측에 얼마나 중요한지를 정량적으로 평가하는 방법입니다. 핵심 아이디어는 개념을 하나의 방향 벡터로 표현하고, 그 방향으로 내부 표현을 변화시켰을 때 출력이 얼마나 변하는지를 측정하는 것입니다.

먼저 특정 개념에 해당하는 양성 이미지 집합과 음성 이미지 집합을 준비합니다. 이후 신경망의 특정 층에서 추출한 활성값을 이용하여 두 집합을 구분하는 이진 분류기를 학습합니다. 이때 분류 경계에 수직인 벡터를 Concept Activation Vector로 정의합니다.

개념의 중요도는 로그잇 출력 $f_k$에 대한 개념 방향 미분으로 측정됩니다.

\[\frac{\partial f_k}{\partial v_c}\]

이 값이 양수인 비율을 TCAV 점수로 정의하며, 이는 해당 개념이 클래스 $k$ 예측에 긍정적으로 기여하는 정도를 의미합니다. TCAV는 어떤 개념이 중요한지뿐 아니라, 그 개념 정보가 주로 어느 층에 존재하는지도 함께 분석할 수 있습니다.

Prototype-Based Global Explanation

프로토타입 기반 설명은 전체 데이터 분포를 대표하는 소수의 사례를 통해 모델의 판단 근거를 설명하는 방법입니다. 프로토타입은 다수의 데이터 인스턴스를 요약하는 대표 사례로 이해됩니다.

Maximum Mean Discrepancy 기반 프로토타입 선택

좋은 프로토타입은 원본 데이터 분포를 잘 반영해야 합니다. 이를 평가하기 위해 Maximum Mean Discrepancy가 사용됩니다. MMD는 두 분포 $X$와 $Y$ 간 차이를 함수 공간에서 측정하는 지표입니다.

\[\mathrm{MMD}^2(X,Y) = \left\| \mathbb{E}_{x \sim X}[\phi(x)] \\- \mathbb{E}_{y \sim Y}[\phi(y)] \right\|^2\]

여기서 $\phi(\cdot)$는 커널에 의해 정의된 특징 공간으로의 매핑입니다. 프로토타입 집합 $Y$는 원본 데이터 $X$와의 MMD를 최소화하도록 선택됩니다.

생성 기반 프로토타입 학습

선택이 아닌 생성 방식으로 프로토타입을 학습하는 접근도 제안되었습니다. 이 방법에서는 인코더를 통해 입력 $x$를 잠재 표현 $z=f(x)$로 변환하고, 여러 개의 프로토타입 벡터 $p_i$를 함께 학습합니다.

분류기는 입력과 프로토타입 간 거리

\[\|z - p_i\|_2^2\]

를 기반으로 예측을 수행합니다. 학습 과정에서는 다음과 같은 손실 항이 결합됩니다.

분류 손실로서의 크로스 엔트로피 항
각 프로토타입이 실제 데이터와 가깝도록 유도하는 정규화 항
각 데이터가 적어도 하나의 프로토타입과 가깝도록 하는 클러스터링 항
오토인코더 기반 재구성 손실

이를 통해 프로토타입은 단순한 평균이 아니라, 분류에 유의미한 대표 사례로 학습됩니다.

이후 발전된 ProtoPNet에서는 패치 단위의 프로토타입을 사용하여, “이 입력은 이 프로토타입 패치와 유사하기 때문에 해당 클래스로 분류되었다”는 형태의 직관적인 설명을 제공합니다.

맺음말

Global Explanation Methods는 모델의 전체적 행동을 이해하고 신뢰성을 평가하는 데 필수적인 도구입니다. PDP와 ALE는 특성과 예측 간 평균적 관계를 분석하는 데 유용하며, 개념 기반 방법은 신경망이 학습한 의미적 표현을 드러냅니다. 프로토타입 기반 방법은 데이터 분포를 대표하는 사례를 통해 설명을 제공함으로써 인간 친화적인 해석을 가능하게 합니다. 이러한 방법들은 단독으로 사용되기보다는, Local Explanation과 함께 사용될 때 모델 이해도를 더욱 높일 수 있습니다.

xai

This post is licensed under CC BY 4.0 by the author.