Post

XAI Local Explanation Methods

XAI Local Explanation Methods

딥러닝 기반 예측 모델은 높은 성능을 보이지만, 왜 그런 예측을 했는지 설명하기 어렵다는 한계를 가집니다. 설명가능 인공지능, 즉 XAI는 이러한 불투명성을 줄이고 모델의 예측 근거를 사람이 이해할 수 있는 형태로 제공하는 것을 목표로 합니다. 그중 Local Explanation Methods는 특정 입력 하나에 대한 개별 예측을 설명하는 방법에 해당합니다. Local Explanation의 개념과 입력 기여도 기반 설명의 핵심을 정리하고, 모델 독립적 방법인 LIME과 SHAP, 모델 특화 방법인 LRP와 Integrated Gradients를 수식과 함께 상세히 설명합니다.

Local Explanation Methods

Local Explanation은 하나의 입력 \(x\)에 대해 모델 \(f\)가 출력 \(f(x)\)를 생성한 이유를 설명하는 방법입니다. Global Explanation이 모델의 전체적 동작이나 평균적 경향을 설명하는 것이라면, Local Explanation은 개별 사례에 대한 근거를 제시하는 것에 초점을 둡니다. 예를 들어 이미지 분류에서 모델이 특정 이미지를 고양이로 분류한 경우, Local Explanation은 왜 이 이미지가 고양이라고 판단되었는지, 즉 귀나 수염과 같은 특징이 어떤 방식으로 기여했는지를 보여주는 방식으로 구성됩니다.

Local Explanation의 대표적 형태는 입력 기여도 기반 설명입니다. 입력 기여도 기반 설명은 입력 특성 \(x_1,\dots,x_n\) 각각에 대해 기여도 점수 \(\phi_1,\dots,\phi_n\)를 계산하고, 이를 통해 어떤 특성이 예측에 긍정적 또는 부정적으로 작용했는지 정량화합니다. 이때 설명은 보통 다음과 같은 형태를 지향합니다.

  • 각 특성의 기여도가 예측값에 더해지거나 빼지는 형태로 해석될 수 있어야 합니다.
  • 한 입력에 대한 설명이므로 국소적 근사나 국소적 분해가 핵심이 됩니다.
  • 설명 모델은 사람이 이해할 수 있을 정도로 단순하거나 시각적으로 해석 가능해야 합니다.

강의에서는 Local Explanation Methods를 크게 두 가지로 구분합니다. 모델 독립적 방법은 어떤 모델에도 적용 가능한 방식이며, 모델 특화 방법은 특정 모델 구조나 그래디언트 계산 가능성에 의존하는 방식입니다.

Model-Agnostic Approaches

LIME

LIME는 Local Interpretable Model-Agnostic Explanations의 약자이며, 블랙박스 모델을 대상으로 국소적으로 해석 가능한 모델을 학습하여 설명을 생성합니다. LIME의 핵심 아이디어는 “관심 입력 \(x\) 주변의 작은 영역에서는 복잡한 모델 \(f\)를 단순 모델 \(g\)로 근사할 수 있다”는 가정입니다.

LIME에서 설명 모델 \(g\)는 사람이 이해 가능한 형태로 선택됩니다. 대표적으로 선형 모델이나 결정트리가 사용됩니다. 선형 모델을 사용할 때는 다음과 같이 설명을 구성합니다.

\[g(x) = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n\]

여기서 \(w_i\)는 특성 \(x_i\)가 예측에 미치는 영향의 크기와 방향을 나타내는 계수로 해석됩니다. 즉, LIME의 결과는 국소 선형 근사에서의 계수 \(w_i\)를 통해 입력 기여도를 제공하는 방식으로 이해됩니다.

LIME는 수학적으로 다음 최적화 문제를 푸는 방식으로 제시됩니다.

\[\arg\min_{g \in G} \; \mathcal{L}(f, g, \pi_x) + \Omega(g)\]
  • \(G\)는 해석 가능한 후보 모델의 집합을 의미합니다.
  • \(\mathcal{L}(f, g, \pi_x)\)는 원래 모델 \(f\)와 설명 모델 \(g\)의 예측 차이를 측정하는 손실 함수이며, 입력 \(x\) 주변 샘플에 더 큰 가중치를 주기 위해 \(\pi_x\)가 포함됩니다.
  • \(\pi_x\)는 관심 입력 \(x\)와의 근접도를 반영하는 가중치 함수이며, 일반적으로 거리가 가까울수록 큰 값을 가지도록 설계됩니다.
  • \(\Omega(g)\)는 모델 복잡도에 대한 패널티로, 설명이 단순해지도록 유도합니다.

LIME의 절차는 다음 흐름으로 정리됩니다.

  1. 설명 대상 입력 \(x\)를 선택합니다.
  2. \(x\)를 기준으로 입력을 교란하여 근처 샘플 \(\tilde{x}\)들을 생성합니다.
  3. 각 \(\tilde{x}\)에 대해 블랙박스 모델의 예측 \(f(\tilde{x})\)를 계산합니다.
  4. 각 \(\tilde{x}\)에 대해 근접도 기반 가중치 \(\pi_x(\tilde{x})\)를 부여합니다.
  5. 가중치가 반영된 데이터셋에 대해 해석 가능한 모델 \(g\)를 학습합니다.
  6. 학습된 \(g\)의 파라미터 또는 구조를 설명으로 제시합니다.

텍스트 분류에서는 문장의 일부 토큰을 제거하거나 유지하여 교란 샘플을 만들고, 각 샘플의 스팸 확률을 얻은 뒤, 토큰 제거 비율에 따라 가중치를 부여하며, 최종적으로 특정 단어가 스팸 예측에 크게 기여했음을 계수 형태로 보여줍니다. 이 과정은 “교란 생성–예측 수집–가중치 부여–해석 가능한 모델 학습”이라는 LIME의 핵심 흐름을 직관적으로 보여줍니다.

LIME의 장점과 한계는 다음과 같이 정리됩니다.

  • 장점으로는 모델에 독립적이므로 어떤 모델에도 적용 가능하다는 점이 있습니다.
  • 장점으로는 사용 방법이 비교적 직관적이며 결과 해석이 쉬운 편이라는 점이 있습니다.
  • 한계로는 근접도 함수 \(\pi_x\)를 어떻게 정하느냐에 따라 결과가 달라질 수 있다는 점이 있습니다.
  • 한계로는 교란 과정에서 현실적으로 발생하기 어려운 비자연스러운 샘플이 생성될 수 있다는 점이 있습니다.

SHAP

SHAP는 SHapley Additive exPlanations의 약자이며, 협력 게임 이론에서의 Shapley value를 설명가능성에 적용한 방법입니다. Shapley value는 여러 참여자가 함께 만든 총 보상에 대해 각 참여자의 기여도를 공정하게 분배하는 방식입니다. SHAP는 이를 “특성들이 협력하여 모델 출력이라는 보상을 만든다”는 관점으로 옮겨옵니다.

SHAP가 강조하는 공정성은 네 가지 공리로 정리됩니다.

  • 선형성 공리는 게임이 선형 결합될 때 기여도도 선형 결합된다는 성질입니다.
  • 무기여 특성 공리는 출력에 영향을 주지 않는 특성은 기여도가 0이 된다는 성질입니다.
  • 대칭성 공리는 동일하게 기여하는 두 특성은 동일한 값을 가져야 한다는 성질입니다.
  • 효율성 공리는 모든 특성의 기여도를 합하면 총 보상, 즉 모델 출력 변화량을 설명해야 한다는 성질입니다.

Shapley value의 수식은 다음과 같이 주어집니다.

\[\phi_i(v) = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} \left[ v(S \cup \{i\}) - v(S) \right]\]
  • \(N\)은 전체 특성 집합입니다.
  • \(S\)는 특성 부분집합입니다.
  • \(v(S)\)는 부분집합 \(S\)만을 사용할 때의 모델 출력 또는 보상을 의미합니다.
  • \(v(S \cup \{i\}) - v(S)\)는 특성 \(i\)의 한계 기여도, 즉 marginal contribution입니다.
  • 가중치 항은 부분집합 크기에 따라 공정하게 평균을 내기 위한 조합론적 계수입니다.

강의에서는 한계 기여도가 다른 특성들이 포함되어 있는지에 따라 달라질 수 있다는 점을 사례로 보여주고, 그래서 모든 가능한 부분집합에 대해 평균을 내야 공정한 기여도가 된다는 점을 강조합니다.

다만 Shapley value를 머신러닝에 적용할 때는 두 가지 실용적 문제가 발생합니다.

  1. 모든 부분집합을 고려해야 하므로 계산량이 지수적으로 증가하여 계산이 사실상 불가능해집니다.
  2. 일부 특성이 없는 상태에서의 모델 출력 \(v(S)\)를 어떻게 정의할지 문제가 됩니다. 일반적인 모델은 입력 차원이 고정되어 있으므로, 특성이 빠진 입력을 그대로 넣을 수 없기 때문입니다.

SHAP는 이 문제를 다음과 같이 다룹니다.

  • 첫째, 정확 계산 대신 근사 기법을 사용합니다. 강의에서는 KernelSHAP을 “선형 LIME의 목적 함수와 Shapley value를 연결한 근사”로 소개합니다.
  • 둘째, 특성이 없는 경우의 출력을 조건부 기댓값 또는 주변 기댓값으로 정의합니다. 예를 들어 \(x_3\)가 없다고 가정할 때, 다음과 같이 정의할 수 있습니다.
\[f_h(x_1, x_2, \text{absent}) = \mathbb{E}[f(x_1, x_2, X_3)\mid x_1, x_2]\]

이와 같은 방식으로 “없는 특성은 데이터 분포에 따라 적절히 평균내어 대체한다”는 해석을 적용합니다.

SHAP는 설명 모델을 가법 형태로 제시합니다.

\[g(z') = \phi_0 + \sum_{i=1}^{n} \phi_i z'_i\]

여기서 \(z'_i\)는 특성 \(i\)가 존재하면 1, 없으면 0인 단순화된 입력 표현입니다. SHAP 결과는 평균 출력 대비 각 특성이 얼마나 출력에 더하거나 빼는지를 시각적으로 보여주는 방식으로 제시되는 경우가 많습니다.

강의에서 제시된 SHAP의 장점과 한계는 다음과 같습니다.

  • 장점으로는 공리 기반의 탄탄한 이론적 기반을 가진다는 점이 있습니다.
  • 장점으로는 LIME과 Shapley value의 연결을 제공한다는 점이 있습니다.
  • 한계로는 KernelSHAP이 느릴 수 있다는 점이 있습니다.
  • 한계로는 KernelSHAP이 특성 간 의존성을 무시할 수 있다는 점이 있습니다.

Model-Specific Approaches

Layer-wise Relevance Propagation

LRP는 딥러닝 신경망의 구조를 활용하여 출력 값을 입력 방향으로 relevance score 형태로 분해하는 방법입니다. 핵심은 출력 뉴런에서의 점수를 시작으로, 네트워크를 거꾸로 따라가면서 relevance를 각 뉴런에 재분배하는 것입니다. 여기서 relevance score는 각 뉴런이 최종 출력에 기여한 정도로 해석됩니다.

LRP는 다음 보존 성질을 중요하게 다룹니다.

\[\sum_j R_j = \sum_k R_k\]

한 층에서의 relevance 합은 이전 층과 동일하게 유지되며, 최종적으로 입력 특성 수준의 relevance 합이 출력과 연결되도록 설계됩니다.

강의에서는 여러 재분배 규칙 중 다음 세 가지를 중심으로 소개합니다.

  • Basic Rule인 LRP-0입니다.
  • 안정화를 위한 Epsilon Rule인 LRP-ε입니다.
  • 양의 기여를 강조하는 Gamma Rule인 LRP-γ입니다.

LRP-0의 기본 규칙은 순전파에서의 기여 비율에 따라 \(k\)에서 \(j\)로 relevance를 나누는 방식입니다.

\[R_j = \sum_k R_{j \leftarrow k}\] \[R_{j \leftarrow k} = \frac{a_j w_{jk}}{\sum_{j'} a_{j'} w_{j'k}} R_k\]

여기서 \(a_j\)는 순전파에서의 활성값이며, \(w_{jk}\)는 연결 가중치입니다. 이는 “\(j\)가 \(k\)를 만들 때 얼마나 기여했는가”에 비례하여 \(R_k\)를 분배하는 방식입니다.

LRP-ε는 분모에 작은 양수 \(\epsilon\)을 더해 불안정한 분배를 완화합니다.

\[R_{j \leftarrow k} = \frac{a_j w_{jk}}{\epsilon + \sum_{j'} a_{j'} w_{j'k}} R_k\]

\(\epsilon\)이 커질수록 작은 기여는 상대적으로 사라지고 중요한 요인만 남게 되어 설명이 덜 노이즈해지는 경향이 있습니다.

LRP-γ는 양의 기여를 강조하기 위해 양의 가중치 \(w^+_{jk} = \max(w_{jk},0)\)를 활용합니다.

\[R_{j \leftarrow k} = \frac{a_j (w_{jk} + \gamma w_{jk}^+)} {\epsilon + \sum_{j'} a_{j'} (w_{j'k} + \gamma w_{j'k}^+)} R_k\]

이 규칙은 양의 기여를 더 강조하여 설명이 더 조밀해지는 경향이 있으나, 경우에 따라 관련 없는 부분이 강조될 수 있음을 강의에서 함께 언급합니다.

LRP의 장점과 한계는 다음과 같이 정리됩니다.

  • 장점으로는 신경망 구조를 직접 활용한다는 점이 있습니다.
  • 장점으로는 계산적으로 효율적일 수 있다는 점이 있습니다.
  • 한계로는 재분배 규칙 선택에 따라 결과가 민감하게 달라진다는 점이 있습니다.
  • 한계로는 LRP-0은 노이즈가 많을 수 있고, LRP-ε는 너무 희소해 이해가 어려울 수 있으며, LRP-γ는 관련 없는 영역을 강조할 수 있다는 점이 있습니다.

Integrated Gradients

Integrated Gradients는 그래디언트 기반 기여도가 만족해야 할 두 공리를 바탕으로 제안된 방법입니다. 강의에서 소개된 두 공리는 다음과 같습니다.

  • 민감성 공리입니다. 한 특성만 바꾸었을 때 출력이 변하면 해당 특성의 기여도는 0이 아니어야 합니다.
  • 구현 불변성 공리입니다. 구현은 달라도 입력에 대한 출력이 동일한 두 네트워크라면 기여도도 동일해야 합니다.

단순 그래디언트 기반 기여도는 특정 입력에서 그래디언트가 0이 되는 경우 민감성 공리를 위반할 수 있습니다. 또한 일부 규칙 기반 방법은 동일 함수라도 구현이 다르면 다른 기여도를 만들 수 있어 구현 불변성을 위반할 수 있음을 강의에서 언급합니다.

IG는 이를 해결하기 위해 baseline \(x'\)에서 입력 \(x\)까지의 경로를 따라 그래디언트를 누적합니다. 강의에서는 baseline을 “정보의 부재”로 해석하며, 입력으로 이동하는 과정에서 기여도를 적분하여 누적 효과를 계산한다고 설명합니다.

특성 \(i\)에 대한 IG는 다음과 같이 정의됩니다.

\[\mathrm{IG}_i(x) = (x_i - x'_i) \int_{0}^{1} \frac{\partial f(x' + \alpha (x - x'))}{\partial x_i} \, d\alpha\]
  • \(x'\)는 baseline입니다.
  • \(\alpha\)는 \(0\)에서 \(1\)까지 변화하며 baseline에서 입력으로 이동하는 경로를 나타냅니다.
  • 적분 항은 경로상의 각 지점에서의 국소 그래디언트를 누적한 값입니다.

이 정의는 “baseline에서 입력이 만들어지는 과정에 각 특성이 얼마나 기여했는지”를 나타내는 누적 기여도라고 해석할 수 있습니다.

IG는 구현 불변성을 만족합니다. 이를 그래디언트의 연쇄 법칙, chain rule에 의해 동일 함수에 대해 동일한 기여도가 산출된다는 관점으로 설명합니다.

IG의 장점과 한계는 다음과 같습니다.

  • 장점으로는 민감성 공리와 구현 불변성 공리를 만족한다는 점이 있습니다.
  • 장점으로는 그래디언트를 계산할 수 있는 모델 전반에 적용 가능하다는 점이 있습니다.
  • 한계로는 그래디언트가 노이즈할 수 있다는 점이 있습니다.
  • 한계로는 baseline 선택과 경로 선택 같은 하이퍼파라미터에 민감하다는 점이 있습니다.
  • baseline으로 0 벡터, 평균 입력, 블러 처리된 이미지 등을 예로 들 수 있고, 경로로는 직선 경로 또는 축 평행 경로 등을 예로 들 수 있습니다.

맺음말

Local Explanation Methods는 개별 예측의 근거를 제공하여 모델 신뢰성과 투명성을 높이는 데 중요한 역할을 합니다. LIME은 국소 근사를 통해 직관적 설명을 제공하지만 근접도 정의와 교란 샘플의 자연성에 민감합니다. SHAP는 공리 기반의 공정한 기여도라는 강력한 이론적 기반을 제공하지만 계산 비용과 특성 의존성 문제가 존재합니다. LRP는 신경망 구조를 활용하여 효율적으로 relevance를 역전파할 수 있으나 규칙 선택에 따라 결과가 크게 달라질 수 있습니다. Integrated Gradients는 공리 기반 요구사항을 만족하는 누적 그래디언트 방식이지만 baseline과 경로 선택에 민감합니다. 실제 적용에서는 모델 유형, 데이터 특성, 설명 목적에 따라 적절한 방법을 선택하고, 설명의 안정성과 일관성을 함께 검토하는 것이 필요합니다.

This post is licensed under CC BY 4.0 by the author.