XAI Language Models
대규모 언어 모델은 수십억 개 이상의 파라미터를 가지며, 뛰어난 성능을 보이는 동시에 심각한 블랙박스 문제를 내포하고 있습니다. 언어 모델은 자연스럽고 설득력 있는 문장을 생성하지만, 왜 그러한 출력을 생성했는지에 대한 근거를 명확히 제시하지 않는 경우가 많습니다. 이로 인해 환각 현상, 편향된 판단, 위험한 추론 과정이 발생할 수 있으며, 이러한 문제를 탐지하고 통제하기 위해 XAI는 필수적인 요소로 자리 잡고 있습니다. 언어 모델에서 XAI가 왜 필요한지를 출발점으로 삼아, 어텐션 기반 설명, 교란 및 그래디언트 기반 설명, 그리고 프롬프팅 기반 설명 기법을 수식과 함께 체계적으로 정리합니다.
언어 모델에서 XAI의 필요성
언어 모델에서 XAI가 요구되는 이유는 크게 신뢰성, 안전성, 디버깅 측면에서 설명됩니다. 신뢰성 측면에서는 모델이 생성한 텍스트를 얼마나 신뢰할 수 있는지가 핵심이며, 특히 사실과 다른 내용을 그럴듯하게 생성하는 환각 문제를 설명을 통해 점검할 필요가 있습니다. 안전성과 정렬 측면에서는 모델이 특정 결론에 도달하는 과정에서 편향되거나 유해한 논리를 사용했는지를 검출해야 합니다. 디버깅 관점에서는 특정 프롬프트에 대해 모델이 실패한 원인을 파악함으로써 모델 개선으로 이어질 수 있습니다. 이러한 요구는 개발자뿐 아니라 최종 사용자에게도 설명 제공이 필요함을 의미합니다.
Attention as Explanation의 한계와 문제의식
Transformer 기반 언어 모델에서 어텐션은 가장 직관적인 설명 도구로 받아들여져 왔습니다. “토큰 A가 토큰 B에 어텐션을 준다”는 표현은 인간에게 매우 직관적으로 이해됩니다. 그러나 어텐션이 실제로 정보 흐름이나 중요도를 반영하는지에 대해서는 엄밀한 검증이 필요합니다.
Raw attention map은 특정 레이어에서 쿼리 토큰이 어떤 키 토큰에 얼마나 주의를 기울였는지를 나타냅니다. 수식적으로 어텐션은 다음과 같이 정의됩니다.
\[\mathrm{Attn}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)V\]여기서 문제는 어텐션 가중치가 출력에 대한 입력 토큰의 기여도를 직접적으로 나타내지 않는다는 점입니다. 레이어 \(L\)에서의 키 벡터는 이미 이전 레이어들에서 여러 토큰의 정보가 혼합된 결과이기 때문에, 단일 레이어의 어텐션만으로 입력 토큰의 영향력을 해석하는 것은 불충분합니다.
어텐션 설명을 위한 두 가지 핵심 개선
어텐션 기반 설명을 개선하기 위해 두 가지 핵심 아이디어를 제시합니다. 첫째는 잔차 연결을 고려하는 것입니다. Transformer에서는 어텐션 출력 외에도 잔차 연결을 통해 자기 자신의 정보가 다음 레이어로 전달됩니다. 이는 암묵적인 self-attention으로 해석될 수 있으며, 이를 반영하기 위해 다음과 같이 어텐션 행렬을 수정합니다.
\[\tilde{A} = \alpha A + (1 - \alpha) I\]여기서 \(I\)는 항등 행렬이며, \(\alpha\)는 어텐션과 잔차 연결의 비중을 조절하는 계수입니다.
둘째는 레이어가 깊어질수록 정보가 혼합되므로, 이전 레이어의 정보를 재귀적으로 집계해야 한다는 점입니다. 이 아이디어를 구현한 대표적인 방법이 Attention Rollout과 Attention Flow입니다.
Attention Rollout
Attention Rollout은 어텐션 가중치를 정보 비율로 해석하고, 레이어 간 어텐션을 행렬 곱으로 누적하는 방식입니다. 이는 이산 마르코프 체인에서 전이 확률 행렬을 연속적으로 곱하는 것과 유사한 해석을 가집니다.
레이어 \(L\)에서의 누적 어텐션은 다음과 같이 계산됩니다.
\[\tilde{A}^{(L)} = A^{(L)} \times \tilde{A}^{(L-1)}\]이 방식은 구현이 단순하고 직관적이라는 장점이 있습니다. 그러나 행렬 곱이 반복되면서 값이 소실되거나, 반대로 특정 경로의 노이즈가 과도하게 증폭될 수 있다는 문제가 존재합니다.
Attention Flow
Attention Flow는 어텐션을 정보 비율이 아니라 정보 흐름의 용량으로 해석합니다. 이 접근에서는 토큰을 노드로, 어텐션 가중치를 간선의 용량으로 간주하고, 입력 토큰에서 출력 토큰까지의 최대 유량 문제로 모델링합니다.
이 방식은 병목 현상을 자연스럽게 고려할 수 있으며, Rollout 방식에서 발생하는 과대 추정 문제를 완화합니다. 결과적으로 Attention Flow는 더 희소하고 보수적인 설명을 제공하며, 실제로 중요한 토큰을 더 명확하게 구분하는 경향을 보입니다.
실험 결과에서도 Raw Attention은 레이어가 깊어질수록 균등 분포에 가까워지는 반면, Rollout과 Flow는 주어, 핵심 개체 등 결정적인 토큰에 집중된 패턴을 유지함을 확인할 수 있습니다.
교란 및 그래디언트 기반 설명 기법의 텍스트 적용
언어 모델에서도 이미지 도메인에서 사용되던 교란 기반 및 그래디언트 기반 설명 기법이 적용될 수 있습니다.
LIME은 입력 문장을 구성하는 토큰을 제거하거나 유지하는 방식으로 교란 샘플을 생성하고, 각 교란 문장에 대한 예측을 통해 국소적으로 해석 가능한 모델을 학습합니다. 그러나 텍스트는 순서와 문맥에 강하게 의존하므로, 단순한 토큰 제거는 문법을 붕괴시키고 분포 밖 샘플을 생성하는 문제가 발생합니다. 이는 토큰 간 상호작용을 제대로 반영하지 못하는 근본적 한계로 이어집니다.
Integrated Gradients는 이러한 문제를 일부 완화합니다. IG는 임베딩 공간에서 baseline에서 입력까지의 경로를 따라 그래디언트를 적분함으로써 기여도를 계산합니다.
특성 \(i\)에 대한 IG는 다음과 같이 정의됩니다.
\[\mathrm{IG}_i(x) = (x_i - x'_i) \int_0^1 \frac{\partial f(x' + \alpha (x - x'))}{\partial x_i} \, d\alpha\]텍스트에서 baseline을 정의하는 것은 이미지보다 어렵지만, 패딩 토큰 임베딩이나 영벡터 임베딩을 사용하는 방식이 제안됩니다. IG는 토큰 존재 여부가 아닌 임베딩 연산을 기반으로 하므로, 문맥 정보를 비교적 잘 유지한다는 장점이 있습니다.
프롬프팅 기반 XAI 기법
최근 언어 모델에서는 모델 내부를 직접 분석하기보다, 모델 스스로 설명을 생성하도록 유도하는 프롬프팅 기반 XAI가 주목받고 있습니다.
Self-Attribution Decision Making
SADM은 인간의 두 단계 추론 과정을 모방합니다. 첫 단계에서는 정보 수집과 근거 선택을 수행하고, 두 번째 단계에서는 선택된 근거만을 사용하여 최종 판단을 내립니다. 이 구조를 통해 설명과 결정 과정을 명확히 분리합니다.
첫 단계에서는 주어진 프롬프트, 주장, 문서를 입력으로 받아, 정답 근거 문장의 인덱스를 생성하도록 학습합니다. 이는 문장 마스킹을 통해 무작위 생성을 방지하는 제약된 생성 방식입니다.
두 번째 단계에서는 프롬프트, 주장, 그리고 선택된 근거만을 입력으로 사용하여 최종 답변을 생성합니다. 이로써 모델의 결정이 실제로 해당 근거에 의존했는지를 명확히 확인할 수 있습니다.
SADM의 성능 평가는 근거 품질 지표와 함께, 근거와 결정 간 일관성을 측정하는 RSQ 지표를 사용합니다. RSQ는 올바른 근거가 올바른 결론으로 이어지는 비율과, 잘못된 근거가 잘못된 결론으로 이어지는 비율을 함께 고려합니다.
Text Bottleneck Models
Text Bottleneck Models는 기존 XAI 방법이 개별 샘플에 대한 국소적 설명만 제공한다는 한계를 극복하고자 제안되었습니다. TBM은 예측과 동시에 설명을 생성하는 자기 해석적 구조를 가지며, 데이터셋 전체에 대한 전역적 설명과 개별 샘플에 대한 국소적 설명을 동시에 제공합니다.
TBM은 세 단계로 구성됩니다. 먼저 대규모 언어 모델을 활용해 데이터셋에서 중요한 개념을 자동으로 생성합니다. 다음으로 입력 텍스트가 각 개념을 얼마나 반영하는지를 점수화합니다. 마지막으로 이 개념 점수 벡터만을 입력으로 사용하는 선형 분류기를 학습하여 최종 예측을 수행합니다.
이 구조는 해석 가능성을 크게 향상시키지만, 비선형 상호작용이 중요한 과제에서는 성능 저하가 발생할 수 있다는 한계를 가집니다.
맺음말
언어 모델을 위한 XAI는 단순한 시각화나 토큰 중요도 표시를 넘어, 모델의 추론 구조와 근거 선택 과정을 드러내는 방향으로 발전하고 있습니다. 어텐션 기반 설명은 정보 흐름을 추적하는 데 유용하며, 그래디언트 기반 방법은 문맥을 유지한 기여도 분석을 가능하게 합니다. 나아가 SADM과 TBM과 같은 프롬프팅 기반 및 구조적 접근은 설명과 결정을 결합하여 언어 모델의 신뢰성을 한 단계 끌어올립니다. 향후 XAI for LLMs 연구는 내부 분석과 외부 생성 기반 설명을 결합하는 방향으로 더욱 발전할 것으로 판단됩니다.