XAI Evaluation
설명가능 인공지능에서 가장 근본적인 문제 중 하나는 설명 방법 자체가 아니라, 그 설명이 얼마나 신뢰할 수 있는지를 판단하는 기준입니다. 모델의 예측 성능은 정확도, 정밀도, 재현율과 같은 명확한 지표로 평가할 수 있지만, 설명의 품질은 직관적이고 주관적인 판단에 의존해 온 경우가 많습니다. 이로 인해 서로 다른 XAI 방법이 제안되더라도, 어떤 방법이 더 “좋은 설명”을 제공하는지에 대한 합의가 어려웠습니다. 이러한 문제의식 속에서 XAI Evaluation은 설명의 품질을 체계적으로 정의하고, 비교 가능하게 만들기 위한 핵심 연구 분야로 발전해 왔습니다.
좋은 설명의 개념적 모호성을 분석하고, 정성적 평가와 정량적 평가가 각각 어떤 역할을 하는지 설명합니다. 이후 정량적 평가에서 자주 사용되는 네 가지 핵심 질문을 중심으로, 각 평가 기준의 이론적 가정과 수식적 정의, 그리고 한계를 상세히 정리합니다.
좋은 설명의 개념적 모호성
“좋은 설명”이라는 표현이 본질적으로 모호합니다. 사람들은 설명을 평가할 때 “이해가 잘 된다”, “그럴듯하다”, “설득력이 있다”와 같은 표현을 사용하지만, 이러한 판단은 명확한 수학적 정의를 가지지 않습니다. 설명의 품질은 사용자의 배경지식, 목적, 기대 수준에 따라 달라지며, 동일한 설명이라도 상황에 따라 다르게 평가될 수 있습니다.
예를 들어 이미지 분류에서 Grad-CAM 설명을 고려해 보면, 어떤 설명은 객체 전체 영역을 넓게 강조하고, 다른 설명은 객체의 핵심 부위만 집중적으로 강조할 수 있습니다. 이때 전체를 강조하는 설명이 좋은지, 핵심 부위를 강조하는 설명이 좋은지는 명확한 기준 없이는 판단할 수 없습니다. 이는 설명 평가가 단순한 시각적 비교로는 충분하지 않으며, 평가 목적에 따라 다른 기준이 필요함을 보여줍니다.
이러한 문제의식은 XAI 평가를 단일 지표가 아닌 다차원적 기준의 조합으로 바라보게 만듭니다.
XAI 평가의 발전 흐름
초기의 XAI 연구에서는 평가가 주로 정성적 방식에 의존하였습니다. 연구자들은 설명 결과를 직접 시각화하고, 인간의 직관에 기반해 “잘 작동한다”고 판단하였습니다. 그러나 이러한 방식은 재현성이 낮고, 서로 다른 연구 간 결과를 비교하기 어렵다는 문제가 있습니다.
최근 XAI 연구에서는 설명의 품질을 정량화하려는 시도가 활발히 이루어지고 있습니다. 정량적 평가는 설명 방법 간의 비교를 가능하게 하고, 특정 방법의 한계를 명확히 드러내며, 새로운 연구 방향을 제시하는 역할을 합니다. 평가 기법의 발전은 단순한 보조 요소가 아니라, XAI 연구 전체의 신뢰도를 좌우하는 핵심 요소로 자리 잡고 있습니다.
정성적 평가 방법
정성적 평가는 사람이 설명을 직접 보고 판단하는 방식입니다. 이는 설명의 직관성과 사용자 친화성을 평가하는 데 필수적이지만, 객관성이 낮다는 한계를 가집니다.
Coherence
Coherence는 설명이 사용자의 기대나 사전 지식과 얼마나 잘 일치하는지를 평가합니다. 이는 설명이 인간에게 자연스럽게 받아들여지는지를 판단하는 기준입니다. 예를 들어 이미지 분류에서 SmoothGrad나 Grad-CAM으로 생성된 히트맵이 실제 객체의 윤곽이나 형태와 유사하다면, 사용자는 해당 설명을 일관성 있고 이해하기 쉬운 것으로 인식합니다.
Coherence는 명시적인 수식으로 정의되기보다는, 시각적 비교나 인간 평가를 통해 판단됩니다. 이로 인해 인간 친화적인 설명을 평가하는 데는 유용하지만, 평가자 간 편차가 크고 자동화가 어렵다는 문제가 존재합니다.
Discriminability
Discriminability는 모델이 실제로 올바른 대상을 근거로 예측을 수행했는지를 평가합니다. 이는 모델이 예측에 사용한 근거가 의미적으로 타당한지를 점검하는 기준입니다.
예를 들어 개 분류 모델에서 설명 결과가 개 객체가 아닌 배경이나 워터마크에 집중되어 있다면, 해당 모델은 잘못된 단서를 학습했을 가능성이 큽니다. Discriminability는 이러한 문제를 발견하는 데 중요한 역할을 합니다. 그러나 이 역시 시각적 판단에 크게 의존하며, 정량화하기 어렵다는 한계가 있습니다.
Human Study
Human Study는 설명을 인간 평가자에게 직접 제시하고 주관적 평가를 수집하는 방법입니다. 설문, 선택 실험, 순위 평가 등의 방식이 사용되며, 실제 사용자 관점에서 설명의 이해 가능성과 설득력을 평가할 수 있습니다.
이 방법은 실제 응용 환경과 가장 가까운 평가를 제공하지만, 비용과 시간이 많이 들고, 평가자 구성과 질문 설계에 따라 결과가 크게 달라질 수 있다는 문제가 있습니다.
정량적 평가 방법
정량적 평가는 설명의 품질을 수치로 표현하여 객관적인 비교를 가능하게 합니다. 강의에서는 네 가지 핵심 질문을 중심으로 정량적 평가를 체계화합니다.
올바른 영역을 포착하는가
이 평가는 설명이 실제로 중요한 입력 영역에 집중하고 있는지를 측정합니다. 이미지 도메인에서는 Localization 기반 평가가 대표적입니다.
설명 히트맵에서 상위 M%의 픽셀을 선택하고, 이 픽셀로부터 가장 큰 연결 영역을 찾아 예측 바운딩 박스를 생성합니다. 이후 정답 바운딩 박스와의 Intersection over Union을 계산합니다.
\[\mathrm{IoU} = \frac{|B_{\text{pred}} \cap B_{\text{gt}}|} {|B_{\text{pred}} \cup B_{\text{gt}}|}\]IoU가 임계값보다 작으면 오류로 간주하며, 전체 데이터셋에 대해 평균 오류율을 계산합니다. 이 값이 작을수록 설명이 더 정확하게 중요한 영역을 포착한다고 해석합니다.
이 방법은 설명의 공간적 정확성을 명확히 평가할 수 있지만, 바운딩 박스와 클래스 레이블이 존재하는 데이터셋에서만 적용 가능하다는 구조적 한계를 가집니다.
진정으로 중요한 입력을 반영하는가
이 평가는 Faithfulness를 측정합니다. Faithfulness는 설명이 모델의 실제 의사결정 과정을 얼마나 충실히 반영하는지를 의미합니다.
핵심 가정은 다음과 같습니다. 설명이 중요하다고 지목한 입력 요소를 제거하면, 모델의 예측 성능은 급격히 저하되어야 합니다.
이를 평가하기 위해 Selectivity 방법이 사용됩니다. 설명 점수가 가장 높은 입력 요소부터 순차적으로 제거하고, 그에 따른 모델 출력 변화를 기록합니다. 이후 예측 점수 감소 곡선 아래 면적을 계산합니다.
\[\mathrm{AUC}_{\text{select}} = \int_0^1 f(x_{\text{masked}}(t)) \, dt\]AUC 값이 작을수록, 즉 적은 입력 제거만으로도 예측이 붕괴될수록 설명은 높은 faithfulness를 가진다고 해석합니다.
이 평가는 설명과 모델 출력 간의 인과적 연관성을 검증하려는 시도로 볼 수 있습니다.
설명이 모델이나 데이터에 의존하는가
이 평가는 설명이 단순히 입력의 시각적 구조를 반영한 것이 아니라, 실제 모델과 데이터에 기반하고 있는지를 검증합니다. 이를 위해 Sanity Check가 사용됩니다.
첫 번째 방법은 모델 파라미터 무작위화입니다. 학습된 모델의 파라미터를 층별로 점진적으로 무작위 초기화하고, 각 단계에서 생성된 설명을 비교합니다. 만약 모델이 완전히 무작위화되었음에도 설명 결과가 거의 변하지 않는다면, 해당 설명은 모델에 민감하지 않다고 판단할 수 있습니다.
이 유사성은 Spearman 순위 상관계수, SSIM, HOG 유사도와 같은 지표로 정량화됩니다.
두 번째 방법은 데이터 무작위화입니다. 올바른 레이블로 학습한 모델과 무작위 레이블로 학습한 모델의 설명을 비교합니다. 의미 있는 설명이라면, 무작위 레이블 모델에서는 구조적으로 붕괴된 설명을 생성해야 합니다.
이 실험은 일부 XAI 방법이 실제로는 모델의 학습 결과가 아니라 입력의 엣지 구조에 반응하고 있음을 드러냅니다.
입력 변화에도 일관적인가
이 평가는 설명의 Robustness와 Stability를 측정합니다. 입력에 작은 노이즈가 추가되더라도 설명 결과는 크게 변하지 않아야 한다는 가정에 기반합니다.
유사한 두 입력 \(x\)와 \(x'\)에 대해 설명 함수 \(f_{\text{expl}}\)는 다음 조건을 만족해야 합니다.
\[\| f_{\text{expl}}(x) - f_{\text{expl}}(x') \|_2 \le \epsilon\]이는 설명이 입력의 미세한 변화에 과도하게 민감하지 않아야 함을 의미합니다. 안정성이 낮은 설명은 실제 환경에서 신뢰하기 어렵습니다.
XAI 평가 도구
XAI 평가를 실질적으로 수행하기 위해 다양한 오픈소스 도구가 제공됩니다. Captum은 PyTorch 기반 XAI 라이브러리로, attribution 방법과 함께 sensitivity, infidelity와 같은 평가 지표를 제공합니다. Quantus는 이미지, 시계열, 정형 데이터에 대해 35개 이상의 평가 지표를 제공하며, 다양한 평가 기준을 체계적으로 적용할 수 있도록 지원합니다.
맺음말
XAI Evaluation은 설명가능 인공지능의 신뢰성과 과학적 타당성을 결정짓는 핵심 요소입니다. 설명이 직관적으로 그럴듯해 보이는 것만으로는 충분하지 않으며, 모델의 실제 의사결정 과정과 얼마나 정합적인지를 다각도로 검증해야 합니다. 정성적 평가와 정량적 평가는 상호 보완적인 관계에 있으며, 다양한 평가 기준을 함께 적용할 때 설명의 품질을 보다 정확히 판단할 수 있습니다. 앞으로의 XAI 연구에서는 설명 방법의 발전과 함께, 평가 방법의 정교화가 더욱 중요한 역할을 할 것으로 판단됩니다.