보안·윤리

Explainability

설명 가능성

AI 활용 분야에서 쓰이는 용어로, 인공지능 모델이 특정 답을 왜 그렇게 냈는지를 사람이 이해할 수 있는 형태로 보여주는 능력과 그 기법들을 통칭하는 표현입니다.

쉬운 풀이

AI가 어떤 결정을 내렸을 때 "왜 그렇게 답했는지"를 사람이 알아볼 수 있도록 풀어 주는 기법들을 묶어 부르는 말이에요. 조별 과제에서 팀원이 갑자기 결론만 들고 와 발표하면 교수님이 "근거가 뭐였는데"라고 물어보는 것과 비슷한데, AI 모델도 답만 던지지 말고 어느 입력이 결정에 얼마나 영향을 줬는지 보여 줘야 신뢰할 수 있다는 발상에서 출발했습니다. 대출 거절·채용 탈락·의료 진단처럼 사람 인생에 영향을 주는 영역에서는 EU AI Act나 한국 금융위 가이드라인이 이 설명을 법적 의무로 요구하기 시작해서, 이제는 모델 정확도만큼 중요한 항목이 됐습니다.

한 줄 비유
결재 끝난 보고서에 "왜 이렇게 결정했는지" 사유서를 한 장 더 붙이는 작업입니다.
활용 예시
Case 1

한국 시중은행 — AI 신용평가 모델의 거절 사유 설명

금융위원회는 2021년 7월 「금융분야 AI 가이드라인」을 발표하면서, AI 의사결정이 금융거래계약 체결·유지에 중대한 영향을 주는 경우 내부통제·승인절차를 마련하고 별도 책임자를 지정하도록 명시했습니다 [5]. 신용평가회사의 개인신용평점 개발도 적용 범위에 포함됩니다 [5]. 이 가이드라인 이후 국내 시중은행은 AI 신용평가 모델을 도입할 때 SHAP 기반 사후 설명 모듈을 함께 운영하기 시작했습니다 — 대출 거절 시 소득·연체 이력·부채비율 등 어떤 변수가 결정에 얼마나 기여했는지 소비자가 이해할 수 있는 언어로 제시해야 합니다 [5]. 사내 AI 신용평가·보험 인수 모델에 설명 모듈을 의무 부착하는 사용처에 쓰입니다.

Case 2

의료 영상 AI — FDA·식약처 허가 요건의 설명가능성

미국 FDA는 2024년 6월 「Transparency for Machine Learning-Enabled Medical Devices: Guiding Principles」를 공개해, AI 의료기기는 알고리즘 설계·학습 데이터·의사결정 로직을 명확히 문서화해야 한다고 명시했습니다 [6]. 한국 식약처도 같은 방향으로 디지털의료기기 가이드라인을 운영 중이며, 뷰노의 콩팥기능 저하 선별 심전도 분석 소프트웨어 VUNO Med-DeepECG Kidney가 식약처 허가를 받았고, 루닛의 흉부 영상 분석 솔루션 루닛 인사이트 CXR 트리아지는 FDA 허가까지 받았습니다 [7]. 두 제품 모두 영상 어느 영역이 진단 근거인지 히트맵으로 표시하는 사후 설명 기능을 핵심 차별점으로 내세웁니다 — 의사가 AI 판독을 검증·반박할 수 있어야 임상 채택이 가능하기 때문입니다 [7]. AI 진단 보조 도구의 임상 도입·인허가 사용처에 쓰입니다.

Case 3

Amazon 채용 AI — 설명가능성 부재로 폐기된 사례

Amazon은 2014년부터 이력서 자동 선별 AI를 개발했으나, 2018년 MIT Technology Review 보도로 여성 지원자를 체계적으로 감점한다는 사실이 공개돼 폐기됐습니다 [8]. 학습 데이터가 10년치 남성 위주 채용 기록이라, 알고리즘이 "women's"라는 단어나 여대 이름이 들어간 이력서를 감점하도록 학습된 결과입니다 [8]. 핵심 문제는 편향 자체가 아니라 "왜 이 후보를 떨어뜨렸는가"를 사후에 설명할 수단이 없었다는 점이었습니다 — 단어를 중립화해도 다른 경로로 차별이 재현되는지 검증할 방법이 없어 프로젝트 자체가 중단됐습니다 [8]. EU AI Act는 채용·HR을 부속서 III 고위험 영역으로 분류해 적합성 평가와 인적 감독, 사용 설명서 의무 제공을 요구하는 배경이 됐습니다 [9]. HR·채용 자동화 도구의 위험 검증 사용처에 쓰입니다.

Case 4

IBM AI Explainability 360 — 오픈소스 툴킷의 산업 채택

IBM 리서치가 2019년 공개하고 2020년 7월 LF AI Foundation에 이관한 AI Explainability 360은 8개의 설명 기법과 2개의 평가 메트릭을 통합한 파이썬 라이브러리입니다 [10]. 금융·HR·헬스케어·교육 도메인 사례 노트북을 함께 제공해 학계 연구와 실무 적용의 간극을 좁히는 것을 목표로 합니다 [10]. 시계열 모달리티용 TS-LIME·TS-SHAP·TS Saliency 기법이 추가됐고, 2024년에는 LLM 출력 설명을 위한 ICX360(In-Context Explainability 360)도 별도 공개됐습니다 [10]. 동일 시기 DARPA XAI 프로그램(2017~2021)도 최종 산출물로 머신러닝·HCI 모듈로 구성된 툴킷 라이브러리를 발표해 후속 연구의 토대가 됐습니다 [1]. 사내 ML 파이프라인에 설명 모듈을 표준화해 끼워 넣는 사용처에 쓰입니다.

참고사항
  1. DARPA XAI 프로그램 공식 페이지(darpa.mil)에서 프로그램 개요와 최종 보고서(Gunning, 2021)를 다운로드해 Explainability와 Interpretability 정의 차이를 표로 정리합니다.
  2. SHAP 논문(arXiv:1705.07874)과 LIME 논문(arXiv:1602.04938)을 펴서, 각 기법이 가정하는 모델·입력·출력 범위를 한 줄씩 메모합니다.
  3. IBM AI Explainability 360 공식 사이트(ai-explainability-360.org)의 도메인별 튜토리얼 노트북 중 사내 도메인(금융·HR·헬스케어)에 해당하는 사례를 하나 선택해 실행해 봅니다.
  4. 금융위원회 「금융분야 AI 가이드라인」 본문에서 설명가능성 관련 조항을 발췌해, 자사 AI 모델이 의무 적용 대상인지 체크리스트로 작성합니다.
  5. EU AI Act Article 13(투명성·정보 제공) 조문을 펴고, 고위험으로 분류될 수 있는 사내 AI 시스템의 사용 설명서 항목과 매핑합니다.

가장 큰 한계는 사후 설명이 모델의 실제 계산을 충실히 반영한다고 보장할 수 없다는 점입니다. LIME은 국소 근사이기 때문에 설명 대상 지점에서 조금만 벗어나도 다른 결과를 내놓을 수 있고, SHAP은 Shapley 값 계산이 특성 수에 따라 폭증해 대규모 모델에서는 근사 알고리즘에 의존합니다 [2][4]. 학계에서는 사후 설명(post-hoc explainability)과 모델 내부 메커니즘 해석(mechanistic interpretability)을 같은 용어로 묶어 쓰면서 생기는 혼란이 지속적으로 지적되며, 보는 시각에 따라 "처음부터 내재적으로 해석 가능한 모델을 설계해야 한다"는 입장도 있습니다 [2]. 동일 모델에 같은 입력을 주더라도 어떤 설명 도구를 쓰느냐에 따라 결과가 달라진다는 점도 한계로 꼽힙니다.

규제·연구 측면에서는 채택이 빠르게 굳어지고 있습니다. EU AI Act Article 13은 고위험 AI 시스템의 운영 투명성과 사용자에 대한 정보 제공을 의무화하면서, 시스템이 어떻게 결과에 도달했는지에 대한 이해 수준을 명시적으로 요구합니다 [9]. 투명성 규정은 2026년 8월부터 발효되며, 부속서 III 고위험 의무는 2027년 12월로 일부 연기된 상태입니다 [9]. GDPR Article 22도 자동화 의사결정의 의미 있는 정보 제공(meaningful information) 의무를 통해 사실상 설명 권리를 인정하는 방향으로 해석되고 있습니다 [12]. 연구 영역에서는 Anthropic이 2024년 「Scaling Monosemanticity」와 2025년 「Circuit Tracing」으로 모델 내부 회로 단위 설명을 실증했고 [11], MIT Technology Review는 2026년 10대 혁신 기술에 메커니즘 해석(mechanistic interpretability)을 포함시켰습니다 [13]. SHAP·LIME 같은 사후 설명과 회로 단위 내부 해석을 함께 묶어 쓰는 흐름이 자리 잡고 있습니다 [11][13].

이 용어와의 관계
  • 유사 개념
    AI Governance같은 보안·윤리 갈래에서 자주 함께 등장하는 개념입니다.
  • 유사 개념
    EU AI Act같은 보안·윤리 갈래에서 자주 함께 등장하는 개념입니다.
  • 유사 개념
    Red Teaming같은 보안·윤리 갈래에서 자주 함께 등장하는 개념입니다.
관련 태그
참고 자료
  1. XAI — Explainable Artificial Intelligence Program — DARPA 공식 페이지 · 2017~2021 4년 프로그램
  2. Interpretability vs. Explainability in AI and Machine Learning — TechTarget 정리 · 학술 표준 용어 비교
  3. "Why Should I Trust You?": Explaining the Predictions of Any Classifier — Ribeiro 외, arXiv:1602.04938 · 2016 (LIME 원논문, KDD 2016)
  4. A Unified Approach to Interpreting Model Predictions — Lundberg·Lee, arXiv:1705.07874 · 2017 (SHAP 원논문, NeurIPS 2017)
  5. 금융분야 AI 가이드라인 — 금융위원회 보도자료 — 한국 금융위 공식 · 2021-07-08 발표
  6. Transparency for Machine Learning-Enabled Medical Devices: Guiding Principles — FDA 공식 · 2024-06
  7. 뷰노 콩팥기능 저하 선별 AI 의료기기 식약처 허가 — 한국경제 — 권위 매체 · 2022-05
  8. Amazon ditched AI recruitment software because it was biased against women — MIT Technology Review · 2018-10
  9. Article 13: Transparency and Provision of Information to Deployers — EU AI Act — EU 법령 조문 원문
  10. AI Explainability 360 — IBM Research — IBM 공식 블로그 · LF AI Foundation 이관 2020-07
  11. Article 22 GDPR — Automated individual decision-making, including profiling — EU 법령 조문 원문
대표 출처DARPA XAI 프로그램 공식 페이지 (2017~2021)