보안·윤리

Interpretability

해석 가능성

AI 활용 분야에서 쓰이는 용어로, 인공지능 모델 내부의 뉴런·회로·가중치 동작을 직접 들여다보며 모델이 왜 특정 답을 만드는지 인과적으로 추적하는 연구 분야로, Explainability의 더 깊은 형태입니다.

쉬운 풀이

AI 모델 안에서 어떤 뉴런과 회로가 켜져서 그런 답이 나왔는지를 직접 열어 보는 연구 분야예요. 시험 답안만 보고 채점하는 것이 설명가능성이라면, 학생이 풀이 과정에서 어느 공식을 어떤 순서로 썼는지 노트 전체를 펼쳐 보는 쪽이 해석가능성입니다. 모델이 거짓말을 지어내거나 편향된 답을 낼 때 단순히 "왜 그랬는지" 추측하는 것이 아니라, 내부 회로 어디에서 어긋났는지 인과적으로 짚어 낼 수 있어야 환각·편향·정렬 실패를 진짜로 고칠 수 있다는 발상에서 출발했습니다. 최근에는 안전한 AI를 만들기 위한 핵심 도구로 인식돼 Anthropic·OpenAI·DeepMind가 모두 전담 팀을 운영합니다.

한 줄 비유

완성된 결재 문서가 아니라, 사내 결재 라인의 누가 어디서 무엇을 결정했는지 사인 흐름을 추적하는 일입니다.

활용 예시

Case 1

Anthropic — Claude 3 Sonnet에서 3,400만 특징 발견

Anthropic 인터프리터빌리티 팀은 2024년 5월 「Scaling Monosemanticity」를 공개하고, Claude 3 Sonnet의 중간층 잔차 스트림에 희소 오토인코더(SAE)를 학습시켜 3,400만 개 특징을 추출했습니다 ^[1]. 인간 평가자 기준 약 70%가 해석 가능하다고 분류됐고, "샌프란시스코 금문교", "보안 취약점 코드 패턴", "내적 갈등" 같은 추상 개념까지 특정 특징에 매핑됐습니다 ^[1]. 특정 특징을 인위적으로 활성화하면 모델 출력이 그 방향으로 휘는 특징 조향(feature steering)도 실증돼, 모델 내부에서 개념 단위 편집이 가능하다는 점이 처음으로 대규모로 입증된 사례입니다 ^[1]. 사내 LLM의 편향·환각 디버깅과 정렬 평가에 사용처가 있습니다.

Case 2

OpenAI — GPT-4 내부에서 1,600만 특징 추출

OpenAI는 2024년 6월 「Extracting Concepts from GPT-4」에서 k-희소 오토인코더로 GPT-4의 내부 표현을 1,600만 개 특징으로 분해했다고 공개했습니다 ^[4]. 같은 팀은 앞서 「Language models can explain neurons in language models」(2023)에서 GPT-4가 GPT-2의 뉴런 동작을 자연어로 설명하도록 자동화했고, 1,000개 이상의 뉴런이 0.8 이상의 설명 점수를 받았습니다 ^[5]. 대규모 모델 내부를 사람의 손으로 일일이 분석하기 어려운 문제를, 큰 모델로 작은 모델을 자동 해석하는 방향으로 풀어 가는 흐름의 출발점입니다 ^[5]. 사내 모델의 내부 표현을 자동 라벨링하고 회로를 검색하는 도구 개발 사용처에 쓰입니다.

Case 3

Anthropic — Claude 3.5 Haiku 환각·계획 회로 추적

Anthropic은 2025년 3월 「Circuit Tracing」, 「On the Biology of a Large Language Model」 두 논문을 공개해 Claude 3.5 Haiku에서 10가지 대표 행동의 회로 그래프를 시각화했습니다 ^[7]. 시 작성 시 모델이 운율을 맞출 단어를 미리 정해 두고 문장을 거꾸로 구성한다는 증거와, 환각이 발생할 때 어떤 회로 경로가 활성화되는지 사례별로 추적한 결과가 포함됐습니다 ^[7]. 사후 설명으로는 닿을 수 없었던 "모델이 계획을 세우는지", "거짓말을 의도적으로 만드는지" 같은 질문에 내부 회로 단위 증거로 답할 수 있게 됐고, 환각 디버깅과 정렬 연구를 모델 내부 증거로 진행할 수 있다는 점이 핵심입니다 ^[7]. AI 안전팀·레드팀 운영 도구의 사용처에 쓰입니다.

Case 4

EU AI Act·금융위 — 고위험 AI 투명성 의무

EU AI Act Article 13은 고위험 AI 시스템 출력의 해석 가능성과 성능 지표·한계·기지 위험 공개를 의무화했고, 투명성 조항은 2026년 8월부터 단계적으로 발효 중입니다 ^[8]. 한국 금융위는 2021년 7월 「금융분야 AI 가이드라인」을 발표하고, 2025년 들어 생성형 AI 확산과 인공지능 기본법 제정 흐름을 반영한 통합 가이드라인 개정 작업을 진행 중입니다 ^[6]. 대출 거절·보험 인수 거절처럼 금융소비자 권리에 직접 영향을 주는 의사결정은 "왜 거절됐는지" 소비자가 이해할 수 있는 언어로 설명되어야 한다고 명시했고, 단순 사후 설명을 넘어 모델 내부 구조 검증까지 요구하는 방향으로 규제 흐름이 강화되고 있습니다 ^[6][8]. 사내 고위험 AI 시스템 인허가·감사 대응 사용처에 쓰입니다.

참고사항

Anthropic 「Scaling Monosemanticity」 페이지에서 특징 조향(feature steering) 데모를 직접 클릭해 보고, "금문교" 특징을 강화했을 때 출력이 어떻게 휘는지 캡처해 정리합니다.
Distill 「Zoom In: An Introduction to Circuits」(2020)를 펴서 feature·circuit·universality 3개 가설을 한 문단씩 자기 말로 요약합니다.
사내 AI 모델 카드(model card)에 Interpretability와 Explainability 항목이 분리돼 기재돼 있는지 점검하고, 항목이 합쳐져 있다면 분리 양식을 제안합니다.
금융위 「금융분야 AI 가이드라인」 본문에서 설명가능성 관련 조항을 발췌해 자사 AI 모델이 의무 적용 대상인지 체크리스트로 정리합니다.
EU AI Act Article 13(투명성) 조문과 사내 고위험 AI 시스템 사용 설명서 항목을 매핑한 표를 한 장으로 작성합니다.

현재 기법은 모델 전체 계산의 일부만 포착합니다. Anthropic은 「Circuit Tracing」에서 짧고 단순한 프롬프트에서도 분석한 회로가 모델 내부 계산의 일부만 설명하며, 분석 도구 자체가 만들어 내는 인공물(artifact)이 섞일 수 있다고 명시했습니다 ^[7]. 「Toy Models of Superposition」(2022)이 정리한 중첩 현상 때문에 개별 뉴런이 다중 개념을 겹쳐 표현하고, SAE로 분해해도 특징 수가 모델 규모에 따라 폭증해 사람이 일일이 검수하기 어렵습니다 ^[2]. 학계에서는 사후 설명(post-hoc explainability)과 메커니즘 해석(mechanistic interpretability)을 같은 용어로 묶어 쓰는 혼란도 지속적으로 지적되며, 보는 시각에 따라 "내재적으로 해석 가능한 모델을 처음부터 설계해야 한다"는 입장도 있습니다 ^[3]. 동일 모델·동일 입력이라도 SAE 사전 크기나 학습 데이터에 따라 다른 특징 집합이 추출된다는 점도 한계입니다.

산업·규제 측면에서는 채택이 빠르게 확장되고 있습니다. EU AI Act Article 13은 고위험 AI 시스템 출력의 해석 가능성, 성능 지표·한계·기지 위험 공개를 의무화했고, 투명성 조항은 2026년 8월부터 발효되며 부속서 III 고위험 의무는 2027년 12월로 일부 연기된 상태입니다 ^[8]. 한국 금융위는 2025년 통합 AI 가이드라인 개정으로 설명가능성 요건을 강화하는 방향으로 움직이고 있습니다 ^[6]. 연구 측에서는 Anthropic·OpenAI·DeepMind가 잇따라 수천만~수억 개 규모의 SAE 특징을 추출하고 있고 ^[1][4], MIT Technology Review가 2026년 10대 혁신 기술에 메커니즘 해석을 포함시키면서 환각 디버깅·정렬 평가·레드팀 회피 탐지 같은 실용 응용으로 범위가 넓어졌습니다 ^[10]. 다만 한국어 기반 메커니즘 해석 연구는 아직 KAIST 등 일부 그룹과 번역 커뮤니티 중심이라, 자국어 모델에 대한 내부 분석은 초기 단계입니다.

이 용어와의 관계

유사 개념
AI Governance같은 보안·윤리 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
EU AI Act같은 보안·윤리 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Red Teaming같은 보안·윤리 갈래에서 자주 함께 등장하는 개념입니다.