보안·윤리

AI Safety

AI 세이프티

AI 활용 분야에서 쓰이는 용어로, 인공지능 시스템이 의도와 다르게 동작해 일으킬 수 있는 피해를 줄이기 위해 모델·운영·정책 전 단계에서 적용하는 기술과 절차를 통칭하는 표현입니다.

쉬운 풀이

AI 안전은 인공지능이 잘못된 답을 내거나 위험한 행동을 하지 않도록 미리 점검하고 막아두는 일이에요. 조별 과제에서 친구가 자료를 들고 왔을 때, 출처와 사실관계를 함께 확인하는 과정과 비슷합니다. AI가 점점 더 많은 결정에 끼어들수록 "이 답을 믿어도 되는가"를 검증하는 절차가 중요해지기 때문에, 모델을 만드는 회사뿐 아니라 쓰는 사람도 알아둘 필요가 있어요. 학과 첫 시험 직전 룸메이트에게 "이 답안 한번 봐줘" 부탁하는 장면을 떠올리면 가깝습니다.

한 줄 비유

신제품 출시 전 안전검사·리콜 체계·취급설명서를 한꺼번에 갖추는 일입니다.

활용 예시

Case 1

Anthropic — Responsible Scaling Policy(RSP)로 모델 출시 게이트 운영

Anthropic은 2023년 9월 첫 RSP를 공개한 뒤 v3.3(2026년 5월 기준)까지 13회 개정했습니다 ^[2]. 모델 능력이 일정 임계점(CBRN 무기 개발 보조, AI R&D 자동화 등)을 넘으면 ASL-3 수준의 보안·배포 안전장치를 가동해야 출시할 수 있습니다. 실시간 프롬프트 분류기, 비동기 모니터링, 탈옥(jailbreak) 신고 포상제를 다층으로 결합한 구조입니다 ^[2].

Case 2

한국 인공지능안전연구소 — 2024년 11월 출범, 6번째 국가 AISI

과학기술정보통신부는 2024년 11월 27일 판교 글로벌R&D센터에서 한국전자통신연구원(ETRI) 부설로 AI안전연구소를 개소했습니다 ^[3]. 30명 규모로 시작해 국제 AI안전연구소 네트워크의 6번째 회원국으로 참여하며, 초대 소장은 김명주 서울여대 교수입니다. 국내 AI 기업이 글로벌 진출 시 안전 평가 인프라를 활용할 수 있게 설계됐습니다 ^[3].

Case 3

영국 AI Security Institute — 30개 이상 프런티어 모델 평가

영국 AISI는 2023년 11월 설립 이후 30개 이상의 최첨단 모델을 평가했고, 2025년에는 사이버·화생방·정렬 평가 도구를 강화했습니다 ^[5]. 사이버 분야에서는 견습공 수준 과제 성공률이 2024년 초 약 10%에서 2025년 평균 50%로 상승한 것을 확인했고, 자가복제 초기 신호를 추적하는 전용 벤치마크도 개발했습니다 ^[5].

Case 4

ISO/IEC 42001 — AI 경영시스템 국제표준

국제표준화기구(ISO)와 국제전기기술위원회(IEC)는 2023년 12월 세계 최초의 AI 경영시스템 인증 표준 ISO/IEC 42001을 발표했습니다 ^[6]. AI를 개발·제공·사용하는 모든 조직이 적용 대상이며, 위험관리·영향평가·생애주기 관리·제3자 공급망 감독을 요구합니다. 한국 기업이 EU 시장 진출을 준비할 때 EU AI Act와 함께 기준선으로 활용됩니다 ^[6][10].

참고사항

자사 AI 도입 사례를 정렬·강건성·모니터링·시스템 안전 4개 갈래로 분류해보기
Anthropic RSP 최신본 PDF에서 ASL-3 배포 안전장치 4개 항목 메모하기
한국 AISI 홈페이지(aisi.re.kr)에서 평가·연구 영역 확인 후 사내 위험 목록과 비교
사용 중인 AI 서비스의 모델 카드·시스템 카드에서 "limitations·misuse" 섹션 찾아 읽기
ISO/IEC 42001 영향평가 항목을 체크리스트로 가공해 분기 1회 점검 일정 등록

AI Safety는 정의가 빠르게 변하고 있어 합의된 평가 방법이 부족합니다. Hendrycks 외 arXiv 논문은 정렬·강건성·모니터링·시스템 안전 어느 것도 "해결됐다"고 볼 수 없으며, 거대 모델에서 새로 출현하는 능력(emergent capabilities)이 기존 안전장치를 우회할 수 있다고 지적합니다 ^[1]. 평가 결과가 모델 버전이나 프롬프트 설정에 민감해 같은 모델도 다른 환경에서는 다른 위험 점수를 받는다는 한계가 있습니다. 또한 AI Safety와 AI Alignment, AI Security를 구분 없이 쓰는 경우가 많아 조직 내 책임 소재가 흐려진다는 비판도 있습니다 ^[4]. 보는 시각에 따라 안전을 어디까지 사전 평가에 맡기고 어디까지 사후 모니터링·레드팀에 맡길지 업계 합의가 아직 갈립니다.

거버넌스 측면에서는 정부 주도 평가가 빠르게 자리 잡고 있습니다. 미국은 NIST 산하 AI 안전연구소가 2024년 8월 Anthropic·OpenAI와 사전 평가 양해각서를 체결한 뒤, 2025년 6월 명칭을 CAISI(미국 AI 표준혁신센터)로 재편했습니다 ^[7]. 영국 AISI도 'AI Security Institute'로 명칭을 바꾸며 국가 안보 관점을 강화하는 방향으로 진화하고 있습니다 ^[5]. 한국은 2025년 1월 'AI 기본법'을 공포해 고영향 AI 사업자 의무·생성형 AI 표시 의무를 법제화했고, 2026년 1월 시행을 앞두고 있습니다 ^[10]. 기업 차원에서는 ISO/IEC 42001 인증 취득과 Anthropic RSP·OpenAI Preparedness Framework 같은 자율 정책 공개가 사실상의 글로벌 규범으로 굳어지는 흐름입니다 ^[2][6]. 연구 흐름 측면에서는 기계적 해석가능성(mechanistic interpretability) 연구가 모델 내부 회로를 직접 들여다보는 방향으로 빠르게 확장되고 있으며, 영국·미국·한국·일본 안전연구소가 2024년부터 글로벌 네트워크를 통해 평가 방법을 표준화하기 시작했습니다 ^[3][5]. 안전이 연구실 문제에서 컴플라이언스·국가 안보 영역으로 옮겨가는 단계라고 볼 수 있습니다.

흐름

2016

초기 AI 안전 연구

Concrete Problems in AI Safety 논문으로 안전 의제 정식화.

2022

RLHF 시대

InstructGPT·ChatGPT가 인간 피드백 학습으로 유해 출력 억제.

2023

Constitutional AI

Anthropic이 헌법 원칙 기반 자기-비평으로 안전 학습 제시.

2024—

안전 평가 표준화

EU AI Act·美 AISI·英 AISI 등 정부 평가 체계 본격화.

이 용어와의 관계

유사 개념
AI Alignment안전이 사고·해 방지라면 정렬은 가치·의도 일치
기반 기술
RLHF인간 피드백으로 유해 출력을 줄이는 핵심 방법
대표 방법
Red Teaming공격 시나리오로 모델 취약점을 사전에 탐지
관련 접근
Constitutional AI원칙 기반 자기-비평으로 안전성을 학습
제도화
EU AI Act안전 요구사항을 법적 의무로 명문화

AI Safety vs AI Alignment

AI SafetyAI Alignment

핵심 질문어떤 사고·피해를 막을까AI가 인간 의도·가치를 따르나

관심 대상사고·오작동·악용목표·가치 일치 여부

시야단기·중기 위험 중심장기·근본 문제 중심

대표 기법Red Teaming, 평가, 가드레일RLHF, Constitutional AI

주도 주체정부·규제·기업 안전팀AI 연구실·정렬 연구자