보안·윤리

Red Teaming

레드 티밍

AI 활용 분야에서 쓰이는 용어로, 보안 분야에서 빌려온 개념으로 출시 전에 사내·외부 평가자가 일부러 위험한 입력을 던져 LLM의 가드레일과 취약점을 적극적으로 찾아내는 평가 절차를 가리킵니다.

쉬운 풀이

레드 티밍은 AI를 세상에 내보내기 전에 "이 모델을 어떻게든 위험한 답을 하게 만들 수 있나"를 일부러 시험해 보는 절차예요. 원래 사이버보안에서 모의 해커가 회사 시스템을 공격해 약점을 찾던 방식을, 거대 언어 모델 평가에 그대로 옮겨온 개념이에요. 조별 과제 발표 전에 친구한테 "여기 약점 좀 찾아줘" 하고 까다로운 질문을 부탁하는 장면을 떠올리면 가까워요. AI 회사가 출시 직전 가장 많이 쓰는 평가 방법 중 하나라 한 번쯤 알아둘 가치가 있습니다.

한 줄 비유

출시 전 모의 감사단을 붙여 약점을 미리 캐는 일입니다.

활용 예시

Case 1

Anthropic Frontier Red Team — 생물학 위험 사전 평가

Anthropic은 2023년 7월 외부 생물보안 전문가들과 6개월간 150시간 이상 모델을 적대적으로 시험해, 모델이 전문가 수준 위험 정보를 생산할 수 있는지 정량 평가했습니다 ^[1]. 안전 필터가 꺼진 전용 인터페이스에서 탈옥(jailbreak, 안전장치 우회)을 시도하게 한 뒤 발견 패턴을 훈련 단계 완화 조치로 환류했고, 이후 Frontier Red Team은 정책 부서 직속으로 편성돼 모델 개발 조직과 분리됐습니다 ^[1][2].

Case 2

DEF CON 31 Generative Red Team Challenge — 공개 대규모 평가

2023년 8월 라스베이거스 DEF CON 31에서 열린 공개 레드 티밍 행사에 2,244명이 참가해 주요 LLM에 16만 5천 건 이상의 메시지를 입력하며 취약점을 탐색했습니다 ^[6]. OpenAI·Anthropic·Google·Meta가 모델을 제공했고 백악관이 후원하며 사상 최대 규모 공개 평가가 됐습니다. 결과 데이터는 NIST 등 연구기관과 공유돼 후속 정책 논의의 근거가 됐습니다 ^[6].

Case 3

US CAISI × UK AISI — 정부 합동 사전 배포 평가

미국 AI안전연구소(현 CAISI)와 영국 AI Security Institute는 2024년 10월 Anthropic의 업그레이드된 Claude 3.5 Sonnet을 대상으로 첫 정부 간 합동 사전 배포 평가를 수행했습니다 ^[7]. 사이버·생물 위험 등 카테고리별 레드 티밍을 진행해 안전장치 견고성을 측정했고, 미국 측은 자체 발표한 첫 평가 보고서로 기록됐습니다. 양국은 이후 정기 합동 평가 체계를 협의 중입니다 ^[7].

Case 4

Anthropic 모델 안전 버그 바운티 — 일회성 캠페인에서 상시 프로그램으로

Anthropic은 2025년 5월 HackerOne 기반 모델 안전 버그 바운티를 상시 프로그램으로 확대하고, 보편 탈옥(universal jailbreak, 모든 카테고리에서 작동하는 우회법) 1건당 최대 $35,000(약 4,800만 원)를 지급한다고 발표했습니다 ^[8]. 한 번 모집해 단기 평가하던 방식에서 외부 연구자가 상시 신고하고 보상받는 상시 운영 모델로 옮겨가는 흐름의 대표 사례입니다 ^[8].

참고사항

우리 서비스가 답하면 안 되는 질문 목록을 10개 적습니다
같은 질문을 우회 표현·역할극·다국어로 바꿔 시도합니다
답이 뚫린 케이스만 따로 모아 우회 패턴을 분류합니다
시스템 프롬프트·출력 필터 중 어느 층에서 막을지 결정합니다
동일 테스트를 분기 1회 반복하도록 사내 절차에 등록합니다

레드 티밍은 발견한 취약점만 가시화할 뿐 발견되지 않은 위험은 여전히 남습니다. Anthropic은 2023년 보고서에서 "단일 출력이 아니라 여러 정확한 정보를 연결해야 실제 위해가 된다"며 평가 자체가 도메인 전문성을 필요로 함을 인정했고, 6개월·150시간이라는 시간 비용을 그대로 공개했습니다 ^[1]. arXiv 2209.07858(Ganguli 외, 2022)도 크라우드워커 기반 적대적 대화 38,961건을 공개하면서, 같은 카테고리 안에서도 모델 크기·정렬 기법에 따라 결과가 크게 달라진다는 점을 보였습니다 ^[9]. 영어권 데이터셋만으로는 한국어처럼 어순·우회 표현이 다양한 언어 환경 위험을 충분히 잡지 못한다는 지적도 같은 한계의 연장선입니다 ^[4]. 평가자 풀의 다양성 역시 한계인데, OpenAI는 100명 이상 외부 레드 티머·45개 언어·29개국 배경을 동원했다고 공개했지만 여전히 지역별 사회 맥락이 누락되기 쉽다고 인정했습니다 ^[3].

방향은 세 갈래로 정리됩니다.

정부 간 합동 평가의 제도화 — 미국 CAISI와 영국 AISI의 Claude 3.5 Sonnet 합동 사전 배포 평가가 2024년 10월부터 시작됐고, 한국 AI안전연구소도 2024년 11월 ETRI 부설로 출범해 같은 네트워크에 합류했습니다 ^[4][7].
외부 커뮤니티 동원의 상시화 — OpenAI Red Teaming Network가 2023년 9월 공식 모집을 개시했고, DEF CON 31 Generative Red Team Challenge가 2,244명·16만 5천 건 메시지로 대규모 공개 평가 모델을 입증했습니다 ^[3][6].
금전 보상 기반 상시 운영 — Anthropic 모델 안전 버그 바운티가 보편 탈옥 1건당 최대 $35,000(2025년 5월 기준)로 자리 잡으며 일회성 캠페인에서 상시 프로그램으로 옮겨가는 흐름입니다 ^[8]. OpenAI Preparedness Framework도 사이버·CBRN·설득·자율성 4개 위험 카테고리별로 임계값을 명시하며 레드 티밍을 거버넌스 절차에 편입했습니다 ^[10].