기본

SWE-bench

AI 모델 평가 분야에서 Princeton NLP팀이 2023년에 공개한 코딩 능력 벤치마크로, 실제 GitHub 이슈와 PR을 모아 LLM이 진짜 오픈소스 버그를 해결할 수 있는지 평가하는 표준 평가입니다.

쉬운 풀이

SWE-bench는 AI가 진짜 프로그래머처럼 일할 수 있는지 보는 실전 시험이에요. 모의고사로 짧은 코드 한두 줄을 시키는 게 아니라, 실제 오픈소스 프로젝트에 올라온 버그 신고서를 주고 "이거 직접 고쳐 봐"라고 시킵니다. 조별 과제로 따지면 교수님이 "이 깃허브 저장소에서 사용자가 신고한 오류 한 건을 해결해 와"라고 학기 말 과제를 던지는 것과 비슷해요. 어느 모델이 코딩을 잘한다고 말할 때 요즘 업계가 거의 다 이 시험 점수로 비교하기 때문에, AI 코딩 도구를 고를 때 한 번쯤 들어두면 좋습니다.

한 줄 비유

실무 코드 수정 능력을 한 줄로 줄세우는 업계 공통 채점표입니다.

활용 예시

Case 1

Anthropic — Claude Sonnet 4.5 출시 시 핵심 지표로 공개

2025년 9월 Anthropic은 Claude Sonnet 4.5를 발표하면서 SWE-bench Verified 점수를 대표 코딩 지표로 내세웠습니다.^[4] 단순한 스캐폴드(bash + 파일 편집 도구 2개)에 10회 평균 조건으로 측정해 77.2%를 기록했고, 병렬 컴퓨트를 쓰면 82.0%까지 올라간다고 명시했습니다.^[4] 모델 카드와 보도자료에서 SWE-bench가 첫 번째 표에 등장한다는 사실 자체가 이 벤치마크의 위상을 보여 줍니다.^[4]

Case 2

OpenAI Preparedness 팀 — 채점 모호성 제거를 위한 사람 검수 부분집합 공개

2024년 8월 OpenAI Preparedness 팀은 원 SWE-bench 저자들과 공동으로 SWE-bench Verified를 공개했습니다.^[3] 내부 검토 결과 일부 과제가 문제 설명이 모호하거나 테스트가 너무 까다로워 모델 능력을 과소평가한다고 판단해, 외주 소프트웨어 엔지니어 93명이 한 건씩 사람 검수한 500문항 부분집합을 만들었습니다.^[3] 이후 OpenAI는 Preparedness Framework 안에서 자율 소프트웨어 엔지니어링 능력을 측정하는 공식 지표로 SWE-bench Verified를 채택했습니다.^[3]

Case 3

Scale AI — 엔터프라이즈용 SWE-bench Pro로 확장

2025년 9월 Scale AI 연구팀은 arXiv에 "SWE-Bench Pro" 논문을 공개했습니다.^[5] 단일 파일 수정 위주의 기존 벤치마크가 실제 회사 개발 업무를 충분히 반영하지 못한다는 문제의식에서, 활발히 운영 중인 41개 레포에서 다중 파일 수정·장시간 작업이 필요한 문제 1,865건을 모았습니다.^[5] 같은 시점 GPT-5와 Claude Opus 4.1의 SWE-bench Pro 점수는 각각 23.3%와 23.1%에 그쳐, Verified에서 70%대를 기록하던 최상위 모델들이 엔터프라이즈 난이도 앞에서는 4분의 1 수준으로 떨어진다는 사실이 드러났습니다.^[5]

Case 4

Princeton Language and Intelligence — 학계 코딩 평가 인프라

SWE-bench는 ICLR 2024 본회의 논문으로 채택되어 학계 코딩 평가의 공식 레퍼런스가 됐습니다.^[2] 원저자들은 swebench.com에 공개 리더보드를 운영하면서, SWE-bench Lite(저자원 환경용), SWE-bench Multimodal(스크린샷·UI 시각 과제용), SWE-bench Pro까지 파생 평가를 계속 추가하고 있습니다.^[6] 2025년 1월부터는 시각 입력이 포함된 멀티모달 코딩 평가도 같은 인프라 위에서 운영합니다.^[6]

참고사항

swebench.com 리더보드에 들어가 Verified·Lite·Multimodal·Pro 4개 탭을 한 번씩 펼쳐 봅니다.
arXiv 2310.06770 논문의 표 1을 열어 SWE-bench가 어떤 12개 Python 레포에서 과제를 모았는지 확인합니다.
관심 있는 모델 1개(예: Claude Sonnet 4.5, GPT-5)의 점수를 메모해 같은 모델의 Verified·Pro 격차를 비교합니다.
OpenAI의 SWE-bench Verified 발표 글을 읽고 왜 사람 검수가 필요했는지 핵심 한 문단을 요약합니다.
AI 코딩 도구 도입 검토 보고서를 쓸 때 SWE-bench Verified 점수와 측정 시점을 표준 평가 지표로 끼워 넣습니다.

SWE-bench는 출시 시점부터 몇 가지 한계를 지적받아 왔습니다.

Python 단일 언어·오픈소스 중심이라 Java·TypeScript 같은 다른 생태계나 폐쇄형 사내 코드의 난이도를 반영하지 못합니다.^[2]
학습 데이터에 GitHub 공개 PR이 포함될 가능성이 있어 정답 유출(data leakage) 우려가 꾸준히 제기됐고, 후속 연구들은 학습 시점 이후의 새 이슈만 모으는 방식으로 이 문제를 보완하려 했습니다.^[2]
일부 과제는 문제 설명이 모호하거나 테스트가 비합리적으로 까다로워 모델 능력을 실제보다 낮게 보이게 한다는 지적이 있었고, 이 문제 의식이 SWE-bench Verified를 만든 직접적 계기가 됐습니다.^[3]

진화 방향은 크게 세 갈래입니다. 우선 OpenAI의 SWE-bench Verified(2024.08)는 사람 검수로 채점 신뢰도를 끌어올렸고 현재 가장 많이 인용되는 부분집합입니다.^[3] 다음으로 Princeton팀은 SWE-bench Multimodal(2025.01)을 통해 UI 스크린샷·다이어그램 같은 시각 입력까지 평가 범위를 넓혔고, 같은 인프라 위에서 시각 과제를 다루도록 표준화했습니다.^[6] 가장 최근에는 Scale AI의 SWE-bench Pro(2025.09)가 다중 파일·장시간 과제 1,865건을 추가해 엔터프라이즈 난이도를 측정합니다.^[5] 같은 모델이 Verified에서 77%, Pro에서 23%를 받는 사례에서 보듯, 벤치마크가 어려워질수록 AI가 실무 코딩을 얼마나 잘하는지에 대한 평가도 한층 보수적으로 바뀌고 있습니다. 도입 검토 시 어느 부분집합인지·측정 시점이 언제인지를 함께 기록해 두면 점수 비교의 정확도가 올라갑니다.^[5]

이 용어와의 관계

유사 개념
Throughput같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Latency같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Benchmark같은 기본 갈래에서 자주 함께 등장하는 개념입니다.