Benchmark
벤치마크
AI 모델 평가 분야에서 쓰이는 용어로, 서로 다른 인공지능 모델의 성능을 같은 잣대로 비교하기 위해 표준화된 시험 문제집을 모아 정답률·점수로 줄을 세우는 평가 방식입니다.
벤치마크는 여러 AI 모델을 똑같은 시험지로 풀게 한 다음 점수로 줄을 세워 비교하는 표준 시험이에요. 모델마다 광고 문구가 다르고 답변 스타일도 제각각이라, 같은 문제 세트로 같은 조건에서 돌려 봐야 누가 정말 잘하는지가 보입니다. 한 학기 동안 다 같은 시험지로 반 전체 등수를 매기는 기말고사를 떠올리면 가까워요. AI 모델을 고를 때 보도자료에 자주 등장하는 "MMLU 88점", "SWE-bench Verified 77%" 같은 숫자가 모두 여기에서 나오기 때문에, 한 번쯤은 알아 두면 모델 비교가 훨씬 수월합니다.
표준 시험지로 여러 외주 업체 견적을 같은 잣대에서 비교하는 일입니다.
MMLU — 다과목 객관식으로 폭넓은 지식 측정
Hendrycks 연구팀이 2020년 arXiv에 공개한 MMLU는 초등 수학부터 미국사·법·컴퓨터과학까지 57개 과목 객관식 1만 5,908문항으로 구성됩니다[2]. 사람 전문가 추정치는 약 89.8%이고, 공개 당시 GPT-3는 43.9% 수준이었습니다[2]. 신규 모델 출시 보도자료에서 "MMLU 88점 달성" 같은 표현이 등장하면 이 시험을 가리킵니다[2].
KMMLU — 한국어 원문 시험으로 한국어 능력 측정
네이버 클라우드·EleutherAI 등이 2024년 2월 arXiv에 공개한 KMMLU는 영어 MMLU를 번역한 것이 아니라 한국 자격시험·수능 등 원문 한국어 시험에서 수집한 45개 과목 3만 5,030문항입니다[5]. 논문 공개 시점 공개 모델 최고 점수는 50.5%, GPT-4·HyperCLOVA X 등 상용 모델도 60%를 넘기지 못한다고 보고됐습니다[5]. 한국어 서비스용 모델을 비교 검토할 때 영어 MMLU만 보면 놓치는 부분을 보완하는 기준선 역할을 합니다[5].
SWE-bench — 실제 깃허브 이슈를 모델이 패치할 수 있는가
프린스턴 대학 Jimenez·Yang 외 연구진이 2023년 10월 arXiv에 공개한 SWE-bench는 인기 파이썬 저장소 12곳의 실제 깃허브 이슈와 풀 리퀘스트 2,294건을 데이터셋으로 만들었습니다[4]. 모델은 이슈 설명을 읽고 코드 베이스를 수정해 단위 테스트를 통과시켜야 합니다. 공개 당시 Claude 2가 1.96%만 해결할 정도로 어려웠고, 이후 OpenAI·프린스턴이 사람 검수를 거친 SWE-bench Verified를 별도로 공개했습니다[4]. 코딩 에이전트의 실전 성능 발표는 대부분 이 점수를 인용합니다.
HLE — 박사급 난도로 추론 모델 평가의 새 기준
Center for AI Safety와 Scale AI가 2025년 1월 arXiv에 공개한 Humanity's Last Exam(HLE)은 수학·자연과학·인문학 등 100여 과목 전문가가 출제한 박사급 객관식·단답형 2,500문항으로 구성됩니다[8]. 공개 당시 GPT-4o는 3.3%, OpenAI o1은 9.1%로 최상위 모델도 한 자릿수에 머물도록 설계됐고, 기존 벤치마크 점수가 90%대로 포화되는 현상을 정면으로 해결하기 위해 만들어졌습니다[8]. 추론 특화 모델을 평가할 새로운 기준선으로 빠르게 자리 잡았습니다[8].
- 사용 중인 모델의 모델 카드에서 MMLU·GPQA·HumanEval 점수 3개를 확인합니다.
- 한국어 서비스라면 KMMLU 점수를 별도로 찾아 영어 MMLU와 비교해 둡니다.
- 코딩 보조 도구를 검토 중이라면 SWE-bench Verified 점수를 확인합니다.
- 점수 옆에 측정 시점(예: 2025년 9월)을 함께 기록해 두고 다음 비교 시 기준으로 씁니다.
- 벤치마크 점수 1개만 보지 말고, 실제 업무 데이터로 같은 프롬프트를 10건 돌려 자체 평가지를 만듭니다.
벤치마크는 크게 세 가지 한계가 있습니다.
- 데이터 오염입니다. 시험 문제가 모델 학습 데이터에 섞여 들어가면 점수가 부풀려지고, 이는 LLM 평가에서 잘 알려진 장애 요인입니다[6].
- 점수 최적화입니다. 특정 벤치마크에 맞춰 학습하면 해당 점수는 올라도 실제 업무 성능과 괴리가 생길 수 있습니다[6]. KMMLU 논문도 GPT-4·HyperCLOVA X가 60%를 못 넘는다는 사실을 들어 단일 점수로 한국어 능력을 단정하지 말 것을 권합니다[5].
- 측정 조건의 비대칭입니다. 같은 모델이라도 SWE-bench Verified에서 77%, SWE-bench Pro에서 23%를 받는 사례에서 보듯 부분집합·스캐폴드·시도 횟수가 다르면 점수 비교 자체가 무너집니다[9]. 보도자료에 점수만 적혀 있고 측정 시점·부분집합·조건이 누락된 경우라면 그대로 비교 근거로 쓰지 않는 편이 안전합니다.
진화 방향은 크게 셋입니다.
- 오염을 줄이기 위해 최신 뉴스·논문·수학 대회 문제를 매달 갱신하는 LiveBench 같은 시도가 나왔습니다[6].
- 스탠퍼드 CRFM의 HELM처럼 정확도·강건성·공정성·효율성 등 다축 평가로 확장해 단일 점수의 한계를 보완하는 흐름이 있습니다[7].
- 기존 점수가 포화되자 HLE(2025), SWE-bench Pro(2025) 같은 박사급·실전형 벤치마크로 난도를 끌어올리는 패턴이 자리 잡고 있습니다[8][9]. 평가의 무게중심도 객관식 정답률에서 "실제 깃허브 이슈를 해결할 수 있는가", "박사급 추론이 가능한가" 같은 실전형 과제로 옮겨가는 중입니다. 업계에서는 보통 학술 벤치마크 점수와 자체 업무 평가(eval)를 함께 보고, 모델 교체나 도입 결정의 근거로 쓸 때는 측정 시점·부분집합·조건을 한 줄로 명시해 두는 방식을 권장합니다. 한국어 환경에서는 KMMLU·Ko-MMLU·HAE-RAE 같은 보조 평가셋을 영어 점수와 별도로 추적해 두면, 같은 모델이라도 한국어 응대 품질이 얼마나 떨어지는지를 보고서에 정량으로 적어 둘 수 있습니다[5].
- 유사 개념Throughput같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Latency같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념SWE-bench같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
- Measuring Massive Multitask Language Understanding (MMLU) — arXiv 논문 · Hendrycks 외 · 2020년 9월 (ICLR 2021)
- Evaluating Large Language Models Trained on Code (HumanEval) — arXiv 논문 · OpenAI Chen 외 · 2021년 7월
- KMMLU: Measuring Massive Multitask Language Understanding in Korean — arXiv 논문 · Naver Cloud·EleutherAI 외 · 2024년 2월
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues? — arXiv 논문 · Princeton Jimenez·Yang 외 · 2023년 10월
- GPQA: A Graduate-Level Google-Proof Q&A Benchmark — arXiv 논문 · Rein 외 · 2023년 11월
- LiveBench: A Challenging, Contamination-Limited LLM Benchmark — arXiv 논문 · 2024년 6월
- Holistic Evaluation of Language Models (HELM) — Stanford CRFM 공식 사이트
- ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems — arXiv 논문 · François Chollet 외 · 2025년 5월
이 페이지에 대한 의견을 남겨주세요
여러분의 의견은 다음 갱신에 반영됩니다.