AI for Everyone
About
카테고리
SEARCH
“벤치마크”
2건
검색
전체
2
기본
2
Benchmark
벤치마크
AI 모델 평가 분야에서 쓰이는 용어로, 서로 다른 인공지능 모델의 성능을 같은 잣대로 비교하기 위해 표준화된 시험 문제집을 모아 정답률·점수로 줄을 세우는 평가 방식입니다.
기본
SWE-bench
AI 모델 평가 분야에서 Princeton NLP팀이 2023년에 공개한 코딩 능력
벤치마크
로, 실제 GitHub 이슈와 PR을 모아 LLM이 진짜 오픈소스 버그를 해결할 수 있는지 평가하는 표준 평가입니다.
기본
검색 · AI for Everyone