AI for Everyone

SEARCH

“벤치마크”2건

AI 모델 평가 분야에서 쓰이는 용어로, 서로 다른 인공지능 모델의 성능을 같은 잣대로 비교하기 위해 표준화된 시험 문제집을 모아 정답률·점수로 줄을 세우는 평가 방식입니다.

AI 모델 평가 분야에서 Princeton NLP팀이 2023년에 공개한 코딩 능력 벤치마크로, 실제 GitHub 이슈와 PR을 모아 LLM이 진짜 오픈소스 버그를 해결할 수 있는지 평가하는 표준 평가입니다.

검색 · AI for Everyone