SEARCH
“평가”6건
Heuristic Evaluation
휴리스틱 평가
전문가 원칙 평가
디자인
Red Teaming
레드 티밍
AI 활용 분야에서 쓰이는 용어로, 보안 분야에서 빌려온 개념으로 출시 전에 사내·외부 평가자가 일부러 위험한 입력을 던져 LLM의 가드레일과 취약점을 적극적으로 찾아내는 평가 절차를 가리킵니다.
보안·윤리
LangSmith
랭스미스
AI 개발도구 분야에서 LangChain팀이 2023년에 공개한 LLM 애플리케이션 관측·평가·디버깅 플랫폼으로, 프롬프트·체인·에이전트의 실행 기록을 한 화면에서 추적하고 회귀를 막아주는 도구입니다.
AI 개발도구
Constitutional AI
컨스티튜셔널 AI
AI 모델 학습 분야에서 Anthropic이 2022년에 공개한 RLHF 대체 기법으로, 사람이 매번 답안을 평가하는 대신 미리 정의된 원칙(헌법)에 따라 AI가 스스로 자기 답변을 비판·수정하도록 학습시키는 방식입니다.
AI 트렌드
SWE-bench
AI 모델 평가 분야에서 Princeton NLP팀이 2023년에 공개한 코딩 능력 벤치마크로, 실제 GitHub 이슈와 PR을 모아 LLM이 진짜 오픈소스 버그를 해결할 수 있는지 평가하는 표준 평가입니다.
기본
Benchmark
벤치마크
AI 모델 평가 분야에서 쓰이는 용어로, 서로 다른 인공지능 모델의 성능을 같은 잣대로 비교하기 위해 표준화된 시험 문제집을 모아 정답률·점수로 줄을 세우는 평가 방식입니다.
기본