AI for Everyone
About
카테고리
SEARCH
“RLAIF”
1건
검색
전체
1
보안·윤리
1
RLAIF
AI 모델 학습 분야에서 쓰이는
RLAIF
(Reinforcement Learning from AI Feedback, 인공지능 피드백 기반 강화학습)의 약자로, 사람 대신 다른 LLM이 답안 두 개 중 더 나은 쪽을 골라 보상을 만들어 모델을 학습시키는 방법입니다.
보안·윤리
검색 · AI for Everyone