AI for Everyone

SEARCH

“RLAIF”1건

AI 모델 학습 분야에서 쓰이는 RLAIF(Reinforcement Learning from AI Feedback, 인공지능 피드백 기반 강화학습)의 약자로, 사람 대신 다른 LLM이 답안 두 개 중 더 나은 쪽을 골라 보상을 만들어 모델을 학습시키는 방법입니다.

검색 · AI for Everyone