SEARCH
“강화학습”2건
RLAIF
AI 모델 학습 분야에서 쓰이는 RLAIF(Reinforcement Learning from AI Feedback, 인공지능 피드백 기반 강화학습)의 약자로, 사람 대신 다른 LLM이 답안 두 개 중 더 나은 쪽을 골라 보상을 만들어 모델을 학습시키는 방법입니다.
보안·윤리
RLHF
AI 모델 학습 분야에서 쓰이는 Reinforcement Learning from Human Feedback(인간 피드백 기반 강화학습)의 약자로, 사람이 모델 답변 중 더 좋은 쪽을 골라준 기록을 보상으로 삼아 모델 행동을 다듬는 학습 방법입니다.
보안·윤리