보안·윤리

RLHF

AI 모델 학습 분야에서 쓰이는 Reinforcement Learning from Human Feedback(인간 피드백 기반 강화학습)의 약자로, 사람이 모델 답변 중 더 좋은 쪽을 골라준 기록을 보상으로 삼아 모델 행동을 다듬는 학습 방법입니다.

쉬운 풀이

RLHF는 "사람이 채점을 도와주는 강화학습"이에요. 모델이 같은 질문에 답변 두 개를 만들어 내면, 사람이 "이쪽이 더 좋다"고 골라 줍니다. 모델은 그 선택 기록을 점수표 삼아 다음부터 더 좋아 보이는 쪽으로 답하도록 학습하는 방식입니다. 선생님이 답안 두 개 중 더 좋은 걸 골라주는 채점을 수천 번 반복하면, 학생이 자연스럽게 선생님 취향에 맞춰 답을 쓰게 되는 것과 비슷해요. ChatGPT가 처음 나왔을 때 "말귀를 알아듣는다"는 평가를 받은 핵심 기법이라, AI 정렬을 이해하려면 꼭 알아야 하는 단어입니다.

한 줄 비유

견적서 초안을 선임이 빨간펜으로 줄 세워주면, 그 패턴을 학습해 다음부터 알아서 작성하는 신입입니다.

활용 예시

Case 1

OpenAI ChatGPT — RLHF가 상업화의 결정타

OpenAI는 InstructGPT와 같은 RLHF 파이프라인 위에서 ChatGPT를 만들었습니다. 사람 라벨러가 모델 출력에 순위를 매긴 데이터로 보상모델을 학습하고, 그 보상으로 PPO를 돌립니다.^[1] 그 결과 동일 평가에서 1.3B 정렬 모델이 100배 큰 175B 비정렬 모델보다 사람 선호도가 높게 나왔습니다.^[1] 사내 챗봇·고객 응대 봇을 만들 때 "왜 SFT만으로는 부족한가"의 표준 답으로 인용됩니다.

Case 2

네이버클라우드 HyperCLOVA X — 한국어 RLHF 적용

네이버클라우드는 2025년 HyperCLOVAX-SEED-Vision-Instruct-3B 모델을 공개하며 SFT 위에 GRPO(Group Relative Policy Optimization) 기반 RLHF를 적용했음을 명시했습니다.^[3] 해외 경쟁 모델 대비 약 6,500배 많은 한국어 데이터로 학습됐고, KMMLU·HAE-RAE·KoBEST 같은 한국어 평가에서 Qwen2.5-3B·Gemma-3-4b보다 소폭 우위를 보였습니다.^[3] 국내 공공·금융처럼 한국어 문맥과 규범이 중요한 도메인에 모델을 도입할 때 참고할 만한 사례입니다.

Case 3

Anthropic Claude — Constitutional AI로 RLHF 변형

Anthropic은 RLHF의 사람 라벨링 비용·일관성 문제를 줄이려고 Constitutional AI(헌법 기반 AI)를 제안했습니다. 사람 라벨러 대신 "헌법" 형태의 원칙 목록을 두고, 모델이 자기 출력을 비판·수정하게 한 뒤 AI 평가자가 선호쌍을 만드는 방식입니다.^[4] Anthropic은 이를 RLAIF(Reinforcement Learning from AI Feedback, AI 피드백 기반 강화학습)라 부르고, 도움성과 무해성을 동시에 끌어올리는 Pareto 개선이 가능하다고 보고했습니다.^[4] 안전성 정책을 명문화해서 추적·수정하고 싶은 엔터프라이즈 배포에 어울립니다.

Case 4

LG AI Research EXAONE — DPO로 PPO 대체

LG AI Research가 공개한 EXAONE-3.0-7.8B-Instruct는 한국어·영어 이중언어 모델로, 8조 토큰 사전학습 위에 SFT와 DPO(Direct Preference Optimization, 직접 선호 최적화)로 사후학습했다고 GitHub 리포지토리에 명시돼 있습니다.^[5] DPO는 2023년 Rafailov 등이 제안한 RLHF 대체 기법으로, 별도 보상모델과 PPO 없이 이진 분류 손실만으로 선호 데이터를 직접 최적화합니다.^[6] 자원이 한정된 국내 연구·스타트업이 RLHF 효과를 단순 구현으로 얻고자 할 때 표준 선택지입니다.

참고사항

InstructGPT 논문 abstract 한 단락만 읽고 "SFT·보상모델·PPO" 3단계를 한 줄씩 정리해 봅니다.^[1]
ChatGPT에 같은 질문을 두 번 시키고, 더 나은 답을 골라 그 이유를 메모합니다 (보상모델 라벨러의 일을 직접 해보는 셈).
사내·팀 가이드라인에서 "도움이 됨·해롭지 않음·정직함" 항목을 뽑아 1쪽 짜리 원칙으로 정리해 봅니다 (Constitutional AI 식 접근).
오픈소스 DPO 튜토리얼(Hugging Face TRL)을 한 번 클론해서 소규모 모델로 30분짜리 파인튜닝을 돌려봅니다.
Casper 등 「Open Problems」 논문 목차만 훑고, 자사 사용 사례에 해당되는 한계 3개를 골라 회의 안건에 올립니다.^[7]

RLHF는 만능이 아닙니다. 2023년 Casper 등 30여 명 공동 저자의 서베이 논문 「Open Problems and Fundamental Limitations of RLHF」는 사람 피드백의 편향·불일치, 보상 해킹(reward hacking, 모델이 진짜 의도를 따르지 않고 보상 신호의 허점을 찾아내 점수만 올리는 현상), 보상모델 일반화 실패, 평가의 사회적 영향 등 구조적 한계를 정리했습니다.^[7] 라벨러 풀이 좁으면 특정 문화권의 가치관이 보상모델에 그대로 박혀 다른 사용자에게는 어색하게 보이고, PPO 학습 과정에서 모델이 "안전한 척하면서 우회"하는 사례도 보고됐습니다.^[7] 즉 RLHF는 정렬 문제를 "해결"하지 않고, 더 다층적인 안전 장치가 필요하다는 입장이 학계 합의에 가깝습니다.^[7]

진화 방향은 크게 두 갈래입니다.

사람 대신 AI 피드백을 쓰는 RLAIF·Constitutional AI 계열로, Anthropic이 도움성·무해성을 동시에 끌어올리는 결과를 보고했습니다.^[4]
보상모델과 PPO를 아예 없애는 DPO 계열로, 2023년 Rafailov 등은 단순 분류 손실만으로 RLHF와 동등 이상 성능을 낼 수 있음을 보였습니다.^[6] 현재 시점에서는 상용 모델 다수가 SFT + DPO를 기본으로 두고, 안전성이 중요한 부분에만 RLHF·RLAIF를 얹는 혼합 방식으로 수렴하는 흐름입니다. 국내에서도 LG AI Research EXAONE 시리즈가 DPO 사후학습을 채택했고, 네이버클라우드 HyperCLOVA X-Vision-3B는 GRPO 기반 RLHF를 적용하는 등 한국 모델도 두 갈래 흐름을 모두 따라가고 있습니다.^[3][5]