RLHF (인간 피드백 강화학습)

RLHF란?

RLHF(Reinforcement Learning from Human Feedback)는 사람의 선호를 학습에 반영해 AI 응답을 더 도움이 되게 만드는 방법입니다. 신입 직원에게 매번 피드백을 주며 “이건 좋았고, 이건 아쉬웠어”라고 알려주면 점점 더 좋은 결과를 내는 것과 비슷합니다.

어떻게 작동하나요?

보통 세 단계로 진행됩니다.

대규모 텍스트로 기본 모델을 학습하고
사람이 여러 답변을 비교해 더 좋은 답을 고르며
그 선호를 예측하는 보상 모델을 만든 뒤, 강화학습(PPO 등)으로 모델을 조정합니다.
이 과정을 통해 사람이 기대하는 방식으로 응답하도록 모델이 다듬어집니다.

왜 중요한가요?

RLHF는 ChatGPT 같은 AI 어시스턴트의 핵심 기술입니다. 없으면 모델은 유창하지만 불필요하거나 위험한 답을 만들 수 있습니다. RLHF는 “잘 말하는 모델”에서 “잘 도와주는 모델”로 발전시키는 다리 역할을 합니다.

RLHF란?

어떻게 작동하나요?

왜 중요한가요?

관련 용어