본문으로 건너뛰기
목록으로 돌아가기
자연어 처리 (NLP)

RLHF (인간 피드백 강화학습)

사람의 평가를 이용해 모델 응답을 더 유용하고 안전하게 만드는 학습

#RLHF#강화학습#정렬

RLHF란?

RLHF(Reinforcement Learning from Human Feedback)는 사람의 선호를 학습에 반영해 AI 응답을 더 도움이 되게 만드는 방법입니다. 신입 직원에게 매번 피드백을 주며 “이건 좋았고, 이건 아쉬웠어”라고 알려주면 점점 더 좋은 결과를 내는 것과 비슷합니다.

어떻게 작동하나요?

보통 세 단계로 진행됩니다.

  1. 대규모 텍스트로 기본 모델을 학습하고
  2. 사람이 여러 답변을 비교해 더 좋은 답을 고르며
  3. 그 선호를 예측하는 보상 모델을 만든 뒤, 강화학습(PPO 등)으로 모델을 조정합니다.
    이 과정을 통해 사람이 기대하는 방식으로 응답하도록 모델이 다듬어집니다.

왜 중요한가요?

RLHF는 ChatGPT 같은 AI 어시스턴트의 핵심 기술입니다. 없으면 모델은 유창하지만 불필요하거나 위험한 답을 만들 수 있습니다. RLHF는 “잘 말하는 모델”에서 “잘 도와주는 모델”로 발전시키는 다리 역할을 합니다.

관련 용어