RLHF (인간 피드백 강화학습)
사람의 평가를 이용해 모델 응답을 더 유용하고 안전하게 만드는 학습
#RLHF#강화학습#정렬
RLHF란?
RLHF(Reinforcement Learning from Human Feedback)는 사람의 선호를 학습에 반영해 AI 응답을 더 도움이 되게 만드는 방법입니다. 신입 직원에게 매번 피드백을 주며 “이건 좋았고, 이건 아쉬웠어”라고 알려주면 점점 더 좋은 결과를 내는 것과 비슷합니다.
어떻게 작동하나요?
보통 세 단계로 진행됩니다.
- 대규모 텍스트로 기본 모델을 학습하고
- 사람이 여러 답변을 비교해 더 좋은 답을 고르며
- 그 선호를 예측하는 보상 모델을 만든 뒤, 강화학습(PPO 등)으로 모델을 조정합니다.
이 과정을 통해 사람이 기대하는 방식으로 응답하도록 모델이 다듬어집니다.
왜 중요한가요?
RLHF는 ChatGPT 같은 AI 어시스턴트의 핵심 기술입니다. 없으면 모델은 유창하지만 불필요하거나 위험한 답을 만들 수 있습니다. RLHF는 “잘 말하는 모델”에서 “잘 도와주는 모델”로 발전시키는 다리 역할을 합니다.
관련 용어
자연어 처리 (NLP)
어텐션 (Attention)
입력 데이터에서 중요한 부분에 집중하는 딥러닝 메커니즘
자연어 처리 (NLP)
에이전트 (AI Agent)
스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI
자연어 처리 (NLP)
임베딩 (Embedding)
텍스트나 이미지를 숫자 벡터로 변환하는 표현 기술
자연어 처리 (NLP)
재랭킹 (Reranking)
초기 검색 결과를 다시 평가해 더 관련도 높은 순서로 재정렬하는 후처리 단계
자연어 처리 (NLP)
정보 유실 현상 (Lost in the Middle)
긴 컨텍스트에서 문서 중간 정보가 상대적으로 덜 활용되어 답변 정확도가 떨어지는 현상
자연어 처리 (NLP)
제로샷/퓨샷 (Zero-shot/Few-shot)
예시 없이 또는 소수의 예시만으로 AI가 새로운 작업을 수행하는 방법