본문으로 건너뛰기
목록으로 돌아가기
자연어 처리 (NLP)

GRPO (Group Relative Policy Optimization)

여러 추론 경로를 비교해 상대 보상으로 정책을 업데이트하는 추론 특화 강화학습 기법

#GRPO#Group Relative Policy Optimization#추론 특화 강화학습#정책 최적화

GRPO란?

GRPO는 Group Relative Policy Optimization의 약자로, 여러 후보 추론 경로를 그룹 단위로 비교해 상대적으로 더 나은 경로를 강화하는 방법입니다.

어디에 쓰이나요?

긴 추론, 수학·코딩 문제처럼 중간 단계 품질이 중요한 과제에서 자주 언급됩니다.

이해 포인트

절대 점수 하나만 보는 방식보다 "같은 문제의 후보들 중 무엇이 더 낫나"를 반복 비교해 추론 안정성을 끌어올리는 데 초점을 둡니다.

관련 용어

관련 용어