GRPO (Group Relative Policy Optimization)
여러 추론 경로를 비교해 상대 보상으로 정책을 업데이트하는 추론 특화 강화학습 기법
#GRPO#Group Relative Policy Optimization#추론 특화 강화학습#정책 최적화
GRPO란?
GRPO는 Group Relative Policy Optimization의 약자로, 여러 후보 추론 경로를 그룹 단위로 비교해 상대적으로 더 나은 경로를 강화하는 방법입니다.
어디에 쓰이나요?
긴 추론, 수학·코딩 문제처럼 중간 단계 품질이 중요한 과제에서 자주 언급됩니다.
이해 포인트
절대 점수 하나만 보는 방식보다 "같은 문제의 후보들 중 무엇이 더 낫나"를 반복 비교해 추론 안정성을 끌어올리는 데 초점을 둡니다.
관련 용어
관련 용어
자연어 처리 (NLP)
어텐션 (Attention)
입력 데이터에서 중요한 부분에 집중하는 딥러닝 메커니즘
자연어 처리 (NLP)
에이전트 (AI Agent)
스스로 판단하고 도구를 활용해 작업을 수행하는 자율 AI
자연어 처리 (NLP)
연쇄 추론 유도 (Chain-of-Thought Elicitation)
모델이 답변 전 사고 과정을 단계별로 드러내도록 유도하는 프롬프트 기법
자연어 처리 (NLP)
임베딩 (Embedding)
텍스트나 이미지를 숫자 벡터로 변환하는 표현 기술
자연어 처리 (NLP)
재랭킹 (Reranking)
초기 검색 결과를 다시 평가해 더 관련도 높은 순서로 재정렬하는 후처리 단계
자연어 처리 (NLP)
정보 유실 현상 (Lost in the Middle)
긴 컨텍스트에서 문서 중간 정보가 상대적으로 덜 활용되어 답변 정확도가 떨어지는 현상