RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
인간의 피드백을 기반으로 한 강화학습(RLHF)과 AI 피드백을 기반으로 한 강화학습(RLAIF)을 비교, 두 방법 모두 비슷한 성능 향상을 보임.
요약 작업에서 인간 평가자는 RLAIF와 RLHF가 기존 의 지도학습 모델보다 약 70% 더 선호함.
RLAIF는 RLHF의 확장성 문제를 해결할 수 있는 가능성을 제시, 인간 평가자는 두 방법을 동등하게 선호함.