Prometheus, 적절한 참조 자료가 추가되면, GPT-4 평가와 동등한 언어모델

Paper page - Prometheus: Inducing Fine-grained Evaluation Capability in Language Models
  • Prometheus는 GPT-4와 동등한 성능의 평가 능력을 가진 완전한 오픈소스 대형 언어 모델(LLM)로 제안됩니다. 참조 자료가 함께 제공되면 특화된 평가 기준에 따라 긴 텍스트를 평가할 수 있습니다.

  • 실험 결과, Prometheus는 45개의 맞춤형 점수 루브릭을 사용하여 인간 평가자와의 피어슨 상관 관계가 0.897로, GPT-4 (0.882)와 비슷하며, ChatGPT (0.392)보다 월등히 뛰어납니다.

  • Prometheus는 다양한 벤치마크와 두 개의 인간 선호도 벤치마크에서 가장 높은 정확도를 보이며, 인간 선호 데이터셋에 명시적으로 훈련된 오픈소스 보상 모델보다 우수한 성능을 보입니다.

2

👉 이 게시글도 읽어보세요