바이브 코딩

Moderator

🌿 뉴비 파트너

2년 전·바이브 코딩에 게시됨

Prometheus, 적절한 참조 자료가 추가되면, GPT-4 평가와 동등한 언어모델

Excited to present 🔥Prometheus, a fully open-source evaluator LM that is on par with GPT-4 evaluation when the “appropriate” reference materials are appended!

* Could generalize to customized score rubrics
* Shows high correlation with both human evaluators & GPT-4 evaluation
— Seungone (Scott) Kim (@seungonekim) October 15, 2023

Paper page - Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

Prometheus는 GPT-4와 동등한 성능의 평가 능력을 가진 완전한 오픈소스 대형 언어 모델(LLM)로 제안됩니다. 참조 자료가 함께 제공되면 특화된 평가 기준에 따라 긴 텍스트를 평가할 수 있습니다.
실험 결과, Prometheus는 45개의 맞춤형 점수 루브릭을 사용하여 인간 평가자와의 피어슨 상관 관계가 0.897로, GPT-4 (0.882)와 비슷하며, ChatGPT (0.392)보다 월등히 뛰어납니다.
Prometheus는 다양한 벤치마크와 두 개의 인간 선호도 벤치마크에서 가장 높은 정확도를 보이며, 인간 선호 데이터셋에 명시적으로 훈련된 오픈소스 보상 모델보다 우수한 성능을 보입니다.

서비스 개발

2

👉 이 게시글도 읽어보세요