프롬프트 가운데 있는 정보는 GPT도 잘 까먹습니다.


Lost in the Middle: How Language Models Use Long Contexts

"중간에서 길을 잃다: 언어 모델이 긴 컨텍스트를 사용하는 방법"

대형 언어 모델(LLM) 공급업체들은 가장 큰 컨텍스트 창을 제공한다는 타이틀을 차지하기 위해 치열하게 경쟁하고 있습니다. 하지만 컨텍스트 창이 크다고 해서 항상 더 나은 결과를 얻을 수 있을까요?

스탠포드 버클리의 최근 연구 논문에 따르면 LLM은 관련 정보가 입력 컨텍스트의 시작이나 끝에 위치할 때 최고의 성능을 발휘하는 경향이 있다고 합니다. 반면, 중요한 세부 정보가 중간에 위치하면 성능이 현저히 저하되어 U자형 성능 패턴을 보인다고 합니다.

또한 컨텍스트 창이 커질수록 전반적인 성능은 일반적으로 감소합니다.

따라서 컨텍스트 창이 넓은 대형 모델에 열광할 수 있지만, 이것이 진정으로 가장 중요한 고려 요소인지 의문을 제기할 필요가 있습니다.


3
3개의 답글

👉 이 게시글도 읽어보세요