"중간에서 길을 잃다: 언어 모델이 긴 컨텍스트를 사용하는 방법"
대형 언어 모델(LLM) 공급업체들은 가장 큰 컨텍스트 창을 제공한다는 타이틀을 차지하기 위해 치열하게 경쟁하고 있습니다. 하지만 컨텍스트 창이 크다고 해서 항상 더 나은 결과를 얻을 수 있을까요?
스탠포드 버클리의 최근 연구 논문에 따르면 LLM은 관련 정보가 입력 컨텍스트의 시작이나 끝에 위치할 때 최고의 성능을 발휘하는 경향이 있다고 합니다. 반면, 중요한 세부 정보가 중간에 위치하면 성능이 현저히 저하되어 U 자형 성능 패턴을 보인다고 합니다.
또한 컨텍스트 창이 커질수록 전반적인 성능은 일반적으로 감소합니다.
따라서 컨텍스트 창이 넓은 대형 모델에 열광할 수 있지만, 이것이 진정으로 가장 중요한 고려 요소인지 의문을 제기할 필요가 있습니다.
프롬프트 가운데 있는 정보는 GPT도 잘 까먹습니다.
3
3개의 답글