LLaMa.cpp의 가능성 분석

https://finbarr.ca/how-is-llama-cpp-possible/

  • LLaMa 추론 코드가 C++로 재작성되어 다양한 하드웨어에서 지역적으로 실행 가능하게 되었다. 하드웨어마다 토큰 처리 속도가 다르며, 최적화와 가중치 양자화로 이루어졌다.

  • GPU의 메모리 대역폭과 연산 능력은 딥 러닝에서 중요하며, 추론에서는 메모리 대역폭이 병목이 된다. int4 정밀도를 사용함으로써 메모리를 크게 줄일 수 있다.

  • LLaMa의 실행 요구 사항은 KV 캐시의 메모리 유지, 모든 매개 변수를 온칩 메모리로 읽기, 네트워크 출력 계산 등이다. 메모리 대역폭이 거의 항상 연산능력보다 작으므로 제한 요인이 된다.

2