안녕하세요 온라인에 있는 자료로 LLM에 대해서 공부해보고 있는 왕초보입니다.
선배님들께 질문하나만 드리겠습니다..
Langchain으로 허깅페이스 meta의 LLAMA나 ko leaderboard에 있는 모델들을 불러와서
추론은 잘되고 있는데요
문제는 GPU(CUDA)를 사용해도 CPU 로 추론하는 것보다 속도가 느립니다. 무슨 문제일까요?
아래 값이 -1일때 대비해서 0으로 되어 있을 때 확실히 CPU 이용률이 낮고 GPU메모리 사용량이 늘어나는게 보이는데요..
os.environ["CUDA_VISIBLE_DEVICES"]='0'
from langchain import LLMChain
아래 두 PC 환경에서 실험했을 때 추론 속도 차이가 아래와 같습니다. 어떤 부분을 살펴보면 좋을지 조언을 부탁드립니다.
1. Xeon(R) Gold 6226R CPU x 2ea / RTX 6000 24GB
CPU: 4.5~5.1s / GPU: 24s
2. Xeon(R) Gold 633Y CPU x 2ea / T400 4GB
CPU: 2.5-4s 대 / GPU: 25 ~ 27.5 s