https://news.hada.io/topic?id=853916GB T4 / 24GB RTX3090 같 은 제한된 GPU 환경에서 LLM을 운영하는 고성능 생성 엔진약 100배까지 엄청 빠른 오프로딩으로 175B 모델을 싱글 GPU에서 운영 가능파라미터와 어텐션 캐쉬를 최대한 압축(정확도 손실이 거의 없는 4비트까지 낮춤)분산 병렬 런타임으로 GPU 추가시에 쉽게 확장 가능