[23.04.25] 엔비디아, 비디오 생성 AI ‘비디오LDM’ 공개

엔비디아가 미국 코넬대학교와 공동으로 비디오 생성 인공지능(AI) 모델인 '비디오LDM(Video Latent Diffusion Model)'을 개발해 공개했다고 뉴아틀라스는 23일(현지시간) 보도했다.
엔비디아가 이번에 개발한 '비디오LDM'은 텍스트로 입력한 설명에 따라 최대 2048x1280픽셀 해상도의 동영상을 초당 24 프레임 속도로 최대 4.7초까지 생성할 수 있는 비디오 생성 AI다.
'스테이블 디퓨전'을 기반으로 텍스트에서 이미지를 생성하도록 사전 훈련한 잠재 확산 모델(LDM)을 수천개의 비디오로 미세조정해 이미지를 애니메이션화하는 방법을 학습했다.
특정 이미지를 사후 학습시켜 개인화된 비디오 생성하는데 비디오LDM을 활용할 수 있다. 예를 들어 고양이 이미지를 사용해 잔디에서 노는 고양이의 비디오를 생성하도록 지시하면 원본 이미지와 같은 고양이가 등장하는 비디오가 생성된다.