[23.04.25] 엔비디아, 비디오 생성 AI ‘비디오LDM’ 공개


  • 엔비디아가 미국 코넬대학교와 공동으로 비디오 생성 인공지능(AI) 모델인 '비디오LDM(Video Latent Diffusion Model)'을 개발해 공개했다고 뉴아틀라스는 23일(현지시간) 보도했다.
  • 엔비디아가 이번에 개발한 '비디오LDM'은 텍스트로 입력한 설명에 따라 최대 2048x1280픽셀 해상도의 동영상을 초당 24 프레임 속도로 최대 4.7초까지 생성할 수 있는 비디오 생성 AI다.
  • '스테이블 디퓨전'을 기반으로 텍스트에서 이미지를 생성하도록 사전 훈련한 잠재 확산 모델(LDM)을 수천개의 비디오로 미세조정해 이미지를 애니메이션화하는 방법을 학습했다.
  • 특정 이미지를 사후 학습시켜 개인화된 비디오 생성하는데 비디오LDM을  활용할 수 있다. 예를 들어 고양이 이미지를 사용해 잔디에서 노는 고양이의 비디오를 생성하도록 지시하면 원본 이미지와 같은 고양이가 등장하는 비디오가 생성된다.

1