구글의 제로샷 비디오 생성을 위한 대규모 언어 모델, VideoPoet

VideoPoet는 다양한 형태의 비디오 생성 작업을 수행할 수 있는 대형 언어 모델로, 텍스트에서 비디오로, 이미지에서 비디오로, 비디오 스타일링, 비디오 수정 및 확장, 비디오에서 오디오로 변환하는 기능을 포함합니다.
이 모델은 비디오 및 오디오 클립을 이산 토큰 시퀀스로 변환하는 비디오 및 오디오 토크나이저를 사용하여, 다양한 모달리티(비디오, 이미지, 오디오, 텍스트)를 통합하고, 생성된 토큰을 다시 시각적 표현으로 변환합니다.
VideoPoet는 "타임스퀘어에서 춤추는 너구리", "반 고흐의 '별이 빛나는 밤'을 가로지르는 말", "카드를 놀고 있는 두 마리 판다" 등의 다양한 텍스트 프롬프트를 사용하여 독창적인 비디오를 생성할 수 있으며, 공공예술 및 스타일을 참조하여 책임감 있는 실습을 보장합니다.

정말 신기하네요 …