401953691_720879596741133_654242539368321369_n.mp4
메타(Meta)는 2023년 메타 커넥트에서 기존 Emu 이미지 생성 모델을 기반으로 한 새로운 연구, Emu Video와 Emu Edit를 발표했습니다. 이는 텍스트 지시에 따른 제어된 이미지 편집 및 텍스트에서 비디오로의 생성 방법에 관한 연구입니다.
Emu Video는 텍스트만, 이미지만, 또는 둘 다를 입력으로 사용하는 비디오 생성 작업을 위한 단일 확산 모델을 사용합니다. 이는 텍스트 프롬프트에 따라 이미지를 생성한 다음, 텍스트와 생성된 이미지를 기반으로 비디오를 생성하는 두 단계로 나누어집니다.
이 모델은 기존 작업(예: Make-A-Video)에 비해 품질과 텍스트 프롬프트에 대한 충실도 면에서 사용자 평가에서 높은 선호도를 보였으며, 단 두 개의 확산 모델을 사용해 512x512 해상도의 4초 길이 비디오를 16프레임 속도로 생성합니다.