OpenAI에서 새로운 영상 생성 AI 'Sora'를 공개했어요. 이 AI는 기존에 많이 사용되던 RunwayML의 Gen-2나 PikaLabs의 Pika보다 더 실감 나는 화질을 자랑하며, 영상에서 자주 보이는 끊김 없이 부드럽게 재생되어 많은 사람들의 관심을 끌었답니다.
사람들이 Sora에 대해 자세히 살펴보니, 영상 속 물체들이 서로 부딪히지 않고 경계를 잘 인식하는 점, 물체들 사이의 상호작용이 자연스럽게 표현되는 점 등을 발견했어요. 또한, 물리 법칙을 잘 반영한 장면들도 있어, 이 AI가 현실 세계의 물리 법칙을 잘 구현하려고 노력한다는 추측이 나왔어요.
Sora는 다른 AI와 달리 다양한 크기와 비율의 영상을 활용해 학습을 진행했어요. 이 AI는 영상을 '패치'라고 하는 작은 단위로 나누어, 마치 언어를 처리하는 AI가 문장을 단어 단위로 나누듯이 영상을 처리하는 새로운 방식을 시도했죠. 이렇게 만들어진 Sora는 단순한 디퓨전 모델이 아니라 '디퓨전 트랜스포머 모델'이라고 명명되었어요.
Sora의 목표는 단순히 영상을 만드는 것에 그치지 않아요. 이 AI는 영상에서 장면과 물체가 시간에 따라 일관되게 변화하도록 만드는 것, 물체들 사이의 상호작용과 물리적 작용을 잘 표현하는 것에 집중하고 있어요. 예를 들어, 사람이나 동물, 물체가 화면에 가려지거나 화면 밖으로 나가도 그 존재를 잊지 않고, 영상 속에서 여러 장면에 걸쳐 같은 인물이 등장해도 그 모습을 일관되게 유지할 수 있어요. 심지어 Sora는 간단한 상호작용을 시뮬레이션할 수도 있어, 예를 들어 화가가 캔버스에 그림을 그리는 모습이나 사람이 햄버거를 먹는 모습을 자연스럽게 표현할 수 있답니다.
물론 Sora도 완벽하지는 않아요. 아직은 유리가 깨지는 등의 복잡한 물리적 상호작용을 완벽하게 구현하지는 못했고, 때때로 영상에 뜻밖의 물체가 나타나거나 일관성이 떨어지는 경우도 있어요. 하지만 이런 디지털 영상 생성 기술의 지속적인 발전이 디지털 세계 구축에 큰 도움이 될 것이라고 기대하고 있어요.
상세한 기술 문서는 아래에서 확인 하실 수 있어요.
이 글의 보이스톤은 잡초뽑기 GPT로 정리되었어요.