안녕하세요. 11기 허깅페이스 캠프 강성준입니다.
오늘은 허깅페이스에서 ToonCrafter라는 모델을 바탕으로 몇가지 실험을 해보았고, Sora와 같은 생성형 비디오 기술의 원리에 대해서 탐구하는 시간을 가져보았습니다.
생성형 텍스트 : ChatGPT, Claude 등
생성 형 이미지 : Midjourney, Stable diffusion 등
생성형 비디오 : Sora, Runway ML Gen3 등
Generative AI를 생성되는 결과물을 기준으로 카테고리를 나눴을때 위 처럼 글, 이미지, 비디오의 순서로 분류할 수 있습니다. 물론 허깅페이스를 비롯해서 훨씬 다양한 종류의 생성형 AI가 많이 개발중이지만 크게 카테고라이즈를 한다면 위와 같을것 같습니다.
생성형 텍스트와 이미지는 어느덧 기술의 완숙도가 인간 급 이상이 되었다고 생각하는데요, 아직 비디오의 경우는 sora가 공개 되기 이전이고, Gen3 역시 아직 Public에 공개는 되지 않은 상황입니다. 공개된 이후에는 또 이야기가 다르겠지만 아직은 해결할 요소가 많은 부분이 아닐까 합니다.
이에 AI 모델 개발의 최전선인 허깅페이스에서 그 기술적 원리를 공부해보고, 이후 다가올 생성형 비디오 시대를 대비해 보면 어떨까 하는 마음에 본 사례를 준비하였습니다.
ToonCrafter - a Hugging Face Space by Doubiiu
제가 오늘 공부한 사례는 ToonCrafter 입니다. 스페이스로 들어오시면, 보이는 모습은 아래와 같습니다.
“input image 1”과 “input image 2”가 보이는데요, 1번에 시작하는 이미지, 2번에 끝나는 이미지를 넣으면, 그 사이의 프레임을 Diffusion model이 채워줍니다!!!
아래 예시를 보시면, 걷는 사람의 이미지인데, 그림 왼편에 서있는 걷는 사람이미지를 1번에 넣고, 조금 오른쪽으로 이동해있는 사람 이미지를 2번에 넣으면, 걷는 동영상이 나온다는것입니다.
최대 30프레임(FPS)으로 2초까지 생성되니까, 처음과 끝 이미지를 넣으면 60장의 중간 동작 이미지가 형성이 됩니다.
즉, 애니메이션으로 치면, 원화 작업 을 2초당 하나씩 그리면, 그 사이 애니메이터가 모션을 생각하며 스스슥 그리던 30장을 걍 인공지능이 알아서 채워준다는 그런 이야기가 되겠습니다!
아직은 좀 어색하지요!
하지만 제 생각에는 생성형 비디오 시장에서 이러한 키프레임을 넣고 그에 따른 중간 과정을 그려준다는게 정말 큰 포인트라고 생각합니다. 지금까지 Runway ML이나 Sora는 아직 안나왔지만, Prompt base로 생성됩니다. 따라서 스토리를 만들거나 할때, 우연에 기대서, 프롬프트대로 멋지게 동영상이 나오길 기도메타 하는 수밖에 없었습니다.
마치 생성형 이미지 초창기에 image-to-image가 나오기 전, 프롬프트 넣고 멋진 이미지가 나오길 기대하던 기도메타 시절처럼 말입니다. 하지만 지금은 키 이미지를 넣고 그 이미지를 기반으로 스타일을 변경한다던지, masking해서 거기만 새로 생성한다던지 하는 기능이 구현된것처럼, 이러한 기술이 생성형 비디오에도 적용되어 좀 더 생성형 비디오에 대한 통제력을 가지게 되지 않을까 하는 생각이 듭니다!
그리고 Sora와 같은 굉장히 뛰어난 상업적 유료 비디오 생성 모델들의 기술적 근간도 결국 이런 키프레임과 중간 중간의 이미지가 굉장히 자연스럽게 생성된 결과가 아닐까 추측해봅니다.(아직 Sora와 Gen3의 자세한 소스코드는 공개가 안되었기에 추측만;;;ㅎㅎ)
아래는 좀 더 다이내믹한 예시!
ㅋㅋㅋ난장판이긴 합니다. 아 직은… 퀄리티 이슈가! 예시도 애니메이션으로 들어놓았더라구요. 좀더 작업이 간단하기 위해서 실사보다는 애니메이션으로 먼저 구현된듯합니다.
애니메이션의 경우는 훨씬 자연스럽긴합니다. 아래는 스페이스 공식 데모입니다!
센과치히로 였나요? 하울의움직이는 성이었나요? 할머니가 바닥에서 나오는 장면ㅋㅋ
빗길을 걷는 애니메이션, 역시 스페이스 공식 데모입니다!
훨씬 자연스럽긴 합니다. 역시 데모는 체리피킹이 어느정도 있음을 감안!!!
마지막으로 이런 Diffusion 모델이 언젠가는 생명현상 자체를 그리는데 도움이 되는 툴이 될수도 있지 않을까 하는 생각으로 만들어본 영상으로 마무리 하겠습니다. (바이러스)
바이러스가 변이되는 것을 표현하기 위해 스물스물 변화하는것을 한번 표현해보았습니다. 바이오 일러스트레이션의 새로운 시도?!ㅋㅋ 사실 이미 스톡이미지 사이트에서 구할수 있는 바이오 관련 이미지의 대다수는 AI 이미지랍니다.
허깅페이스 x 신약개발 Cross가 흥하길 바라며 이만 사례글 발표를 마치겠습니다!
감사합니다.
PS. 그리고, 이 모델의 경우는 최대 30프레임FPS이나 되는 영상을 만들기 때문인지, 굉장히 허깅페이스 리소스를 많이 잡아먹는듯 합니다.ㅎㅎ 이런 GPU Quota를 다 소진했다는 안내가 나오네요! 대략 20분정도 기다리면 다시 쿼터가 차서 한번 돌릴수가 있었습니다.
오늘 저녁 캠프에서 뵙겠습니다!!
#11기HuggingFace