DATID-3D (CVPR 2023) - Text 기반 3D 데이터 생성 및 조작


안녕하세요! 서울대에서  AI, Computer vision 분야의 박사과정 김광현 (Bradley Kim) 입니다.
올해 AI top conference 중 하나인 CVPR에 “DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image Diffusion for 3D Generative Model”라는 제목의 논문을 발표하게 되었는데요! Text-to-image, Text-to-3D에 관심있으신 분들 많은 것 같아 연구의 논문, 코드, 데모를 공유를 드립니다.

관심 있으신 분들은 아래의 링크에서 비디오, 프로젝트 페이지, 코드&데모를 확인해보시길 바랍니다!
- Video: https://youtu.be/Q1wOowWnDUY
- Project page: https://gwang-kim.github.io/datid_3d/
- Code & Colab & Gradio Demo: https://github.com/gwang-kim/DATID-3D
- Reddit Post (+150 likes): https://www.reddit.com/r/StableDiffusion/comments/12bpcnr/datid3d_diversitypreserved_domain_adaptation/
- Contact: [email protected], http://gwang-kim.github.io

저희 방법에서는 먼저 Stable diffusion을 이용해 사용자가 원하는 text prompt에 따라 pose-aware dataset을 만들고, 이 데이터셋에 사전학습된 3D GAN 모델 (EG3D)을 fine-tune 합니다. 이렇게 fine-tune된 3D GAN 모델을 이용해서 1) text에 해당하는 3D  shape/pose-controlled video를 무한하게 생성하거나, 2) 한장의 2D image를 text 기반으로 조작하고 동시에 3D reconstruction까지 수행할 수 있습니다! (Text-guided 2D-to-3D)
11

(채용) 콘텐츠 마케터, AI 엔지니어, 백엔드 개발자

지피터스의 수 천개 AI 활용 사례 데이터를 AI로 재가공 할 인재를 찾습니다

👉 이 게시글도 읽어보세요