소개
시도하고자 했던 것과 그 이유를 알려주세요.
사실 명확하게 이런 주제를 하겠다 하는 게 없다 보니 기획에서부터 단단히 막혔습니다. 너무 고르기가 어려워 gpt에게 주제 추천을 부탁했어요. 여러번의 추천과 랜덤?추첨을 통해 아래의 주제로 영상을 만들어보기로 하였습니다.
어떤면에서는 남의 기획이나 주도로 무언가를 시각화 하는 작업을 하는 경우도 평소에 많았다보니 이번에도 랜덤으로 뭔가를 부탁받았을 때 ai로 제가 시 각화하고 최종 컨텐츠화 하는 연습을 한다 느꼈던 것 같습니다.
1차 선택 주제는 아래와 같습니다.
꿈에서 깨어난 예술
짧은 몽환적인 장면과 함께 꿈에서 영감을 받아 탄생한 작품을 소개.
진행 방법
기획 단계 - gpt활용
이미지 제작 - Midjourney로 생성, 합성이나 수정을 위해 Photoshop으로 일부 작업. Upscaler 활용.
Kling으로 영상 출력
TTS 기능으로 내레이션 음성 제작
기타 필요 그래픽 / 이미지 제작 (gpt 4o)
어도비 Premiere Pro 등을 활용하여 최종 편집
gpt내에서 앞서 선택된 주제를 토대로 기획안 작성을 부탁해보기도 하고 스크립트를 부탁해보기도 하였어요.
이후 이미지와 영상 프롬프트의 기본 뼈대를 짜기 위해 스터디장님의 gpts를 이용해 보았어요. 다만 첫 기획안이 계속 변경되어 중간 중간 추가 장면을 넣게 되었을 때는 여기서 출력된 프롬프트를 토대로 일부분만 바꾸거나 추가, 삭제, 이어 붙이기 등을 통해 활용하였습니다.
최종적으로 스토리 라인은
인물의 꿈 속으로 들어가기 - 꿈 속의 광경 - 꿈에서 깨어나는 모습 - 창작하는 모습 - 마무리
('무의식의 발현인 꿈을 통해 당신만의 예술 작품을 만들어가는 여정' 영상에 담아보기)
의 형태를 띄도록 계획하고 gpts의 기본 프롬프트를 활용하여 이미지 및 영상 제작, 그리고 마지막으로 bgm이나 자막 및 ai 음성까지 입히는 것을 목표로 하였습니다.
아 그리고 처음 주제 선정을 위해 이곳 저곳 기울이던 중 아래 영상에서와 같이 '모핑' 효과를 흉내낼 수 있다는 것을 알게 되었고 기존의 몽타주 컷 / 점프 컷 외에 이런 효과를 통해 자연스러운 트랜지션을 줄 수도 있겠다 생각이 들었습니다. 몽환적인 느낌이 주가되다보니 활용하면 좋을 것 같았어요. 클링도 이때 처음으로 결제했습니다.
https://www.youtube.com/watch?v=Iqr-wgafpho&t=403s
지난번 연습 처럼 샷을 개별로 뽑고 영상 편집 툴에서 이런 저런 기능들을 넣어 전환 효과를 줄 수 있겠지만 되도록이면 위와 같은 기능을 활용해 뽑아낸 기본 영상 자체가 부드럽게 화면 전환이 이뤄지면 좋겠다 싶었어요.
이미지 작업
이후 이미지 출력을 위해 여러 서비스를 알아보던 중 겜스고를 통해 미드저니를 구독하여 사용해 보았습니다. 비교적 저렴하게 활용할 수 있는 방법이라고 해서 선택하였는데 실제 웹 구동 서비스는 어떤지 모르겠네요. 보다 세부적인 선택도 가능하고 성능이 더 좋으려나요?
앞서 gpts 에서 출력해준 프롬프트를 토대로 그대로, 혹은 변용하여 여러가지 이미지들을 출력하였습니다.
프롬프트 작성이 서투르기도 하고 서비스 이용도 처음이라 구체적인 장면 편집에 많은 어려움을 겪었던 것 같아요. 그냥 여러 번 시도하는 걸로 대신했습니다 ㅠㅠ..
영상의 맨 처음 장면에서 머리의 열려있는 부분으로 카메라가 빨려들어가고 해당 장면이 부드럽게 다음 장면 - 꿈 속의 장면 - 으로 이어지도록 만들고 싶었습니다.
다른 방법을 생각해내지 못해서 이 때는
최대한 1번 이미지를 크게 뽑고
다음 장면의 start frame 이 될 부분을 1번 이미지에서 크롭
크롭되어 해상도가 떨어졌으니 무료 업스케일링 툴로 키워보자
를 생각했어요. 'MAGNIFIC' 이라는 업스케일러-인핸서도 알게 되었는데 좋아 보이는 만큼 너무 비싸더라고요.. ㅎㅎ
혹은 원래 계획대로 'Start Frame'용 1장, 'End Frame'용 1장을 뽑았습니다.
이후 꿈이 끝나고 인물이 등장하는 부분에서는 'Character Reference' 등을 활용해 보았는데요. 저는 최종 결과에서 인물의 얼굴이 등장하는 정면 샷을 쓰지 않기로 했지만 뽑아내는 이미지들 속, 인물의 모습이 꽤나 일관되게 뽑혀져서 놀랐습니다.
앞 장면에서 이 이미지를 쓰기로 했다면
그대로 다음 이미지 뽑을 때 캐릭터 레퍼런스로 추가하였고
나름 제 기준에선 인물을 비슷한 느낌으로 뽑아내어 주더라고요
영상화 작업
앞서 뽑은 이미지들을 토대로 클링에서 영상 작업을 진행하였고 Frames에서 start - end frame 기능 / Elements 에서 여러 요소들을 결합하여 하나로 합치는 기능을 활용하여 영상을 뽑아냈습니다.
제가 근데 처음 '5초'로 뽑고 렌더가 끝난 이후 결과물을 확인한 뒤 5초 연장하기를 눌러 10초로 만들면 end frame에 넣은 그 이미지로 끝나지가 않아 영상이 튀게 되더라고요 ㅠㅠ 그리고 프롬프트에도 카메라 무브먼트를 지정해 주는 것을 깜빡하거나해서 크레딧을 많이 낭비하기도 했습니다.
처음에 잘 계획해서 뽑아야 되겠더군요.
뽑은 영상들을 그대로 편집 툴에서 이어붙여보니 아래와 같은 결과물이 나왔습니다.
https://vimeo.com/1069114100/8b1498ab4c?share=copy
4-5초경 전환에서는 전환의 방향이라고 할까요? 관 찰자의 움직임 방향이 급작스레 달라지는 것 같아 약간 어색하게 느껴지고
15초와 20초에서는 앞서 말씀드린대로 클링에서 '5초에서 10초 연장하기'를 사용하는 바람에 프레임이 튀는 게 느껴지네요
40초 이후 마지막 장면을 여러번 시도했는데 제가 미드저니로 뽑았던 그림이 종이 위에 그려져 있게 만드는 것은 실패했습니다. 카메라 워크도 정면에서 탑뷰로 넘어가는 걸 원했는데 얼추 비슷할 때가 있는 가 하면 인물의 옆쪽으로 돌아들어가거나 아예 탑뷰에서 시작해버리는 등 제각각이더라고요. 이건 제 프롬프트 작성 능력이 부족한 탓인 것 같습니다.
2주차 수업 후 Kling의 elements 기능을 사용하여 몇몇 장면을 다시 뽑아봤습니다. 특히 마지막 장면에서는 미드저니에서 뽑은 특정 이미지가 캔버스 위에 구현되는 것을 원했었는데요.
kling에 업로드한 2번째 레퍼런스 이미지는 아래의 왼쪽 이미지 위에 추가적으로 합성하여 따로 만들어낸 후 업로드하였습니다. 그냥 넣었더니 영상 속 캔버스 위에 왼쪽 그림이 출력되더라고요.
아 그리고 Kling 의 프롬프트 입력창에 'DeepSeek' 라는 것이 있던데 제가 입력한 1차 프롬프트를 다듬고 바꿔주는 역할을 해주더라고요. 뭔가 최적화가 더 잘 될까 싶어 원하는 결과가 나오지 않을 때 이 기능도 사용해봤습니다. 결국 마지막으로 선택한 버전이 DeepSeek가 만져준 프롬프트를 대부분 그대로 사용한 셈이라 나름 효과가 있었다고 봐야겠네요.
아래는 제가 이전에 실패한 프롬트프를 넣어본 모습입니다. 막 분석하더니 새로 뽑아주네요.
저 텍스트 프롬프트에서 필요 없어보이는 부분을 빼거나 일부 단어를 변경, 혹은 추가하는 식으로 사용했습니다. 예를 들어 한번은 장면에 한 사람만 나와야 하는데 두 사람이 나오더라고요. 그럴 때 'A woman sits alone' 을 추가하는 식으로요. 그런데 최근 클링 활용 사례들을 찾아보면 오히려 프롬프트를 간단명료하게 작성해야 더욱 효과적이라는 의견들이 많네요! 다음엔 아예 짧고 간결하게도 써봐야겠습니다.
브러시를 든 손의 움직임이 자연스럽지 않거나 움직여서는 안 될 그림 속 인물이 춤을 추기도 하고 주인공의 몸이 어색하게 변형되는 등 몇 번의 실패 끝에 적당한 선에서 선택하고 끝내기로 했습니다.
마지막 장면엔 일종의 메인, 서브 타이틀을 띄우고 마무리하고자 했는데요. 필요한 임의의 이미지는 새로 업데이트 된 gpt 4o를 활용하여 만들어보았습니다.
단박에 영상과 효과음이 끊어지고 등장할 타이틀 이미지라 역동적이고 힘이 느껴지면 좋겠다 생각을 했고요. 캘리그라피 형식도 잘 맞겠다는 생각을 해서 캘리그라피 이미지를 참고용으로 같이 첨부했습니다. 앞선 시도에선 부탁하지 않은 줄 바꿈이 일어나기도 하고 특유의 비정상적 한글 출력이 발생하기도 하더라고요.
이후 gpt가 써준 텍스트 스크립트를 자막으로 붙여 넣고 내레이션을 넣기 위해 1차로 클로바 더빙을 사용했습니다. 너무 단조로운 톤이라 2차로 Hailuo의 tts 기능을 사용해보았고 지금 영상의 톤에도 어울리되 어조, 억양, 리듬감 등이 훨씬 자연스럽게 느껴져 Hailuo로 선택했습니다.
Voice 마다 다를지 모르겠지만 제가 선택한 목소리는 emotion 탭에서 감정을 담았을 때의 표현이 살짝 아쉬운 느낌이었고 중립적 어조에서는 매우 좋게 느껴졌습니다. 일일 무료로 주어진 크레딧 대비 소모량이 크지 않아 꽤나 넉넉하게 느껴졌어요. 상업적 용도가 아니라면 당분간은 자주 사용할 것 같네요.
최종 영상
https://vimeo.com/1070974151/a890248568?share=copy
결과와 배운 점
어설프고 빈약한 전개를 가진 영상이긴 하지만 처음이자 본격적으로 ai를 통해 무언가를 시각화하는 연습을 할 수 있어 좋았어요. 다만 아직 부족함도 많이 느꼈는데 크게는..
각 서비스가 가진 장점이나 한계를 명확하게 파악하는 과정이 필요하겠어요. 어떤 스타일의 영상을 잘 뽑아주는지, 어떤 표현에 강점, 단점을 가지는지를 알아야 효율적으로 사용할 수 있겠더라고요.
더불어 앞선 내용을 토대로 기획안이 탄탄하게 잡혀있고 사전 시각화가 잘 되어 있어야 시행착오를 줄일 수 있겠어요. 막연하게 여러 번 시도하게 되니 실제 작업물 도출에 있어 크레딧 낭비, 시간 낭비가 컸습니다.
마찬가지로 프롬프트 작성 능력도 더 키워야겠습니다. 작업의 일관성도 그렇고 원하는 효과나 구성 등을 구현하는 능력에 아쉬움이 있었습니다. 경우에 따라 초기 기획에서 살짝 방향을 틀거나 추가 장면을 구상할 일도 있을 텐데 이럴 때도 프롬프트 분석, 작성 능력이 꽤 크게 영향을 미칠 것 같았어요.
음.. 이건 약간 상충하는 이야기지만 처음의 스토리보드나 기획에 너무 얽매일 필요가 없다면 자유롭게 풀어두고 시도해 봐도 좋을 것 같습니다. 생각했던 것 보다 더욱 멋진 장면을 의도치 않게 생성해 주기도 하고 그런 시도 속에서 색다른 아이디어가 도출되기도 하는 것이 재미있기도 했어요.
이상 첫 사례글을 마칩니다. 툴을 그래도 이것 저것 처음 써보고 시행착오를 겪어가면서 창작을 해보는 과정이 힘들면서도 참 재미있었습니다! 긴 글 읽어주셔서 감사합니다!