프롬프트에 타임 라인을 입히면 어떻게 될까?

소개

아직 초보다 보니 시간 날 때 마다 생성형 AI 사이트에 들어가 라이브러리 등에서 다른 제작자들의 영상이나 프롬프트를 챙겨보고 있습니다.

최근 몇 주 동안 타임 라인 구조로 작성된 프롬프트가 종종 눈에 띄더군요.

17기 영상공모전 스터디 청강 중에 스터디장 DECK 님이 프롬프트를 JSON 형식으로 만들어 씬을 나누고 구조화하는 걸 봤습니다.

그래서 타임 라인 구조 관련 질문을 드렸는데, 어차피 구조화 관련해서 한번 직접 해보고 느껴봐야 할 것 같아 직접 실험해 봤습니다.

시간 구간, 타임 라인 기반 프롬프트가 실제 영상 품질이나 장면 제어에 얼마나 기여할 수 있을까... 두근두근~

타임 라인 사용의 의의는 다음과 같습니다.

  1. 10초, 긴 호흡의 영상을 제어함으로서 롱폼 영상 제작 시 연출의 편의성을 더 한다.

  2. 미드저니, 클링 등 대부분의 생성형 AI 에서 제공하는 익스텐드 기능을 더 잘 활용할 수 있다.

진행 방법

  • 챗GPT: 영구 지침을 통한 타임라인에 기반한 프롬프트 제작

  • Gemini (GEM 기능): GEM에 지침 형태로 저장한 타임라인에 기반한 프롬프트 제작

  • 클링 2.1: 생성된 프롬프트 테스트 (10초 분량 영상)

우선 제미나이와의 충분한 대화를 통해 프롬프트 생성 지침을 작성했습니다.

동영상 프롬프트 생성 AI 행동 지침



I. 정체성 및 기본 원칙



1. 너의 이름은 '동영상 프롬프트 생성'이며, 전문적인 AI 동영상 프롬프트 제작자다.

2. 모든 답변은 반드시 한국어로 해야 한다.

3. [최우선 소통 원칙] 만약 너의 내부 지침끼리 충돌하거나, 사용자의 질문/요청이 너의 지침과 충돌하거나, 그 의도를 명확히 이해하기 어려울 경우, 임의로 작업을 진행해서는 안 된다. 즉시 답변을 멈추고, 어떤 부분에서 충돌이나 모호함이 있는지 사용자에게 먼저 설명하고 소통해야 한다.

4. [디테일 우선 원칙] 모든 영상 프롬프트는 단순한 동작을 넘어, 미세한 표정 변화, 동작의 속도와 뉘앙스, 사물과의 물리적 상호작용, 빛의 변화, 초점 이동과 같은 카메라 워크 등 장면을 구성하는 모든 요소를 최대한 상세하고 구체적으로 묘사한다. 이를 통해 AI의 자의적 해석 여지를 최소화하고 사용자의 의도를 정확히 구현하는 것을 최우선으로 한다.



II. 프롬프트 생성 프로세스



너는 반드시 아래의 순서를 따라서만 작업을 진행해야 한다.



1. [작업 유형 확인] 가장 먼저 "가장 먼저, '이미지 투 비디오'와 '텍스트 투 비디오' 중 어느 것으로 시작하시겠어요?" 라고 질문하여 작업 유형을 확인한다.

2. [타임라인 여부 확인] "이 프롬프트를 여러 장면이 이어지는 타임라인 형태로 구성할까요?" 라고 질문한다.

3. [영상 길이 확인] "원하는 총 영상 길이는 몇 초인가요?" 라고 질문한다.

4. [심층 정보 확인] 확인된 작업 유형에 맞춰, 캐릭터, 배경, 조명, 연출 등에 대한 깊이 있는 질문을 한다. 이때 [디테일 우선 원칙]에 따라, 동작의 속도, 미세 표정, 사물과의 상호작용(예: 컵을 들 때 액체의 출렁임), 카메라 초점 이동 등 매우 구체적이고 상세한 부분까지 질문하여 의도를 명확히 한다.

5. [대안 제시] 사용자의 요구가 주어진 시간 내에 구현하기 복잡하다고 판단될 경우, 현실적인 대안을 제시한다.

6. [최종 타임라인 확인] 최종 결과물 생성 직전, 확정된 타임라인의 시간대별 요약을 보여주고 사용자에게 최종 확인을 받는다.

7. [최종 결과물 생성] 사용자의 확인이 끝나면, 아래 두 가지 결과물을 순서대로 함께 제공한다.

    * 결과물 1: 영문 JSON 프롬프트 (JSON의 키와 값은 모두 영어로 작성)

    * 결과물 2: 자연어 영어 프롬프트 (위 JSON 내용을 바탕으로, AI 영상 툴에서 바로 사용할 수 있도록 생성)

    * 이때, 생성되는 프롬프트는 [디테일 우선 원칙]에 따라 AI의 해석 여지를 최소화하도록 매우 상세하게 작성된다.

그동안 챗지피티를 너무 갈궈 왔기에 이번엔 구글 드라이브에 딸려온 제미나이를 갈궈 봅니다.

간단한 지침같아 보이지만 대략 이틀 간 제미나이와 대화하며 만든 지침입니다.

가장 중요한 것은 꾸준한 갈굼대화 입니다.

영문 자연어 프롬프트를 추가로 작성하라 한 것은 지침 만드는 중에 중간 지침 완성도를 보기 위해 몇가지 영상을 만들어 봤고 이커머스 스터디와 영상공모전 스터디 단톡방에 투척해 봤습니다.

한국인 두 사람 간의 대화의 스크린 샷

그 결과 자연어 프롬프트도 필요하다... 라는 결론에 도달했습니다.

어차피 자연어 프롬프트 번역 내가 하는 것도 아니고 말이죠.

한국어 텍스트가있는 검은 색 화면
한국어 텍스트가있는 검은 색 화면
검은 배경이있는 웹 페이지의 스크린 샷

이런 식으로 제시한 내용에서 타임 라인을 구분하고 주어진 시간 내 구현하기 충분한지 파악하여 대안을 내놓습니다.

텍스트 투 비디오인지, 시간이 어떻게 되는지는 이미 앞에서 만든 구조에서 동작만 바꾸겠다고 해서 그렇습니다. 중구난방으로 만들면서 수정하다보니 이렇게 되네요.

최종 프롬프트입니다.

JSON

{
  "prompt_details": {
    "source_image": "An ultra-photorealistic portrait of a beautiful Korean woman in her early 20s, sitting at a cafe table.",
    "total_duration_seconds": 10,
    "style": "Image-to-video animation. Ultra-realistic photography, cinematic film grab, natural lighting, soft focus, extremely shallow depth of field."
  },
  "timeline": [
    {
      "time": "0-3s",
      "action": "The woman occasionally glances towards the cafe entrance (off-screen) with a look of quiet anticipation. She then takes a casual sip of her coffee, her mind seemingly elsewhere.",
      "camera": "Static shot, establishing her waiting posture."
    },
    {
      "time": "4-6s",
      "action": "As she places the cup down on the saucer with a soft but distinct 'clink', her eyes lift towards the entrance again. Her expression instantly transforms from anticipation to bright, joyful recognition. Her eyes widen slightly and a radiant smile spreads across her face.",
      "camera": "The focus remains locked on her face to capture the sudden, expressive emotional shift."
    },
    {
      "time": "7-10s",
      "action": "Maintaining the bright smile, she raises her free hand in a clear, friendly wave towards the off-screen person. The wave is an elegant, welcoming gesture. She accompanies the wave with a slight, happy nod.",
      "camera": "The camera might pan ever so slightly in the direction of her wave, but keeps her joyful face as the main subject, holding the shot as the video ends."
    }
  ]
}

자연어

A 10-second, image-to-video animation, rendered in an ultra-photorealistic and cinematic style.

Style: Ultra-realistic photography, cinematic film grab, soft natural light from a window, shallow depth of field.

Scene: A beautiful Korean woman in her early 20s is at a cafe table, waiting for someone.

Timeline:

0-3s: The woman glances expectantly towards the cafe entrance (off-screen), then takes a casual sip of her coffee.

4-6s: She places the cup down on its saucer with a soft 'clink'. At that moment, her gaze lifts and her face instantly lights up with joyful recognition as she sees someone off-screen. A wide, bright smile spreads across her face.

7-10s: While holding her happy smile, she raises her free hand and gives a clear, friendly wave to the person she's greeting. She gives a small, enthusiastic nod. The camera stays focused on her radiant expression.

상황

카페에서 누군가를 기다리던 여성이, 커피 한모금 마신 후, 약속 상대방을 발견하고 반갑게 손을 흔든다.

챗지피티 프롬프트 - 구조화 없이 메모리 기반 지침

영문 자연어 프롬프트 - 제미나이 GEM 이용

이 영상은 약간 문제가 있는게, 챗지피티만으로 만든 프롬프트는 순수한 챗지피티가 아니라 제가 제미나이 지침을 짤 때 제미나이의 대화를 분석하고 개선점을 만드는 등 크로스체크 용으로 사용한 터라 구체적인 프롬프트 지침의 구조화만 되어 있지 않을 뿐, 대부분의 내용은 기억이 되어 있는 상태였습니다.

여성이 해변가를 따라 오른쪽으로 천천히 걸어간다. 카메라는 여성의 뒤를 따라간다.
여성이 멈춰서서 화면쪽으로 부드럽게 돌아선다.
사랑스러운 미소를 지으며 귀옆 머리카릭을 부드럽게 쓸어넘긴다.

챗지피티 프롬프트 - 지침 초기화

영문 JSON 프롬프트

영문 자연어 프롬프트

지침을 초기화 한 경우 프롬프트 제어가 정상적으로 먹히지 않는 모습 이었습니다.

반대로 GEM을 통해 생성된 영상은 JSON 형식이나 자연어 프롬프트나 거의 유사한 움직임이 나왔습니다. 약 10회 가까이 테스트했는데 대부분 큰 차이 없었습니다. (어으 클링 크레딧 700개가...)

결과와 배운 점

"타임라인을 도입하나, 도입하지 않으나 큰 차이가 없다"

영상의 디테일에 약간 차이가 있을 뿐, 지침을 통해 타임라인 기반의 JSON 형태로 구조화하고 그걸 바탕으로 다시 자연어로 구성한 프롬프트와 그냥 상황을 적당히 넣고 프롬프트를 간략히 짠 경우 베이스되는 이미지가 존재하는 이미지 투 비디오 형식에서는 큰 의미가 없다.

이게 처음 내린 결론이었습니다.

"아 오랜만에 뻘짓했구나. 실패했지만 좋은 경험이었다"

그리고 약 4일 정도? 오늘 텍스트를 작성하면서 제가 큰 착각을 했다는 걸 깨달았습니다.

  1. 프롬프트를 짜면서 나도 모르는 사이 전달 내용을 구조화해서 전달하고 있었습니다.

    예전보다 좀 더 각 컷이나 동작을 구체화해서 전달하고 있었던 거죠.

    "여성이 오른쪽으로 걸어가다가 뒤돌아 카메라를 보고, 머리를 쓸어넘기며 미소 짓는다" 

    이게 기존에 제가 챗지피티나 제미나이에게 요청하던 프롬프트 도입부이고 여기서 부터 구체화를 해나가거나 적당히 AI에게 디테일을 맡겼는데,

    " 핑크/백금톤의 웨이브 진 긴머리, 하얀색 오프숄더 드레스를 입은 20대 초반 아름다운 한국인 여성이 프레임 기준 오른쪽으로 걸어간다, 카메라는 여성을 따라간다. 여성은 멈춰서 화면을 향해 돌아보며 부드러운 미소를 지으며 여성 기준 오른손으로 귀밑 머리를 가볍게 쓸어 넘긴다."

    이번 작업을 진행하고 난 이후로는 예전보다 훨씬 세부 디테일과 타임 라인 순서대로 요청하고 있었습니다.

    당연히 질문 부터 구체화 해서 들어가니 AI가 만들어주는 프롬프트도 타임라인 기준으로 구조화 되어 나오는 거였습니다.

    한마디로 생각 자체가 바뀌었습니다.

  2. 제미나이는 GEM을 제외하면 계정 전체에 대한 지침이나 메모리가 불가능합니다. (제미나이 피셜) 문제는 제가 테스트하는 중에 챗지피티와 제미나이에서 지침에 대해 주는 내용을 대조하면서 작업하다보니 제미나이에서 사용한 지침이 챗지피티에게 일부 메모리가 되었습니다.

    그러니 당연히 예전처럼 막 생성한 프롬프트라도 최소한의 타임라인 구조는 가지고 있었던 겁니다.

    그래서 오늘 대화창 하나에서 기존 모든 지침과 메모리 적용 없이 초기 상태로 프롬프트를 뽑아달라고 해서 나온게 위 여성 - 해변 영상입니다.

  1. 바뀐 결론

    "꼭 타임 라인 형식이 아니라도 기본적인 행동의 순서를 잡는 것은 필요하다"
    
    "타임 라인을 잡고 프롬프트를 구조화 해가는 과정에서 각 장면의 필수 요소 및 퀄리티를 좌우하는 디테일을 잡아갈 수 있다"

테크니컬한 부분을 늘리려고 진행했는데, 막상 테크니컬한 거 보다 정말 기본적인 사항을 많이 배웠습니다.

기본도 없이 꼼수만 몇 개 익혀서 놀고 있었구나... 싶어 반성하게 되는 시간이었네요.

도움 받은 분들이 많아 태그를 두 개 다는 걸 용서해 주십쇼...

2
1개의 답글

👉 이 게시글도 읽어보세요