소개
안녕하세요.
페이퍼비건축에서 디자인한 '건축물 영상'을
ElevenLabs 음성으로 설명하는 사례를 준비했습니다.
.
.
.
진행 방법
1.사용도구
ElevenLabs : PAPER.B 'Professional Voice Clone'
.
.
2.ElevenLabs V3 Enhance 기능 활용
https://elevenlabs.io/docs/best-practices/prompting/eleven-v3
.
.
3. Text to Speech를 통해 텍스트를 입력하고, ai 음성 생성.
3.1 Voices 선택 : 1시간 분량의 음성녹음파일을 등록하고, 개인의 'Professional Voice Clone' 생성
3.2 Text 입력 : 영상을 설명하는 텍스트 입력 및 Enhance 자동실행 또는 필요한 내용 입력
[break time="3s" /] 경기도 화성시의 서쪽 끝자락에 위치한 ‘카페 해갓’에 대해 설명드리겠습니다.
[long pause] [thoughtful] 해갓에서는 남북으로 바다를 조망할 수 있는데, 시간대별로 밀물과 썰물에 따른 각기 다른 모습의 바다경치를 볼 수 있습니다.
[long pause] [chuckles] 대지가 외진 곳에 있고, 주변보다 높게 솟은 형태였기 때문에 건물은 노출콘크리트를 주재료로 사용하여 조형성이 강조된 형태로 계획하였습니다.
[long pause] [surprised] 건물 주출입구로 들어가려면 콘크리트로 띄워져 있는 건물의 형태를 보면서 들어가게 되는데, 손님들이 이 곳에서 사진을 가장 많이 찍는다고 합니다.
[short pause] 2층테라스에서 루프탑까지 메비우스띠 형태의 동선을 이루며 건물을 이동할 수 있고, 중간에 앉아 바다를 조망할 수도 있습니다.
[short pause] 날씨가 좋을 때는 루프탑과 테라스에 뛰어노는 아이들을 볼 수 있습니다. 산들거리는 바람이 귓가를 스치고 지나갈 때 일상에서 느낄 수 없는 감정을 느낄 수 있습니다.
[long pause] [thoughtful] 내부는 모던한 디자인이 반영되었고, 가구도 최대한 심플한 형태와 색상을 유지하고 있습니다. 내부 마감재와 가구가 비슷한 질감과 색상으로 조화롭게 계획되어, 바다를 조망하는데 집중할 수 있도록 의도했습니다. [short pause] 실내를 거닐면서 보이는 뷰도 고려했습니다. 주거지가 보이는 방향은 벽으로 구성하고, 자연풍경이 보이는 곳은 유리로 구성되어 있습니다.
[short pause] 의자에 앉았을 때 최대한 외부가 잘 보이도록 창호프레임을 세심하게 계획했습니다.
[short pause] 출입구에 막 들어서면 2개층 오픈된 공간을 통해 수직적 공간감을 느낄 수 있습니다.
[short pause] 뛰어놀기 좋아하는 아이가 있는 가족은 야외에 배치된 테이블을 이용하기도 하고, 시원한 바다를 보고 싶은 이들은 2층으로 올라가 남쪽과 북쪽 두 개의 공간으로 나뉘어 바다를 조망합니다.
[long pause] [chuckles] 건물외부 스탠드에 앉아 바다를 바라볼 수도 있습니다. 스탠드에는 열선이 설치되어 있어, 겨울철에도 따스하게 이용할 수 있습니다.
[short pause] 건물을 감싸며 다양하게 연결된 외부공간의 스탠드와 계단, 그리고 루프탑과 이층을 연결하는 목재데크. 카페 해갓에서는 일상에서 느끼기 어려운 다양한 경험을 할 수 있습니다.
[long pause] [thoughtful] 2층 외부에서 루프탑으로 올라가는 계단이 있고, 그 중간에 앉아서 바다를 바라볼 수도 있습니다.
[long pause] 루프탑과 연결된 두 개의 계단에서는 각각 남쪽바다와 북쪽바다를 바라볼 수 있습니다.
[long pause] 천천히 영상을 보면서 해갓에서 바라보이는 일몰을 감상하시겠습니다.BGM만 있는 건축물 영상을 설명하는 음성을 생성
.
.
.
결과와 배운 점
1. ElevenLabs에 텍스트를 입력할때는 실제 들리는 음성을 그대로 입력하는 것이 좋습니다.
2. V3(alpha) 모델은 아직 개선중라, 장단점이 혼재되어 있습니다.
- 여러사람이 대화나누는 것을 구현할 수 있다.
- 감정표현, 억양, 시간제어 등을 포함할 수 있다.
- 음성을 두가지 대안으로 제안받을 수 있고, 2번정도 보완할 수 있다.
- 단, 실제 목소리와 싱크로율이 높지 않다.
3. 시행착오 : 아직은 최대 3초정도까지 대화를 멈출 수 있는 것 같습니다.
다만 이것도 매번 차이가 발생합니다.
4. 개선방향 : 발표전달력을 높이기 위한 다양한 사례를 경험한 것 같습니다. 이후에 잘 활용하도록 하겠습니다.
도움 받은 글 (옵션)
스터디 중 스터디장님들의 피드백