Gemini TTS로 AI 팟캐스트 제작하기: N8N 자동화까지 포함한 Google 음성 합성 기술 완전 가이드

Google이 I/O 2025에서 공개한 Gemini TTS는 고품질 오디오 콘텐츠 제작을 위한 강력한 도구입니다. 특히 대화형 팟캐스트를 제작하는 분들에게 유용한 기능들을 제공합니다.

다음은 n8n + Gemini TTS를 사용해서 추출한 2명이 대화하는 형식의 팟캐스트 음성 파일입니다.


Gemini TTS란? 구글의 차세대 음성 합성 기술

Gemini TTS는 Gemini 2.5 시리즈의 핵심 기능으로, 기존 텍스트 음성 변환 기술을 크게 개선한 오디오 생성 도구입니다.

🎯 Gemini TTS의 핵심 기능

🗣️ 놀랍도록 자연스러운 음성 품질

  • 텍스트를 네이티브 오디오로 출력

  • 실제 사람이 말하는 듯한 자연스러운 발음과 억양

👥 멀티스피커 지원으로 팟캐스트 최적화

  • 단일 화자뿐만 아니라 여러 화자의 목소리를 동시에 생성

  • 팟캐스트나 대화형 콘텐츠 제작에 특화된 기능

🎭 감정 표현 및 음성 스타일 제어

  • 웃음, 속삭임, 분노 같은 감정 표현 구현

  • 자연어 프롬프트로 톤, 억양, 속도 세밀하게 조절 가능

🌍 24개 이상 언어 지원

  • 전 세계 24개 이상 언어 지원

  • 입력 언어 자동 감지 및 언어 간 자연스러운 전환

⚡ 실시간 대화 및 감정 인식

  • 사용자의 목소리 감정에 따른 적절한 반응

  • 인터랙티브한 오디오 경험 제공


Gemini TTS로 대화형 팟캐스트 제작하는 방법

Gemini TTS의 멀티스피커 기능은 팟캐스트 제작에 매우 유용합니다. 역동적인 실시간 대화보다는 정확한 텍스트 낭독과 세밀한 스타일 제어가 필요한 팟캐스트나 오디오북 제작에 특히 적합합니다.

참고: 음성 생성 (텍스트 음성 변환)  |  Gemini API  |  Google AI for Developers

1단계: 멀티스피커 설정 구성

# 멀티스피커 설정은 필수!
MultiSpeakerVoiceConfig 객체를 사용하여 각 화자 구성
- 각 화자에게 'Kore', 'Puck' 등 고유 음성 지정

2단계: 자연어로 음성 스타일 제어

Gemini TTS의 강력한 기능 중 하나는 자연어 프롬프트를 통한 음성 스타일 제어입니다:

  • "흥분해서 말해줘"

  • "속삭여줘"

  • "웃으면서 말해줘"

멀티스피커 개별 제어: "Speaker1은 피곤하고 지루하게, Speaker2는 신나고 행복하게 말하게 해줘"

3단계: 음성 옵션 선택

Gemini TTS는 총 30가지의 사전 구축된 음성 옵션을 제공합니다:

  • 'Enceladus': 숨소리 섞인 음성으로 '피곤함' 강조

  • 'Puck': 경쾌한 톤으로 '신남' 강조

  • 'Bright', 'Upbeat', 'Informative' 등 다양한 특징

4단계: 대본 생성 및 음성 변환

# 대본 생성은 다른 Gemini 모델 활용
gemini-2.0-flash 등으로 먼저 대본 생성
↓
생성된 대본을 Gemini TTS로 음성 변환

실제 Gemini TTS 구현 코드

단일 화자 음성 생성

# PROMPT = "이제 Gemini에 텍스트 음성 변환 기능이 생겼습니다!"
PROMPT = "신나게 말해보세요: 이제 Gemini에 텍스트 음성 변환 기능이 생겼습니다!"
VOICE = "Alnilam"

client = genai.Client(api_key=GOOGLE_API_KEY)

response = client.models.generate_content(
    model="gemini-2.5-flash-preview-tts",
    contents=PROMPT,
    config=types.GenerateContentConfig(
        response_modalities=["audio"],
        speech_config=types.SpeechConfig(
            voice_config=types.VoiceConfig(
                prebuilt_voice_config=types.PrebuiltVoiceConfig(
                    voice_name=VOICE,
                )
            )
        ),
    ),
)

data = response.candidates[0].content.parts[0].inline_data.data
rate = 24000
file_name = "single_voice_out.wav"

print(f"\nSaving sample rate: {rate}")
wave_file(file_name, data, rate=rate)
  • 일반

  • 신나게 말해보세요.

멀티스피커 팟캐스트 생성

content에 스크립트를 제공하고 MultiSpeakerVoice 설정을 하면 자동으로 여러 사람이 대화하는 음성 파일이 생성됩니다.

  • gemini-2.5-flash-preview-05-20 모델로 생성한 스크립트 일부

노바: 안녕하세요! 인공지능의 모든 것을 파헤치는 팟캐스트, 'AI 인사이트'의 호스트 노바입니다.
오늘도 흥미진진한 AI 트렌드를 함께 알아볼 특별한 전문가를 모셨습니다.
AI 분야의 선구자, 제니님! 안녕하세요!
제니: 안녕하세요, 제니입니다.
최신 AI 기술들이 하루가 다르게 발전하고 있는데, 오늘 여러분께 가장 뜨거운 소식들을 전해드릴 수 있어서 기쁩니다.
노바: 정말 기대됩니다!
자, 그럼 바로 첫 번째 소식부터 만나볼까요?
노드 기반 AI 이미지 생성 도구, ComfyUI입니다.
제니님, 자유도가 높다는 게 정확히 어떤 의미인가요?
제니: 네, ComfyUI는 사용자가 워크플로우를 직접 설계할 수 있는 강력한 도구예요.
2,700개 이상의 커스텀 노드를 조합해서 이미지뿐 아니라 비디오, 오디오까지 생성할 수 있는 종합 AI 플랫폼입니다.
정말 원하는 모든 것을 만들 수 있죠.
노바: 와, 상상력을 현실로 만드는 도구네요!
다음 소식으로 넘어가 볼까요?
이번엔 AI 워크플로우 자동화의 핵심, n8n과 MCP 조합입니다.
이건 어떤 기술인가요?
제니: n8n은 다양한 서비스를 연결해 작업을 자동화하는 툴인데, 여기에 MCP, 즉 모델 컨텍스트 프로토콜...
  • gemini-2.5-flash-preview-tts를 사용 음성 생성

response = client.models.generate_content(
    model="gemini-2.5-flash-preview-tts",
    contents=transcript,
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
                speaker_voice_configs=[
                    types.SpeakerVoiceConfig(
                        speaker="제니",
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name="Kore",
                            )
                        ),
                    ),
                    types.SpeakerVoiceConfig(
                        speaker="노바",
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name="Alnilam",
                            )
                        ),
                    ),
                ]
            )
        ),
    ),
)

N8N으로 Gemini TTS 팟캐스트 제작 자동화

N8N 자동화 플랫폼Gemini TTS를 결합하면 완전 자동화된 팟캐스트 제작 파이프라인을 구축할 수 있습니다.

자동화 워크플로우 구성

기존에 개인적으로 만들어서 사용하던 ReadItLater 서비스에 적용해 보았습니다.

1단계: 콘텐츠 수집 (Streamlit RAG 챗봇과 자동화 툴 N8n으로 완성한 인공지능 학습 파이프라인 #2 | AI&GameDev)

  • URL 기반 정보 수집 (모바일 - 텔레그램, 웹 - 크롬엑스텐션)

  • 구글 시트 및 Obsidian 자동 저장

2단계: 스크립트 생성

  • 구글시트에 정리된 요약을 기반으로 Basic LLM Chain으로 2인 대화 스크립트 자동 생성

  • 자연스러운 대화형 콘텐츠 구성

3단계: Gemini TTS 음성 변환

  • HTTP Request로 Gemini TTS API 호출

  • 멀티스피커 팟캐스트 파일 생성

코드 편집기의 스크린 샷
  • JSON

{
  "contents": [{
    "parts":[{
      "text": "{{ $json.escapedScript }}"
    }]
  }],
  "generationConfig": {
    "responseModalities": ["AUDIO"],
    "speechConfig": {
      "multiSpeakerVoiceConfig": {
        "speakerVoiceConfigs": [{
            "speaker": "제니",
            "voiceConfig": {
              "prebuiltVoiceConfig": {
                "voiceName": "Kore"
              }
            }
          }, {
            "speaker": "노바",
            "voiceConfig": {
              "prebuiltVoiceConfig": {
                "voiceName": "Alnilam"
              }
            }
          }]
      }
    }
  },
  "model": "gemini-2.5-flash-preview-tts"
}

4단계: 배포 및 알림

  • Dropbox 자동 업로드

  • 이메일/텔레그램 알림 발송

회로의 다른 부분을 보여주는 다이어그램
한국의 YouTube 앱 스크린 샷
한국 카지노 웹 사이트의 스크린 샷

N8N 워크플로우의 장점

  • 완전 자동화: 콘텐츠 수집부터 배포까지 무인 처리

  • 확장성: 다양한 서비스 연동 가능

  • 비용 효율성: 서버리스 환경에서 저비용 운영


Gemini TTS 활용 분야와 전망

Gemini TTS는 팟캐스트 외에도 다양한 분야에서 활용 가능합니다:

🎯 주요 활용 분야

📚 오디오북 제작

  • 감정이 담긴 스토리텔링 구현

  • 캐릭터별 다른 음성 적용

🤖 대화형 챗봇

  • 자연스러운 음성 인터페이스

  • 감정 기반 응답 시스템

🌐 실시간 통역

  • 다국어 음성 변환

  • 자연스러운 언어 전환

🎓 교육용 콘텐츠

  • 인터랙티브 학습 자료

  • 개인화된 음성 튜터

🔮 미래 전망

Gemini TTS는 AI 음성 기술 분야에서 중요한 위치를 차지할 것으로 예상됩니다.


결론: Gemini TTS로 시작하는 AI 오디오 콘텐츠 제작

Gemini TTS는 현재 프리뷰 단계임에도 불구하고 이미 실용적인 가치를 보여주고 있습니다. 개발자든 콘텐츠 크리에이터든, 이 기술을 통해 여러분의 아이디어를 고품질 음성으로 구현해보세요!

🚀 지금 바로 시작하기

  1. Google AI Studio에서 Gemini TTS API 키 발급

  2. 제공된 샘플 코드로 첫 음성 파일 생성

  3. N8N 워크플로우로 자동화 파이프라인 구축

  4. 여러분만의 AI 팟캐스트 제작 시작!

Gemini TTS와 함께 AI 오디오 콘텐츠 제작의 미래를 경험해보세요. 🎙️✨

출처: https://aiandgamedev.com/ai/gemini-tts-ai-podcast-n8n/

👉 이 게시글도 읽어보세요