## 소개
OpenClaw에 무료 TTS를 붙여보면서 어떤 엔진이 실제로 안정적으로 동작하는지 확인해본 사례입니다.
이번에는 Edge TTS만 본 게 아니라 XTTS v2와 Piper도 함께 시도했습니다.
결론부터 말하면, 이번 환경에서 무료로 실제 동작까지 안정적으로 확인된 건 Edge TTS뿐이었습니다.
## 진행 방법
먼저 Piper를 시도했습니다.
하지만 Piper는 별도 스크립트, 모델 파일, 실행 경로, 출력 포맷까지 맞춰야 해서 OpenClaw 기본 흐름에 바로 붙이기 어려웠습니다.
설치형 엔진이라기보다 런타임 연결 작업이 필요한 쪽에 가까웠고, 결국 실사용 가능한 상태까지 이어지지 못했습니다.
XTTS v2도 시도했지만 결과는 비슷했습니다.
런타임 정합성이 깨져 있었고, 일부 설정이 맞지 않으면서 음성이 나오지 않고 TTS 태그가 그대로 새는 증상까지 겹쳤습니다.
이쪽도 엔진 자체보다 OpenClaw와의 통합 단계에서 막혔다고 보는 게 더 맞았습니다.
반면 Edge TTS는 별도 API 키 없이도 기존 provider 흐름 안에서 가장 자연스럽게 붙었고, 실제 음성 생성까지 바로 확인할 수 있었습니다.
## 결과와 배운 점
이번 작업에서 느낀 건, TTS 엔진은 단순히 품질만 좋다고 되는 게 아니라는 점이었습니다.
실제로는 아래가 더 중요했습니다.
- 현재 런타임 구조와 잘 맞는지
- 설정과 경로를 얼마나 적게 건드려도 되는지
- 실제 음성 생성까지 바로 검증 가능한지
이번 사례의 결론은 분명했습니다.
- Piper는 로컬 무료 후보였지만 통합 난이도가 높았습니다
- XTTS v2도 기대와 달리 런타임 통합에서 막혔습니다
- 현재 환경에서 무료로 실제 동작까지 확인된 건 Edge TTS뿐이었습니다
## 앞으로의 계획
다음에는 단순히 엔진을 더 바꿔보기보다, 현재 구조에서 로컬 TTS를 붙일 때 필요한 통합 조건과 우선순위를 먼저 정리해보려고 합니다.
이번에 가장 크게 느낀 건, 실제 운영에서는 좋아 보이는 엔진보다 지금 구조에 안정적으로 붙는 엔진이 더 중요하다는 점이었습니다.
도움이 필요한 점은 현재 구조에서 로컬 TTS 엔진을 다음 단계로 확장하려면 어떤 부분부터 우선순위를 두고 정리하면 좋은지에 대한 조언입니다.