openclaw 목소리를 원하는 대로 바꾸는 작업 회고

오늘은 오디오 실험을 넘어서, 오픈클로우의 보이스 기능을 직접 고도화한 작업을 정리하려고 합니다.

원래 목표는 기본 음성 출력에서 벗어나, 상황에 맞춰 톤을 조절할 수 있는 음성 시스템을 갖추는 것이었습니다.

처음에는 기본 TTS로도 어느 정도는 처리될 것이라 생각했지만, 실제로는 응답 톤이나 말투를 일관되게 제어하는 데 제약이 있어 원하는 수준의 전달력을 확보하기 어려웠습니다.

그래서 오늘은 SuperTone API 기반으로 변경해, openclaw 음성 설정을 제어 가능한 구조로 전환했습니다.

현재 openclaw는 SuperTone API 키 연동 상태로, 보이스 톤을 포함한 주요 TTS 파라미터를 실시간으로 제어할 수 있게 정리했습니다.

실제 적용한 항목은 다음과 같습니다.

• 보이스 톤(voice tone) 제어

• 음높이(pitch)

• 음높이 변화(pitch variance)

• 말하기 속도(speed)

• 말투(스타일) 조정

• 실행 가능한 형태로 정리한 TTS 파라미터 모듈(TTSexe)

확인 과정

실행 결과는 단순히 “기능이 붙었는가”가 아니라, 실사용 조건에서 반복 가능한가로 검증했습니다.

1. 기본 호출 환경에서 음성 출력 성공 여부 확인

2. 설정값 변경 시 톤·음높이·속도가 실제 반영되는지 점검

3. 긴 텍스트에서도 끊김/큰 편차 없이 안정적으로 재생되는지 확인

기대만큼 매끈하지는 않았지만, 이전 대비 분명한 개선을 확인했습니다.

특히 파라미터가 실제로 동작하면서, openclaw 응답의 전달감이 훨씬 정교해졌습니다.

배운 점

가장 큰 수확은 “하드코딩된 음성”이 아니라 제어 가능한 음성이 중요하다는 점입니다.

보이스 관련 기능은 단순 추가 기능이 아니라 운영 품질의 일부이고, 동일 조건에서 동일한 톤이 나와야 비로소 실전에서 유효합니다.

또한 기능 추가 뒤 정돈된 실행 경로가 없으면 고도화의 이점이 사라집니다.

그래서 파라미터를 템플릿·워크플로우로 묶어두는 구조가 핵심이었습니다.

다음 계획

• 보이스 프리셋(차분/밝은 톤/무게감 있는 톤) 표준화

• 한국어/짧은 문장/긴 문장별 최적값 추려 템플릿화

• 실패 케이스 로그와 복구 루틴 정리

이번 변경으로 단순한 음성 변경이 아니라 openclaw를 더 제어할 때 재밋게 하기 위함입니다.

2026-04-01 21 00 26.mp4

1.87MB