설문 없이 가상 고객 반응 3,400건 — 합성 페르소나로 신규 포맷 검증한 실전기

새 상품을 기획할 때 제일 답답한 건 검증 속도예요. 저는 지피터스 스터디와 별개로 'AI 챌린지' 라는 포맷을 준비 중인데, 기간·보증금·인증 방식 등을 조합하니 포맷 후보가 10개 넘게 나왔어요......

기간 갯수 X 보증금 갯수 X 인증 방식 갯수 X 책임장치 X 보상 구조 X 가격 .... -> 이걸 다 메트릭으로 만들면 어마어마한 수가 나옵니다.

[변수 예시]

그래서 합성 페르소나에게 먼저 팔아봤습니다. 가상의 한국인·미국인 400명에게 10개 넘는 포맷을 보여주고 구매·완주·재참여 반응 3,400건을 점수화했더니, "무엇부터 사람에게 테스트할지" 순위가 하루 만에 나왔어요. Claude Code 한 세션에서 리서치부터 보고서까지. 그 과정과, 잘못된 결론을 낼 뻔했던 실패담을 공유합니다.

이런 과정으로 진행했어요!

합성 페르소나, 왜 설문 대신?

합성 페르소나는 실제 인구 통계를 따라 AI가 만든 가상 인물 프로필이에요. NVIDIA가 공개한 Nemotron-Personas 데이터(한국판·미국판)에서 시장별 200명을 뽑아, 각자에게 역할을 주고 챌린지 포맷에 대한 반응을 받았습니다. 진짜 설문이면 모집에만 며칠과 비용이 드는 일이죠.

물론 AI가 연기하는 가상 고객은 진짜 고객이 아닙니다. 이 한계를 어떻게 다뤘는지가 이 글의 핵심이에요.

순서가 중요 — 실측 데이터부터

시뮬레이션부터 돌리지 않았습니다. 로나에서 받은 맞춤 스킬을 따라 Claude Code에서 진행하되, 순서를 이렇게 잡았어요.

우선 데이터를 확보하는 게 중요할 것 같아. 과거 스터디 포맷들을 보고
→ 챌린지화 베리에이션 만들기 → 그 다음에 시뮬레이션 전략을 짜야겠지?

따라 하실 분이 가장 먼저 알아야 할 한 가지가 이거예요.

본인 서비스의 실측 데이터와 타사 리서치를 먼저 확보할 것. 실측이 없으면 시뮬레이션 결과가 이상해도 "이상하다"는 판단 자체를 못 합니다. 저희는 과거 22개 기수의 완주·재참여 비율 추세를 기준선으로 깔고, 챌린저스·메모어·트레바리·Ship 30 for 30 등 4곳을 에이전트 3개로 병렬 조사시켜 변수의 현실적인 값을 채웠어요.

AI가 처음에 완성된 조합 10개를 던졌을 때도 받지 않고, "변수 → 값 → 조합" 순서로 재구성시켰습니다. 변수 단위로 쪼개두면 새 조합을 계속 만들 수 있어서, 일회성 조사가 아니라 반복 가능한 검증 파이프라인이 돼요.

핵심 설계 — 숫자를 직접 묻지 않기

페르소나에게 "10점 만점에 몇 점?"이라고 물으면 AI는 그럴듯한 숫자를 지어냅니다. 대신 두 가지 장치를 썼어요.

1) SSR 방식 — 자유롭게 말하게 한 뒤, 답변이 미리 준비한 기준 문장("당장 신청하고 싶다" ~ "전혀 관심 없다") 중 어디에 가까운지 의미 유사도로 점수화합니다. 의미 유사도는 문장을 숫자 좌표로 바꿔 가까움을 재는 기술(임베딩)이에요. 한마디로 "말하게 하고, 말의 뉘앙스를 잰다."

2) 행동 시나리오 질문 — 태도 대신 행동을 묻습니다.

"마감 이틀 전입니다. 결제 / 찜만 해두기 / 무료 대안 찾아보기 / 창 닫기 — 무엇을 하시겠어요?"

"참여하고 싶으세요?"라고 물으면 다들 좋다고 해요. 선택지를 골라야 분포가 나옵니다.

실행은 Claude Code가 백그라운드로 돌렸고, 한국 응답을 수집하는 동안 미국 쪽을 병행해 3,400건 수집 + 점수화가 오후 안에 끝났습니다.

실패담: "바로 결제 71%"는 믿으면 안 되는 숫자

미국 결과에서 "바로 결제"가 71%가 나온 포맷이 있었어요. 좋아할 일이 아니라 의심할 일이었습니다.

바로 결제하겠다고 응답한 사람이 너무 비중이 높은 것 같은데 뭔가 잘못 시뮬레이션이 된 건 아닐까?

분포를 분해해 보니 AI 페르소나는 "창 닫기"를 거의 안 골랐어요(0~3%). 현실에선 방문자 대다수가 그냥 떠나는데요. AI 특유의 호의 편향으로 절대치가 전반적으로 부풀어 있던 겁니다.

그래서 원칙을 정했습니다. 절대치는 버리고 상대 순위만 쓴다. "71%가 결제한다"가 아니라 "A가 B보다 매력적"까지만. 모든 포맷이 같은 편향 아래 평가됐으니 순위 비교는 유효하다는 논리이고, 과거 실측 추세와 방향 일치도 교차 확인했어요.

예상 못 한 발견: 보증금을 계산하는 방식이 나라마다 다르다

한국 페르소나는 보증금이 붙어도 구매 의향이 거의 안 깎였는데(−3.5%p), 미국은 크게 깎였습니다(−19.5%p). 액수를 줄여도 회피가 안 풀렸어요 — 존재 자체가 장벽.

응답을 읽어보면 한국 페르소나는 보증금을 "어차피 돌려받는 돈"으로 분리 계산하고, 미국 페르소나는 참가비+보증금을 "총 선납액"으로 합산 인지했습니다. 전세처럼 맡겨두는 돈이 익숙한 문화와, 리베이트를 불신하는 문화의 차이로 읽혔어요. 덕분에 "미국은 보증금 없는 모델 병행"이라는 결정이 하루 만에 나왔습니다.

결과

숫자 밖의 변화가 더 커요. "이 포맷 어때?"가 직감 대결이 아니라, "시뮬레이션 상위권 + 편향 보정 완료"라는 공통 출발점에서 시작하게 됐습니다.

분명히 해둘 것: 이건 예측이 아니라 깔때기입니다. 여러 포맷을 사람에게 다 테스트할 수 없으니 순서를 정해주는 도구예요. 신뢰도는 "중간"으로 명시했고, 상위 포맷만 실제 사람 대상 검증(가짜 판매 페이지)으로 넘기는 중입니다. 유저 테스트를 대체하는 게 아니라, 유저 테스트의 타석을 아껴주는 거죠.

AI 활용 팁!

"후보는 많은데 실측은 비싼" 상황이면 어디든 적용됩니다. 가격 구성안 비교, 랜딩 메시지 후보 좁히기, 이벤트 보상 설계 비교 같은 것들요. 단, 네 가지를 지키세요.

실측 기준선 먼저 — 과거 지표와 타사 리서치 없이 돌리면 틀려도 못 알아챕니다.
절대치는 버리기 — AI 가상 고객은 호의적입니다. "A가 B보다 낫다"까지만.
측정 문장 의심하기 — 기준 문장에 특정 후보에만 유리/불리한 단어가 없는지 검수. 단어 하나로 순위가 뒤집힙니다.
너무 좋은 결과는 분해하기 — 직감과 어긋나는 숫자는 선택지 분포를 쪼개보면 원인이 보입니다.

바로 쓸 수 있는 프롬프트

나는 [신규 상품/포맷]의 후보 [N]종 중 무엇을 먼저 테스트할지 정하고 싶어. 다음 순서로 진행해 줘.
내 과거 실측 데이터([지표 파일])를 기준선으로 정리
[참고할 타사 서비스 2~4곳]을 조사해 변수(기간, 가격, 인증 방식 등)와 현실적인 값 목록 만들기
변수 조합으로 후보 포맷을 만들고 나와 합의
공개 합성 페르소나 데이터(예: NVIDIA Nemotron-Personas)에서 [타깃 시장] 페르소나 [인원]명을 뽑아, 점수를 직접 묻지 말고 ① 자유 응답 ② "결제/찜/무료 대안/창 닫기" 택일 행동 시나리오로 반응 수집
자유 응답은 중립 기준 문장과의 의미 유사도로 점수화하되, 기준 문장에 특정 후보에만 해당하는 단어가 없는지 먼저 검수
절대치가 아닌 상대 순위로 정리하고, 과거 실측과 방향 일치를 교차 확인한 보고서 작성
[대괄호]는 본인 상황에 맞게 바꾸세요.

📣 24기 대기자 모집이 시작되었습니다!