엔비디아 700만 한국인 페르소나 AI 시뮬레이션 80분 돌리고 배운 4가지

바이브코딩을 도와주는 로나를 만들면서 사용자, 그리고 결제하지 않고 이탈한 분들을 대상으로 인터뷰를 진행하고 있습니다.
실제로 인터뷰를 하면 인사이트는 깊지만 리소스가 많이 들어요. 섭외하는데도 시간이 걸리고 실제 인터뷰 진행도 만만치 않죠.

"표본을 더 넓힐 방법은 없을까?" 하던 차에 엔비디아가 한국인 합성 페르소나 700만 명을 공개했다는 소식을 봤어요. AI 페르소나 시뮬레이션을 한번 써보자, 가 시작이었습니다.

솔직히 말하면 1차로는 실패를 했고 응답을 한 줄 한 줄 다시 뜯어보면서 4가지를 배웠습니다.

어떤 데이터셋을 썼나 — Nemotron-Personas-Korea

NVIDIA가 한국 통계청, 대법원, 국민건강보험공단 등의 시드 데이터를 LLM에 넣어 만든 합성 페르소나 데이터셋이에요. 라이선스는 CC-BY-4.0(출처 표기 필요), 700만 명 분량을 9개 parquet 파일로 풀어 두었습니다.

검증하고 싶은 가설이 7개 있었어요. 예를 들면:

(시간) "내 업무에 맞춘 30분짜리 실습이라면 결제할 만큼 매력적이다"
(가격) "월 19,900원에 AI 학습 서비스를 결제할 의향이 있다"
(공유) "AI 결과물을 동료에게 공유하면 인정받는다는 점이 학습 동기가 된다"

인터뷰로 7개 다 깊이 검증하려면 시간이 너무 들어요. "어느 가설이 진짜 검증할 가치가 큰지"라도 미리 점검해 보자는 게 목표였습니다.

어떻게 만들었나 — 5단계로 정리

1단계 — 데이터셋 다운로드. 700만 페르소나 전체는 9개 파일 약 2GB. 단일 파일 1개(220MB, 110만 명)만 받아도 충분했어요.

2단계 — 우리 타겟에 맞는 표본 추출. 4년제 졸업, 25~55세, 사무·기획·마케팅·HRD 키워드로 필터링하니 9,672명. 이 중 수도권 70% / 비수도권 30% 비율로 400명을 무작위 추출했습니다.

3단계 — 가설을 페르소나에게 묻기 (싱글턴 vs 멀티턴).

각 가설을 한 문장 진술로 만들어서 페르소나에게 1~5점으로 동의 정도를 답하게 했어요. 한 페르소나가 한 가설에 한 번 답하는 식이라 "싱글턴(1회 대화)" 이라고 부릅니다.

예외는 가격 가설이에요. "월 19,900원에 결제하시겠어요?"라고 한 번 묻고 끝내면 yes/no 정도밖에 안 나와요. 그래서 가격만 연속 4번 대화를 이어갔어요. 이걸 "멀티턴(여러 번 대화)" 이라고 합니다.

턴

무엇을 물었나

1턴

9,900원 / 14,900원 / 19,900원 / 29,900원 / 39,900원 각각 결제할지

2턴

거절했다면, 어떤 조건이면 결제할지

3턴

비슷한 학습 서비스에 월 얼마 쓰는지 (앵커)

4턴

가격 외 망설임 이유

가격은 "거절 → 조건 → 비교 앵커 → 망설임"이라는 층이 있어서 한 번 묻고 끝낼 수 없거든요.

4단계 — 모델 분리. 싱글턴은 Gemini Flash(빠르고 저렴), 멀티턴은 Gemini Pro(맥락을 잘 기억). 총 2,800번 호출했어요.

5단계 — 실제 데이터와 비교. 시뮬레이션 결과가 진짜 사람과 얼마나 비슷한지 검증해야 했어요. 로나 베타 신청자 62명의 실제 직업 분포를 기준으로 시뮬 응답을 보정했습니다.

API 비용 + 실행 시간: $25 (Gemini Flash + Pro 호출 비용), wall clock 약 80분에 400명 인터뷰 시뮬레이션 결과를 얻었습니다.

페르소나 한 명을 보여드릴게요 — 황범상 씨

NVIDIA가 만들어 둔 raw data 는 이런식으로 생겼습니다.

{
  "sex": "남자",
  "age": 43,
  "education_level": "4년제 대학교",
  "bachelors_field": "공학·제조·건설",
  "occupation": "인사 및 노무 사무원",
  "district": "서울-서초구",
  "is_metro": true,

  "persona": "황범상 씨는 서초구에 거주하며 부동산업계 인사관리자로
              일하는, 건강 관리가 시급한 실용주의적 40대 가장입니다.",

  "professional_persona": "황범상 씨는 부동산업계의 인사관리자로
              근무하며 공학 전공자 특유의 체계적인 사고를 바탕으로
              복잡한 급여 체계와 인사 평가 데이터를 엑셀 수식으로
              정교하게 구조화하는 데 능숙합니다...",
  ...
}

페르소나 텍스트 컬럼이 7종(persona, professional_persona, sports_persona, arts_persona, travel_persona, culinary_persona, family_persona) 들어 있는데, 우리 가설이 직장 맥락이라 persona + professional_persona 두 개만 시스템 프롬프트에 깔았어요. "당신은 황범상 씨입니다, 1인칭으로 솔직하게 답하세요"가 깔린 채로 가설을 던지는 구조였습니다.

그리고 보고서가 나왔습니다 — 1차로는 실패

가설

동의율

월 19,900원 지불 의향

0.3%

공유 → 인정 → 학습 동기

17.8%

도구 연동 체감

88.5%

막혔을 때 코칭 없으면 이탈

61.3%

시간 단축 가치

100%

성취·자산화

100%

이 표만 보면 결론은 명확해 보여요. "19,900원은 비싸니 가격 인하, 공유 기능은 동기 부여 안 되니 폐기." 1차로는 거기까지가 우리 결론이었어요.

그런데 응답을 한 줄 한 줄 다시 뜯어보니 다른 그림이 보였어요. 거기서 4가지를 배웠습니다.

배운 것 1 — 0.3%에 속지 마세요

19,900원 동의율 0.3%. "비싸다"가 결론처럼 보여요. 그런데 거절한 페르소나들에게 "그럼 어떤 조건이면 사겠어요?"를 물어보면(2턴), 자유 응답을 카테고리화했을 때 대부분이 조건부 yes였어요.

거절 후 조건

비율

"도구를 진짜로 연동해주면"

28.0%

"구체적 결과물을 보여주면"

19.9%

"무료 체험을 줘야"

11.0%

"ROI를 증명해주면"

8.7%

"회사 결제로 가능하면"

3.8%

페르소나들은 "비싸서" 안 사는 게 아니라 "가격값을 증명해주지 못해서" 망설인 거였어요. 무료 체험 11%는 마침 우리가 준비 중이던 D7 trial과 정확히 맞아떨어졌고요.

헤드라인 한 줄(0.3%)과 거절 이유의 정체(조건이 충족되면 살 의향 있음)는 완전히 다른 차원이에요. 이걸 안 보면 0.3%만 보고 가격을 깎거나 가설을 폐기했을 겁니다.

배운 것 2 — 직관과 정반대인 결과는 가설 자체를 다시 짜라는 뜻

"공유 → 인정 → 학습 동기" 가설은 17.8%만 동의했어요. 처음엔 "공유 기능 만들어도 동기 부여 안 되겠네" 로 읽힐 뻔했는데, 다시 보니 가설의 인과 방향이 어색하다는 시그널이었어요.

공유는 동기가 아니라 결과다. 성취 → 신기함 → 자연스러운 공유.

페르소나들은 "인정받으려고 학습한다"는 명제를 거부한 거지, 공유 행위 자체를 거부한 게 아니었어요. 시뮬레이션이 가설 framing을 다시 짜라는 시그널을 준 셈입니다.

배운 것 3 — AI 페르소나 시뮬레이션은 "가설 검증"보다 "product QA"에 가까워요

솔직한 한계입니다. 7개 가설 중 3개(시간·성취·실행 전환)는 100% 동의가 떴어요. 검증할 가치가 없는 obvious yes들이죠.

이유 두 가지.

(1) 합성 페르소나는 "예의로 OK"라고 답하는 경향이 있어요. "AI로 30분 만에 끝낼 수 있다면 매력적인가?"에 누가 1점을 주겠어요.

(2) Nemotron 페르소나에 경제 데이터가 없어요. 26개 컬럼에 소득·연봉·자산·구독 지출이 빠져 있어서, LLM이 "한국 평균 직장인" 가정으로 가격 답을 만들어요. 그래서 400명 중 246명(61.5%)이 정확히 9,900원으로 수렴했어요. 페르소나 효과보다 첫 화면에 보여준 가격(앵커)이 더 셌다는 뜻이에요.

다음에 시뮬레이션을 돌린다면 가설 검증이 아니라 product QA 도구로 쓰는게 더 적절할 것 같다는 생각이 들었습니다. 페르소나에게 실제 우리 산출물(추천 실습, 헤드라인, 온보딩 카피)을 보여주고 forced choice/ranking으로 평가시키는 방식.

배운 것 4 — 시뮬레이션과 인터뷰는 함께 써야 합니다

시뮬만으로는 한계가 명확하고, 인터뷰만으로는 N이 너무 작아요. 결국 둘 다 필요했어요.

시뮬에서 발견한 "헤드라인 vs 조건 vs 망설임 3차원의 차이"를 베타 인터뷰에서 직접 확인하기 위해, 인터뷰 가이드를 수정했습니다.

추가된 슬롯

위치

질문

B-2-bis · N-A·N-B·N-C C-5-bis

가격 질문 직전

"최근 1년에 만족스럽게 결제한 서비스 중에, 로나와 같은 분류라고 느낀 게 있나요?"

시뮬에서 못 찾은 비교 앵커를 인터뷰가 채우게 한 거예요.

결과 — Before / After

항목

Before

After

가설 검증 방식

직관 + 베타 인터뷰만

시뮬레이션 + 인터뷰 함께

베타 인터뷰 가이드

가설별 동등 비중

가격 질문 슬롯 4개 추가

헤드라인 숫자 신뢰도

절대값 그대로

상대 순위만 신뢰

다음 시뮬 설계

(계획 없음)

product QA 도구로 전환 결정

수치보다 더 큰 변화는 사고방식이었어요. 시뮬레이션 결과를 "답"으로 받지 않고 "어디를 더 깊이 봐야 할지 알려주는 지도" 로 받게 됐다는 점이요.

다음에는 시뮬레이션을 하더라도 설계 단계에서 제가 조금 더 깊이 관여하면 유의미한 결과를 얻을 수도 있지 않았을까... 반성도 해봅니다.

📣 곧 23기 스터디 판매가 종료됩니다!