LLM은 왜 같은 질문에 다르게 답할까? – 웹 검색과 계산 프롬프트의 실험기

소개

LLM을 실무에 활용하면서 종종 이런 생각이 들었습니다.

"같은 질문을 했는데, 왜 모델마다 대답이 다를까?"

이 의문을 풀기 위해 두 가지 성격의 프롬프트를 가지고 실험해봤습니다.

지난주: 시의성과 웹 검색이 필요한 프롬프트
이번주: 입력값만으로 계산 가능한 프롬프트(Practice 10~12)

그리고 이를 Gemini, ChatGPT, Claude, Perplexity 등의 다양한 LLM에 입력하여 응답을 비교해봤습니다.

진행 방법

사용한 도구

ChatGPT (Thinking 모드)
Gemini (사고 모드)
Claude Opus 4.5
Perplexity

지난주 프롬프트 예시 (웹 검색 기반)

**현재 금리와 유동성 환경을 분석**하여 부동산 시장에 미치는 영향을 평가하세요.

1. 최신 금리 및 유동성 데이터 수집
2. 2025년 대출 규제 현황 정리
3. 수요자 유형별(실수요자/투자자) 영향 분석
4. 투자 시사점 및 모니터링 지표 도출

이번주 프롬프트 예시 (계산 기반 + 복합 분석형 프롬프트)

Practice 11: 구매 가능한 **최대 아파트 가격**을 계산해주세요.

Practice 12: 아래 **투자 조건**을 바탕으로 다음을 수행하세요:

1. **리스크 요소 식별**: 해당 투자에 영향을 미칠 핵심 리스크 5가지
2. **시나리오 분석**: ⚠️ **반드시 보수적/중립/낙관 3가지 시나리오 모두** 예상 수익률 계산 (생략 금지)
3. **스트레스 테스트**: 최악의 상황(금리 급등, 가격 20% 하락) 시 손실 규모
4. **대응 전략**: 각 리스크별 구체적인 대비책

결과와 배운 점

웹 검색 기반 프롬프트 결과

같은 질문에도 LLM마다 다른 결과를 제시
예: “1년 전 금리”라는 질문에 대해 서로 다른 수치를 응답
- 어떤 모델은 최신 데이터를 기준으로 응답
- 또 다른 모델은 과거 데이터를 가져온 듯한 반응

계산 중심 프롬프트 결과

단순 수식 기반 문제로, LLM 간 거의 동일한 응답
오차 없이 논리적 계산 진행, 큰 차이 없음

복합 분석형 프롬프트 실험 결과

리스크 분석, 시나리오별 수익률 예측 등 고차원적인 사고가 필요한 프롬프트임에도 불구하고
LLM들의 응답은 대부분 유사했음
그 이유는 프롬프트 설계 자체가:
- 시나리오 기준과 수치 범위를 명확히 제시하고,
- 계산 방식을 고정하며,
- 판단 여지를 줄이는 분석 규칙을 포함하고 있었기 때문
결과적으로 LLM은 창의적 사고보다는 “정해진 틀 안에서의 계산 및 정리”에 집중하게 되었고,
- 그 결과 예상보다 더 높은 일관성 있는 응답을 도출함

결론

정보 검색 기반 질문은 LLM이 사용하는 데이터의 출처, 업데이트 주기, 정책 등에 따라 결과가 다를 수 있음
반면, 계산 기반 프롬프트나 구조화된 분석 프롬프트는 입력값과 논리 전개에 기반해 처리되므로 LLM별 응답이 일관됨

도움 받은 글 (선택)

지난번 사례: “LLM에게 ‘1년 전 금리’를 물어봤더니?”
Open

AI의 파도, 함께하면 이뤄낼 수 있어요! 22기 스터디 사전판매 시작 🚀

LLM은 왜 같은 질문에 다르게 답할까? – 웹 검색과 계산 프롬프트의 실험기

소개

진행 방법

사용한 도구

지난주 프롬프트 예시 (웹 검색 기반)

이번주 프롬프트 예시 (계산 기반 + 복합 분석형 프롬프트)

결과와 배운 점

웹 검색 기반 프롬프트 결과

계산 중심 프롬프트 결과

복합 분석형 프롬프트 실험 결과

결론

도움 받은 글 (선택)

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요