LLM은 왜 같은 질문에 다르게 답할까? – 웹 검색과 계산 프롬프트의 실험기

소개

LLM을 실무에 활용하면서 종종 이런 생각이 들었습니다.

"같은 질문을 했는데, 왜 모델마다 대답이 다를까?"

이 의문을 풀기 위해 두 가지 성격의 프롬프트를 가지고 실험해봤습니다.

  • 지난주: 시의성과 웹 검색이 필요한 프롬프트

  • 이번주: 입력값만으로 계산 가능한 프롬프트(Practice 10~12)

그리고 이를 Gemini, ChatGPT, Claude, Perplexity 등의 다양한 LLM에 입력하여 응답을 비교해봤습니다.

진행 방법

사용한 도구

  • ChatGPT (Thinking 모드)

  • Gemini (사고 모드)

  • Claude Opus 4.5

  • Perplexity

지난주 프롬프트 예시 (웹 검색 기반)

**현재 금리와 유동성 환경을 분석**하여 부동산 시장에 미치는 영향을 평가하세요.

1. 최신 금리 및 유동성 데이터 수집
2. 2025년 대출 규제 현황 정리
3. 수요자 유형별(실수요자/투자자) 영향 분석
4. 투자 시사점 및 모니터링 지표 도출

이번주 프롬프트 예시 (계산 기반 + 복합 분석형 프롬프트)

Practice 11: 구매 가능한 **최대 아파트 가격**을 계산해주세요.

Practice 12: 아래 **투자 조건**을 바탕으로 다음을 수행하세요:

1. **리스크 요소 식별**: 해당 투자에 영향을 미칠 핵심 리스크 5가지
2. **시나리오 분석**: ⚠️ **반드시 보수적/중립/낙관 3가지 시나리오 모두** 예상 수익률 계산 (생략 금지)
3. **스트레스 테스트**: 최악의 상황(금리 급등, 가격 20% 하락) 시 손실 규모
4. **대응 전략**: 각 리스크별 구체적인 대비책

결과와 배운 점

웹 검색 기반 프롬프트 결과

  • 같은 질문에도 LLM마다 다른 결과를 제시

  • 예: “1년 전 금리”라는 질문에 대해 서로 다른 수치를 응답

    • 어떤 모델은 최신 데이터를 기준으로 응답

    • 또 다른 모델은 과거 데이터를 가져온 듯한 반응

계산 중심 프롬프트 결과

  • 단순 수식 기반 문제로, LLM 간 거의 동일한 응답

  • 오차 없이 논리적 계산 진행, 큰 차이 없음

복합 분석형 프롬프트 실험 결과

  • 리스크 분석, 시나리오별 수익률 예측 등 고차원적인 사고가 필요한 프롬프트임에도 불구하고

  • LLM들의 응답은 대부분 유사했음

  • 그 이유는 프롬프트 설계 자체가:

    • 시나리오 기준과 수치 범위를 명확히 제시하고,

    • 계산 방식을 고정하며,

    • 판단 여지를 줄이는 분석 규칙을 포함하고 있었기 때문

  • 결과적으로 LLM은 창의적 사고보다는 “정해진 틀 안에서의 계산 및 정리”에 집중하게 되었고,

    • 그 결과 예상보다 더 높은 일관성 있는 응답을 도출함

결론

  • 정보 검색 기반 질문은 LLM이 사용하는 데이터의 출처, 업데이트 주기, 정책 등에 따라 결과가 다를 수 있음

  • 반면, 계산 기반 프롬프트구조화된 분석 프롬프트는 입력값과 논리 전개에 기반해 처리되므로 LLM별 응답이 일관됨

도움 받은 글 (선택)

  • 지난번 사례: “LLM에게 ‘1년 전 금리’를 물어봤더니?”

  • Open

1
1개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요