LLM 기반 검색 엔진의 검증 가능성 평가Bing Chat, NeevaAI, perplexity ai, YouChat의 인간 평가기존 생성 검색 엔진의 응답은 유창하고 유익해 보이지만 지원되지 않는 진술과 부정확한 인용이 자주 포함됨평균적으로 생성된 문장의 51.5%만이 인용으로 완전히 뒷받침되고 인용의 74.5%만이 관련 문장을 뒷받침