신뢰도검증 RAG 모델 선택

소개

최근 개인 사정으로 인해 잠시 회사 업무를 쉬고 있었고, 사업계획서 업데이트보다는 복귀 후 생산성 향상을 위해 자동화, RAG(검색 기반 생성 AI), 카카오톡봇 개발 등 새로운 시스템 구축에 집중하고 있습니다.

이 때문에 지난 스터디에는 직접 참석하지 못했지만, 다행히 스터디 영상을 바로 받아 이번에 새로 설치한 WhisperX로 화자 분리 및 전사를 진행했고, 이를 바탕으로 스크립트로 내용을 정리했습니다.

특히 스터디에서 다뤄진 ‘AI가 제공하는 정보의 신뢰성 검증’이라는 주제가 현재 제가 구축 중인 로컬 RAG 시스템과 맞닿아 있다는 생각이 들어,

해당 검증 프로세스와 관련된 최신 NLI 모델 비교 후 최종 선택한 모델을 공유하려고 합니다.

수집(Crawling)
- 유튜브, 카카오톡, 블로그 등에서 정보 크롤링 (텍스트/자막 변환)
전처리/정제
- 발화/문장 단위로 분리, 불필요한 텍스트 정리
신뢰도 점수 평가 (AI)
- A. 출처 기반 신뢰도:
  출처 자체가 얼마나 믿을만한지 평가 (예: 언론사, 공식 채널, 익명 커뮤니티 등)
- B. 내용 기반 신뢰도:
  ▶ 근거 검색: 내부/외부 신뢰 데이터(위키, 뉴스, 논문, 네이버 지식백과 등)에서 자동 검색
  ▶ 팩트체킹 AI(NLI): 수집한 발화와 근거 간 “논리적 일치/모순/모호” 판단
  ▶ 점수화: 일치=1점, 모순=0점, 불확실=0.5점 등
- C. 메타정보:
  최근성, 동시다발적 출처, 사용된 단어/논조 등도 점수에 반영 가능
최종 신뢰도 종합 점수(01 사이 혹은 0100점)
- 0~1 사이로 정규화해서, 각 문장/발화/정보 단위별로 신뢰도 점수 부여
- 예)
  - 0.87 (거의 사실)
  - 0.43 (불확실, 근거 부족)
  - 0.12 (거의 거짓)

문장/주장 진위 검증 NLI 모델
- ynie/roberta-large-snli_mnli_fever_anli
- microsoft/deberta-xlarge-mnli
- (한글은 KoBERT, KoELECTRA + NLI 파인튜닝, 논문 있음)
근거 검색/추출
- RAG 파이프라인 활용:
  1. Milvus, Qdrant, Weaviate 등 벡터DB에 신뢰 데이터(뉴스, 위키 등) 넣고,
  2. 임베딩 기반으로 관련 근거 자동 검색
  3. NLI모델로 주/근거 비교
실시간 신뢰도 판별 예시
- TruthfulQA:
  생성형AI가 얼마나 진실에 근거한 답을 내는지 점수화
- ClaimBuster:
  뉴스·SNS 등 문장에서 팩트체크 필요한 주장 자동 인식 & 신뢰 점수
3. 모델 선택
- GPT 의 선택은 Qwen2.5‑7B‑Instruct 이 모델을 추천해줬는데, Instruct 튜닝이 되어있는 모델이면 NLI 도 할 수 있다고 해서 이미 설치한 Qwen2.5VL‑32B‑Instruct‑AWQ 모델을 사용하기로 했습니다.
배운점
- 원래 RAG를 처음시작할땐 유튜브나 카톡, SNS 등 인터넷에서 보고 스쳐가는 정보들을 정리해두고 싶다는 목적으로 시작했는데 이번 조사를 통해서 그와는 별개로 책이나 전문소스의 크롤링등을 통해서 정답지(?), 지식 백과사전같은걸 미리 만들어놓고 신뢰도를 검사해야겠다는

GPT와 클로드를 적극 활용하고 있는 요즘입니다. 본 글은 신뢰도 검증을 하지 않았기 때문에 틀린 내용이 있을수 있으나 혹시나 RAG 구축에 모델 고민을 하시는 분들께 도움이 될까 해서 공유합니다.