Qwen2.5-VL + LM Studio로 로컬 OCR 테스트 및 파이썬 앱 만들기

최근 Thread에서 흥미로운 소식을 접했습니다. Qwen2.5 VL 92B/32B 모델의 OCR 성능이 뛰어나다는 이야기였죠. 특히 32B 모델이라면 로컬 환경에서도 어느 정도 돌릴 수 있지 않을까 하는 기대감이 생겼습니다.

이런 소문이 사실인지 직접 확인해보고 싶었고, 가장 접근하기 쉬운 방법을 선택했습니다. LM Studio를 활용한 테스트와 함께 Windsurf를 이용해 간단한 파이썬 앱도 제작하여 보았습니다.

사용 도구

  • LM Studio: LM Studio는 로컬에서 대형 언어 모델(LLM)을 실행하고 테스트할 수 있도록 도와주는 데스크탑 애플리케이션으로 API 서버의 기능 지원. → 로컬 모델 테스트

  • Windsurf: Cursor, Windsurf와 같은 AI 코드 에디터, 실험용 파이썬 앱 작성에 활용

  • Qwen2.5-VL-32B.Q4: 알리바바 클라우드의 Qwen 팀이 개발한 최신 멀티모달 대형 언어 모델 시리즈로 시각 정보를 이해하고 처리할 수 있는 인공지능 모델 → 이미지를 OCR 및 markdown 형태로 변환

모델 테스트

Qwen2.5 VL 32B Instruct Demo - a Hugging Face Space by Qwen

텍스트 추출 잘 되고 정확도 어느 정도 이상은 되는 결과

LM Studio에서 테스트 / 파이썬앱

  • 24G VRAM GPU에서 테스트하기 위해 Q4 양자화 버전으로 테스트

  • 할루시가 발생하거나 한글 OCR 정확도가 높지 않음

  • 설정이나 프롬프트 등 추가적인 확인 필요

Windsurf로 파이썬 GUI 앱 개발

파이썬 라이브러리나 API 사용법 등 정보만 넣어주면 간단한 파이썬앱은 개발

Adobe 코드 편집기의 스크린 샷
  • 간단한 텍스트는 추출이 잘 되는 편

  • 긴 텍스트는 인식률이 좋지 않고 할루시 발생

  • 역시 완벽하진 않지만 영어 인식률은 상대적으로 높은 것으로 보임

결과와 배운 점

차후 문서를 분석하고 RAG를 위해 임베딩하는 기능을 셀프 호스팅으로 구현해볼 생각이라 적합한 모델이나 방법에 대해 관심을 가지고 있습니다.

  • ✅ OCR 가능성 확인: Qwen2.5-VL을 통해 실제로 OCR 기능을 로컬에서 테스트 가능했으며, 텍스트 인식 결과를 API로 받아볼 수 있었습니다.

  • 😭 성능의 한계: 데모 사이트에서는 성능이 만족스러우나 개인적으로 돌리기에는 아직 더 연구가 필요

    • 24G VRAM의 한계: 동일한 32B지만 경량화된 모델 사용 → 정확도 및 속도가 만족스럽지 않음

    • 설정이나 시스템 프롬프트 등 테스트나 개선의 여지가 없진 않을 것으로 보임

  • ⚠️ API 설정 관련 시행착오: LM Studio에서 Server on Local Network를 활성화하지 않아 외부 장치에서 API 요청이 되지 않는 문제로 시간을 소모했습니다.

  • 🔍 다음 계획: VARCO-VISION-14B와 같은 다른 비전 모델들과 비교 테스트를 진행할 예정입니다. 또한, OCR 결과를 임베딩해 RAG 시스템에 활용할 수 있는지도 실험해볼 생각입니다.

👉 이 게시글도 읽어보세요