🧭 서론
Hugging Face에서 공개된 NCSOFT/VARCO-VISION-14B를 테스트해 보고 싶었습니다.
하지만 예상대로(?) 실행까지의 길은 험난했습니다.
그 과정에서 포기한 것, 깨달은 점, 그리고 방향을 선회해 만든 Docling 기반의 MD 변환기까지 — 오늘의 기록을 남겨보겠습니다.
사용한 툴: Widsurf, Claude, ChatGPT
1. VARCO-VISION-14B: 기대와 좌절의 시작
💻 가상환경 셋업의 혼돈
처음엔 간단하게 모델만 실행해보면 되겠지 생각했지만, 개발환경 셋업부터 고비였습니다.
uv
사용 시도 → 패키지 충돌 및 환경 제한결국
pyenv
+venv
조합으로 회귀flash_attn
설치 난이도 급상승
🧪 실행은 했지만…
우여곡절 끝에 Hugging Face에서 제공하는 기본 코드로 VARCO-VISION 실행은 성공했습니다.
테스트 환경: RTX 3090 + AMD 7900X3D
간단한 이미지 설명 정도는 가능
하지만 처리 시간이 너무 길다…
The image depicts two cats lying on a pink blanket. The cats are positioned in a relaxed manner, suggesting they are either sleeping or resting.
**Detailed Description:**
1. **Cats:**
- There are two cats in the image.
- Both cats have striped fur, with patterns that include shades of brown, black, and white.
- The cat on the left is lying on its side, with its head resting on the pink blanket. Its front paws are stretched out, and its hind legs are bent at the knees.
- The cat on the right is lying on its back, with its head also resting on the pink blanket. Its front paws are stretched out, and its hind legs are bent at the knees.
- Both cats appear to be in a state of relaxation or sleep.
2. **Blanket:**
- The blanket is pink and covers the surface on which the cats are lying.
- The blanket appears soft and plush, providing a comfortable resting place for the cats.
3. **Remote Controls:**
- There are two remote controls placed near the cats.
- One remote control is located near the head of the cat on the left, and the other is near the head of the cat on the right.
- Both remotes are standard television remote controls, with buttons for changing channels, adjusting volume, and possibly accessing additional functions like streaming services or smart TV features.
4. **Background:**
- The background is not clearly visible due to the close-up nature of the image, focusing primarily on the cats and the blanket.
- However, it seems to be an indoor setting, likely a living room or a similar space where people typically watch television.
**Analysis and Relevant Knowledge:**
- Cats often seek out cozy and comfortable spots to rest or sleep. The pink blanket provides a soft and warm surface, making it an ideal spot for the cats.
- The presence of remote controls suggests that this area is used for leisure activities such as watching television. Cats are known to enjoy being in spaces where their owners spend time, which could explain why they chose this particular spot.
- The relaxed postures of the cats indicate they feel safe and secure in this environment. Cats lying on their backs expose their vulnerable bellies, which is a sign of trust and comfort in their surroundings.
In conclusion, the image captures a serene moment of two cats resting on a pink blanket, surrounded by remote controls, indicating a cozy indoor setting likely used for relaxation and entertainment. This scene reflects the typical behavior of domestic cats seeking comfort and companionship in familiar environ.
전체 실행 시간: 3871.81초
🚫 결론: 이걸 쓰는 건... 포기
2. Docling: 실용적인 방향으로의 회귀
VARCO 대신 눈길을 돌린 건 Docling.
이 프로젝트는 다양한 문서 포맷을 구조적으로 이해하고, AI 파이프라인에 쉽게 연결할 수 있는 기능들을 갖추고 있습니다.
🧩 Docling의 주요 특징
✅ 다양한 문서 포맷 지원 (PDF, DOCX, XLSX, HTML, 이미지 등)
✅ 문서의 레이아웃, 표, 수식, 코드 등 고급 구조 인식
✅ 내보내기 형식: Markdown, HTML, JSON 등
✅ 로컬 실행 지원 (보안/에어갭 환경에 적합)
✅ LangChain, LlamaIndex 등 AI 프레임워크 연동 가능
✅ 강력한 OCR 및 Visual Language Model(스몰독링) 지원
✅ CLI 제공
✅ MIT 라이센스 (자유로운 사용, 수정, 배포 가능)
🛠️ 이걸로 만들어 볼 것: PDF 번역기
Windsurf로 뚝딱 🛠️
PDF → Markdown 변환
변환된 md 파일 저장
아직 번역은 안 붙였지만 확장성은 충분
🎯 목표:
PDF를 구조화하여 번역하고, 마크다운으로 저장하는 간단한 데스크탑 유틸리티 or API + 여기에 번역이나 요약까지?
3. 요즘의 개발 환경 고민
⚠️ uv
좋긴 한데...
uv
는 빠르고 모던한 패키지 관리 도구지만,CUDA 같은 플랫폼 특화 라이브러리는 OS마다 패키지가 달라서 번거로움
결론적으로, 플랫폼 간 환경 동기화가 여전히 큰 숙제
✅ 마무리
Docling 기반의 앱은 아직 미완이지만, 실사용 가능성이 보이는 만큼 꾸준히 다듬어볼 생각입니다.