GPTaku
GPTaku
🌿 뉴비 파트너
🚀 SNS 챌린지 달성자

[13기 옵시디언] AI와 마크다운을 활용해 PDF로 인사이트 얻기(with RAG)

배경

옵시디언으로 기록을 관리하면서 고민이 있었습니다. 많은 스터디원들이 요한님의 지식관리 시스템을 활용해 폴더 구조와 카테고리를 세팅하는 것을 보며 나도 그런 시스템을 만들어야 하나 고민했습니다. 고민을 하면서 기존에 쌓아둔 데이터도 없는 상태에서 시스템만 만들어 두고 활용을 하지 못한다면 시간을 낭비하는 게 되버릴 것이라 생각했습니다. 대신 "앞으로 나는 어떻게 기록을 만들어갈까?"에 대해 고민하며 옵시디언을 활용할 방안에 대해 집중하기로 했어요. 제가 온라인에서 얻는 데이터의 대부분이 기사와 PDF라는 점에 주목했고, 이를 어떻게 효과적으로 저장하고 활용할 수 있을지 고민했습니다.

진행 방법

  1. PDF to Markdown

    PDF를 마크다운으로 변환하는 툴을 검색하고 사용해보면서 괜찮은 두 가지의 툴을 선별했어요

    - Marker (https://github.com/VikParuchuri/marker)
    - Llamaparse (https://www.llamaindex.ai/blog/introducing-llamacloud-and-llamaparse-af8cedf9006b)

    Marker는 파이썬 코드로 구현된 툴이고, llarma는 LLM을 활용한 툴로 llarma cloud에서 구현이 가능했습니다. Marker의 경우 운용하고 있는 PC 사양에 따라 설치 과정이 필요했으며, 사양에 따라 시간이 소모되었고, llarma는 cloud에서 동작하기 때문에 별도의 세팅이나 사양에 영향을 받지 않았습니다.

    같은 파일을 두 도구로 변환해보며 비교해봤는데, Marker의 결과물이 조금 더 우수했으나 차이는 미미했어요. Llamaparse는 Cloud에서 운용되기 때문에 무료로 사용할 경우 하루 사용량 제한으로 큰 파일 변환에 제약이 있었기 때문에 저는 Marker를 선택했습니다. 변환하려는 정보량과 운용하는 환경에 따라 두가지의 툴을 선택하면될 것같아요‎​

    두 파일의 비교는 GPT를 통해 원본과 비교해서 판단해달라고 했습니다
    (https://chatgpt.com/share/673f1d41-491c-8008-a965-2629717f49a5)

    한국어 텍스트가 있는 검은 화면

  2. Marker 세팅 과정
    Marker를 세팅하기 위해 Readme.md를 gpt에 넣고 설명해달라고 했어요

    Marker를 사용하기 위해서는 PyTorch 모듈 설치가 필수였어요. (https://pytorch.org/)

    GPT안내를 받아서 세팅하는데 MAC에서는 큰 어려움이 없었습니다.
    Windows 환경에서는 CUDA를 활용하기 위해 추가 세팅이 필요했어요. 그래픽 사양에 맞는 CUDA Toolkit과 cuDNN을 설치하고, 버전에 맞는 PyTorch를 설치하는 과정을 거쳤습니다. (https://stat-thon.tistory.com/104)

  3. PDF 변환
    실제 과정 변환할 PDF 파일들을 모아둔 폴더의 경로를 지정하는 코드 작성이 필요했어요. ChatGPT의 도움을 받아 초기 코드를 작성하고, Cursor에서 디버깅하며 최종 코드를 완성했죠.
    (https://chatgpt.com/share/673f1dc1-189c-8008-838a-aa4acaf18e20)

    구체적으로는 경제연구소와 증권사에서 발행한 2025년 전망 리포트들을 변환하는 데 집중했어요.

  4. RAG 활용
    현재 4개의 리포트를 변환한 상태이고, Smart Composer와 Cursor를 활용해 RAG로 인사이트를 도출하고 둘의 결과값을 비교해보겠습니다.

    Prompt

    
    @RAG_DATA 2025년 전망에 대한 리포트들의 내용을 검토하고 인사이트를 도출할 수 있게 다음 주제에 대해 리포트 작성해줘
    
    
    1. 트렌드 분석
    - 글로벌/국내 주요 경제 지표 전망
    - 산업별 성장 동력
    - 기술 혁신 영향도
    
    2. 산업 연관성
    - 가치사슬 관점의 산업 구조 변화
    - 산업 간 융합 가능성
    - ESG 요인의 산업 영향
    
    3. 투자 기회
    - 시간대별 투자 전략
    - 신규 비즈니스 기회
    - 정책 변화에 따른 수혜 분야
    
    4. 리스크 요인
    - 거시경제적 리스크
    - 산업별 구조적 리스크
    - 정책/규제 리스크
    한국어 텍스트가 있는 검은 화면의 스크린샷

1
1개의 답글

👉 이 게시글도 읽어보세요