ChatGPT에 Arxiv 논문 서칭 코드 작성 요청하기

Arxiv는 학술 논문과 연구 자료를 공유하는 오픈 액세스 플랫폼입니다. 이 사이트는 학회나 저널에 등재되기 전의 논문을 빠르게 공개할 수 있어, 연구 동향을 신속하게 파악하는 데 유용합니다. (단점으로는 논문 리뷰 과정이 없어, 일부 저품질의 논문이 존재합니다)

저는 AI 스타트업에서 AI 모델 연구 및 개발을 담당하고 있어, Arxiv를 주기적으로 참고하여 최신 연구 동향과 연구 아이디어를 얻곤합니다.


문제점: 너무 많은 논문의 양

Arxiv에는 하루에도 수많은 논문이 게재됩니다. 이로 인해 2주에서 한 달 간격으로 사이트를 방문할 때마다 100편 이상의 논문을 빠르게 검토해야 하는 상황이 발생합니다.

해결책: Arxiv API와 ChatGPT를 활용한 논문 스캐닝

Arxiv API를 활용하여 관심 있는 주제의 논문을 효율적으로 스캔할 수 있는 코드를 ChatGPT와 함께 작성했습니다. 이 글에서는 그 과정을 공유하려고 합니다.

코드 구현은 주로 ChatGPT에게 많이 위임하고 저는 필요한 정보를 제공하는 방식으로 가이드를 주었습니다.


0. 세팅

  • chatGPT의 GPT-4 모델 사용 

  • PlugIn : AskYourPDF, WebPilot, Wolfram


1. 기본 틀 잡기 : 상황과 목표 그리고 대략적인 방향을 설명 

  • 기존 arxiv 패키지를 사용해 기본 핵심 코드 작성 가능 

  • 코드 진행에 있어 출력문과 에러 메시지를 제공 → 해결법 제안 


2. 추가 기능 개선하기

  • 깊이 있는 keyword를 가지고 논문 서칭 요구 

    • 과정에서 documentation을 제공 

    • 훨씬 좋은 결과를 보여줌 

  • 이전 탐색 논문 이후의 모든 논문을 찾도록 요청 


3. 의미적으로 관심 분야의 논문만 필터링 

  • 이전에 서칭한 논문의 정보를 주고 그 논문의 큰 내용과 비슷한 결과를 찾도록 요청 

    • 내용이 비슷함 : Abstract 부분의 내용 분석 후 의미론적인 특징이 유사함으로 정의 

    • 방법을 같이 고민하고 코드 작성 요청 →  외부 딥러닝 모델 사용 


4. 결과적으로 

  • 나쁘지 않은 정도의 논문 스캔 & 필터링 가능 


5. 시도했지만 문제가 발생한 부분 

  • 저렇게 선택된 논문의 내용의 link를 제공해 chatGPT에게 읽히고 내용을 정리하려 했음

  • selenium (웹 페이지 자동 조작 패키지)을 이용하려 했지만 

  • reCAPTCHA 문구로 당장은 해결 불가 

  • GPT API로 해결해야 할듯 


인사이트

  • 사람들이 많이 사용하는 패키지의 경우 코딩을 할 수 있는 사람에게도 시간 절약이 많이 됨 

    • 전체 과정 약 2시간 정도 소요 

  • 과정에서 chatGPT가 갈피를 못잡으면 docs를 제공하는게 가장 좋음 

  • 중간중간 전체 코드를 적어가도록 요청하는게 chatGPT에게 큰 흐름을 잃지 않도록 할 수 있음 

  • API는 과금이 되서.. selenium과 같은 web driver를 이용하고 싶은데 방법을 고민해야 함 

    • 다음 단계로 시도해보지 않을까.. 합니다 😅



정정민

블로그 : 링크

1
2개의 답글

👉 이 게시글도 읽어보세요