Arxiv는 학술 논문과 연구 자료를 공유하는 오픈 액세스 플랫폼입니다. 이 사이트는 학회나 저널에 등재되기 전의 논문을 빠르게 공개할 수 있어, 연구 동향을 신속하게 파악하는 데 유용합니다. (단점으로는 논문 리뷰 과정이 없어, 일부 저품질의 논문이 존재합니다)
저는 AI 스타트업에서 AI 모델 연구 및 개발을 담당하고 있어, Arxiv를 주기적으로 참고하여 최신 연구 동향과 연구 아이디어를 얻곤합니다.
문제점: 너무 많은 논문의 양
Arxiv에는 하루에도 수많은 논문이 게재됩니다. 이로 인해 2주에서 한 달 간격으로 사이트를 방문할 때마다 100편 이상의 논문을 빠르게 검토해야 하는 상황이 발생합니다.
해결책: Arxiv API와 ChatGPT를 활용한 논문 스캐닝
Arxiv API를 활용하여 관심 있는 주제의 논문을 효율적으로 스캔할 수 있는 코드를 ChatGPT와 함께 작성했습니다. 이 글에서는 그 과정을 공유하려고 합니다.
코드 구현은 주로 ChatGPT에게 많이 위임하고 저는 필요한 정보를 제공하는 방식으로 가이드를 주었습니다.
0. 세팅
chatGPT의 GPT-4 모델 사용
PlugIn : AskYourPDF, WebPilot, Wolfram
1. 기본 틀 잡기 : 상황과 목표 그리고 대략적인 방향을 설명
기존 arxiv 패키지를 사용해 기본 핵심 코드 작성 가능
코드 진행에 있어 출력문과 에러 메시지를 제공 → 해결법 제안
2. 추가 기능 개선하기
깊이 있는 keyword를 가지고 논문 서칭 요구
과정에서 documentation을 제공
훨씬 좋은 결과를 보여줌
이전 탐색 논문 이후의 모든 논문을 찾도록 요청
3. 의미적으로 관심 분야의 논문만 필터링
이전에 서칭한 논문의 정보를 주고 그 논문의 큰 내용과 비슷한 결과를 찾도록 요청
내용이 비슷함 : Abstract 부분의 내용 분석 후 의미론적인 특징이 유사함으로 정의
방법을 같이 고민하고 코드 작성 요청 → 외부 딥러닝 모델 사용
4. 결과적으로
나쁘지 않은 정도의 논문 스캔 & 필터링 가능
5. 시도했지만 문제가 발생한 부분
저렇게 선택된 논문의 내용의 link를 제공해 chatGPT에게 읽히고 내용을 정리하려 했음
selenium (웹 페이지 자동 조작 패키지)을 이용하려 했지만
reCAPTCHA 문구로 당장은 해결 불가
GPT API로 해결해야 할듯
인사이트
사람들이 많이 사용하는 패키지의 경우 코딩을 할 수 있는 사람에게도 시간 절약이 많이 됨
전체 과정 약 2시간 정도 소요
과정에서 chatGPT가 갈피를 못잡으면 docs를 제공하는게 가장 좋음
중간중간 전체 코드를 적어가도록 요청하는게 chatGPT에게 큰 흐름을 잃지 않도록 할 수 있음
API는 과금이 되서.. selenium과 같은 web driver를 이용하고 싶은데 방법을 고민해야 함
다음 단계로 시도해보지 않을까.. 합니다 😅
정정민
블로그 : 링크