[Claude Code] 2년간 삽질한 크롤러 개발, 클코 입문 과외 1시간 받고 반나절 만에 해결

📝 한줄 요약

2년간 버그와 씨름하던 한문 사료 크롤러를 Claude Code로 고치고, AI에게 1500건 용례 분석까지 시켜서 일주일 걸릴 연구를 하루 만에 끝냈습니다.

🎯 이런 분들께 도움돼요

코딩은 못하지만 반복 작업 자동화가 절실한 분
AI로 코드 짜봤는데 버그 잡다가 포기한 경험이 있는 분
대량의 텍스트 데이터를 수집하고 분석해야 하는 분

😫 문제 상황 (Before)

연구자의 숙명: 사료 수집 노가다

저는 동아시아 역사를 연구하는 대학원생입니다. 연구할 때 가장 시간이 많이 드는 작업 중 하나가 사료 수집이에요. 예를 들어 "조선시대 문헌에서 '소국(小國)'이라는 단어가 어떤 맥락에서 쓰였는지 전수조사하라"는 과제가 떨어지면, 이런 과정을 거쳐야 합니다:

한국고전종합DB에서 검색어로 검색
나온 기사 하나하나 클릭해서 열기
원문(한문)과 번역문 복사
검색어가 어떤 맥락에서 쓰였는지 파악
용례 분석에 필요한 부분만 발췌
워드 문서에 정리

'소국/소방' 검색 결과: 1,572건.

기사 하나당 5-10분씩 잡아도 일주일은 족히 걸리는 작업입니다. 사료를 읽고 분석하기도 전에 수집하다 지치는 거죠.

2년 전: GPT로 크롤러 만들기 도전

2년 전에 이 노가다를 자동화해보겠다고 GPT(Grimoire)에게 파이썬 크롤러 코드를 짜달라고 했습니다. 한국고전종합DB의 Open API를 활용해서 검색 결과를 자동으로 수집하는 프로그램이었죠.

[개인 연구비서 만들기! - 검색해서 데이터 긁어와...](https://www.gpters.org/dev/post/create-personal-research-assistant-Hw2DyssYCs1DezU)

결과는... 반쪽짜리 성공이었습니다.

검색 결과 목록은 가져오는데 성공
하지만 각 기사의 원문과 번역문까지 긁어오는 건 실패
500건 이상이면 실행 시간이 너무 오래 걸림

1년 전: Claude랑 직접 코딩하기

1년 전 클로드랑 입코딩할 수 있게 된 세상이 열리자, 저는 바로 Claude(웹)와 대화하면서 직접 크롤러를 개선해봤습니다. Selenium으로 웹페이지를 열어서 원문/번역문까지 긁어오는 코드를 만들었어요.

문제는 버그가 끊이질 않는다는 것.

웹페이지 구조가 조금만 바뀌어도 코드가 안 돌아가고, 그때마다 어디가 문제인지 찾아서 고쳐야 했습니다. 저는 개발자가 아니라 연구자인데, 코드 디버깅하느라 본업인 연구를 못하는 본말전도 상황이 계속됐어요.

"입코딩이 가능해졌다고 해도, 버그 나면 그거 잡아가면서 하는 시간이 너무 오래 걸려서... 결국 그냥 원래 하던 식으로 하는 게 낫겠다 싶은 현타가 왔어요."

결국 크롤러 개발은 포기하고, 다시 수작업으로 돌아갔습니다.

최근: 다시 찾아온 전수조사 미션

그러다 최근에 '소국/소방' 키워드로 한국문집총간 전수조사를 해야 하는 상황이 왔습니다. 검색 결과 1,572건. 예전에 만들어둔 크롤러를 돌려봤는데...

"자꾸 번역문이 있는데 안 긁어오거나 하는 에러가 나더라고요."

또 시작이구나 싶었습니다.

🛠️ 사용한 도구

Claude Code (VS Code 확장)
모델: Claude Opus 4.5
닿님 찬스: Claude Code 과외 1시간 (입문 속성 코스)

🔧 작업 과정

에피소드 1: 언니찬스로 Claude Code 입문

더 이상 혼자 삽질하기 싫어서, 우리의 구세주이자 저의 동생님인 닿님에게 SOS를 쳤습니다. "Claude Code라는 게 있는데 이거 어떻게 쓰는 거야?" 눈코뜰새 없이 바쁜 닿님에게 '언니 좀 구해달라'라고 친족(?)찬스를 써서 1시간 속성 과외를 받았어요 ㅎㅎㅎㅎ

핵심은 이거였습니다:

Claude Code는 에이전트라서, 코드를 직접 읽고 수정하고 실행까지 해준다
내가 코드를 이해할 필요 없이, 문제 상황만 설명하면 알아서 해결책을 찾아준다

에피소드 2: 번역문 수집 버그 해결 - 일주일 삽질이 30분 만에

과외 받자마자 바로 실전 투입했습니다.

"문집 크롤러를 돌렸는데, 번역문이 있는 경우에도 번역문을 긁어오지 않는 문제가 있어."

Claude Code가 뭘 했냐면요:

기존 코드를 스스로 분석해서 문제점을 진단
번역문이 안 긁히는 원인을 찾음: 웹페이지의 토글 버튼 구조가 페이지마다 다르다
어떤 페이지는 [원문/번역문] 토글이 있고, 어떤 페이지는 [교감표점원문/원문이미지/번역문] 세 개가 있고...
기존 코드는 무조건 첫 번째 토글만 클릭하고 있었던 거예요

이 문제를 제가 직접 해결하려면? 웹페이지 구조(CSS selector라고 하더라고요)를 하나하나 찾아서 코드에 넣어야 하는데, 저의 미천한 실력으로는 페이지마다 구조가 다른데 그걸 하나씩 찾는 게... 사실상 불가능했어요.

근데 Claude Code는 그냥 알아서 해결해버렸습니다.

"교감표점원문 옆에 '번역문'이 있어. 각 URL마다 토글창들이 다르게 있는 것 같아. 내가 원하는 건 딱 '번역문' 토글창이 있는 경우에만, 그걸 열어서 원문과 번역문을 각각 수집하는 거야."

이렇게만 말했더니, Claude Code가:

실제 웹페이지를 열어서 구조를 분석하고
'번역문'이라는 텍스트가 포함된 토글 버튼만 선택적으로 클릭하는 로직을 짜고
테스트용 코드를 먼저 만들어서 제가 확인할 수 있게 해주고
테스트 성공하면 본 코드에 반영

예전에 일주일 동안 스터디장님께 질문해가며 머리 싸매던 그 문제가, 30분 만에 해결됐습니다.

그 순간 정말 눈앞에 휘리릭 지나가더라고요. 그동안 밤새워 코드 디버깅하던 시간들이...

에피소드 3: 1,572건 기사 수집 완료

버그가 고쳐진 크롤러로 검색을 돌렸습니다.

"검색어: 小國 OR 小邦"

결과: 1,572건 기사가 몇 분 만에 수집 완료.

원문(한문)과 번역문이 깔끔하게 정리된 마크다운 파일이 생성됐습니다. 50건씩 파일이 자동으로 나뉘어서 관리하기도 편했어요.

에피소드 4: 욕심이 생겼다 - AI한테 용례 분석 시키기

기사 수집은 끝났는데, 이제 진짜 작업이 남았습니다: 1,572건 기사를 읽고 용례 분석하기.

원래 이 작업은 이렇게 합니다:

기사 하나 열기
한문 원문 읽기 (또는 번역문 참고)
검색어('소국', '소방')가 어떤 맥락에서 쓰였는지 파악
용례 파악에 필요한 문장만 발췌
번역문에서 대응하는 부분 찾기
검색어의 번역어('소국', '작은 나라' 등) 하이라이트
워드에 정리

기사 하나당 5-10분. 1,572건이면... 최소 일주일.

그런데 문득 생각이 들었습니다.

"Claude가 한문도 읽을 수 있잖아. 이것도 시켜볼까?"

Claude Code한테 이렇게 요청했습니다:

"이 기사 모음의 핵심은 검색어가 사용된 용례를 파악하기 위한 케이스들을 수집한 거야. 각 파일에 대해서:
AI가 원문(고전 중국어)을 읽고, 검색어(小國, 小邦)의 용례를 파악할 수 있는 내용만 추출
번역문에서 대응하는 부분 추출
번역문에서 검색어에 해당하는 번역어 부분을 하이라이트"

그랬더니 진짜로 해냈습니다.

Claude(Opus)가 한문 원문을 읽고, 검색어가 쓰인 문맥을 파악해서, 용례 분석에 필요한 부분만 골라서 추출해주고, 번역문에서 대응하는 부분을 찾아서 번역어까지 하이라이트 해줬어요.

예를 들어 이런 식:

원문 (발췌):

蓋將使小邦賤士。咸仰帝德之昌。

번역문 (발췌):

대저 소방의 천한 선비로 하여금 모두 황제의 덕이 창성함을 우러러보게 하려는 것이다.

용례 분석:

'小邦'은 조선을 가리키며, 명나라 황제에 대한 사대의 맥락에서 자국을 낮추어 표현한 것.

이 순간 정말 "오!!" 했습니다.

"에이전트를 활용하면, 내가 연구에서 하는 숱한 작업 프로세스들의 시간을 현격히 단축시켜서, 핵심적인 과업(생각하기, 글쓰기)에만 집중할 수 있겠다는 확신이 들었어요."

✅ 결과 (After)

Before vs After

항목

Before

After

기사 수집

수작업 또는 버그투성이 크롤러

몇 분 만에 1,572건 자동 수집

크롤러 버그 수정

일주일 삽질 (결국 포기)

Claude Code로 30분 만에 해결

용례 분석

기사당 5-10분 × 1,572건 = 일주일+

AI가 자동 추출, 문서 훑어보기만 하면 됨

총 소요 시간

일주일 이상

하루 (크롤러 수정 반나절 + 용례 분석 반나절)

결과물

크롤러 코드: 번역문까지 완벽하게 수집하는 v6 버전 완성
수집된 기사: 1,572건 (50건씩 32개 파일로 자동 분할)
용례 분석 문서: 검색어 맥락 추출 + 번역어 하이라이트된 분석 파일

💬 이 과정에서 배운 AI 활용 팁

효과적이었던 것

문제 상황을 구체적으로 설명하기
- "번역문이 안 긁혀와요" (X)
- "번역문이 있는 페이지인데도 수집이 안 돼요. 토글 버튼이 페이지마다 다른 것 같아요." (O)
테스트 → 본 코드 반영 워크플로우
- "먼저 테스트 코드 만들어서 100건만 돌려보고, 성공하면 본 코드에 반영해줘"
- 이렇게 하면 시간을 절약할 수 있음
내가 원하는 결과물의 형태를 명확히 하기
- "용례를 파악할 수 있는 내용만 추출해줘"
- "번역문에서 검색어에 해당하는 부분을 하이라이트해줘"

이렇게 하면 안 돼요

코드를 이해하려고 너무 애쓰지 않기
- 에이전트 시대에는 "이 코드가 왜 이러지?"보다 "내가 원하는 결과가 뭐지?"에 집중
한 번에 다 하려고 하지 않기
- 토큰 제한 때문에 1,572건 전체 분석은 하루에 못 끝냄
- 파일 단위로 나눠서 매일 조금씩 진행

🌍 다른 업무에 적용한다면?

이 경험은 "대량의 텍스트 데이터를 수집하고, 특정 기준으로 분석/정리해야 하는" 모든 작업에 적용할 수 있습니다:

법률: 판례 검색 → 특정 쟁점 관련 부분만 추출
마케팅: 리뷰 수집 → 긍정/부정 의견 분류 및 요약
학술: 논문 검색 → 특정 개념의 정의/용례 추출
저널리즘: 기사 아카이브 검색 → 특정 이슈 관련 보도 추이 분석

핵심은:

데이터 수집 자동화 (크롤러)
내용 분석 자동화 (AI 용례 추출)
결과물 형식 지정 (마크다운 → 워드 변환 등)

🚀 앞으로의 계획

이번 경험으로 확신이 생겼습니다. 에이전트를 활용하면 연구 워크플로우를 대대적으로 개선할 수 있다는 것.

앞으로는:

다른 종류의 연구 작업(문헌 검토, 사료 번역 검수, 인용문 정리 등)에도 이 방식을 적용
"읽고, 생각하고, 쓰는" 핵심 작업에 집중하고, 노가다는 AI에게 위임

"내가 연구에서 가장 사랑하는 순간들에 집중하면서도, publish or perish 하는 혹독한 연구 생태계에서 실제로 성과를 올릴 수 있는 워크플로우가 가능해졌어요. 새로운 우주를 경험하고 있습니다."

(물론 클로드 max를 구매했습니다. pro로는 불가능... 결코 싸지 않지만, 저는 지금 뽕을 뽑고 있다고 생각해요 ㅎㅎㅎ 매일 리밋 여러 번 걸려가면서 연구중...ㅎㅎ 하루이틀 사용하고 말 게 아니라면, 투자할 가치가 있다는 생각이 듭니다.)

22기 바이브코딩 스터디 대기자 등록이 시작됐어요 💫