Claude Code skill로 웹 크롤링하여 분석하기 & 시각화 조금

소개

### 문제 상황 (Before)

Claude code Skills로 웹크롤링 연습 차, '오늘의집' 에서 50개 게시물의 타이틀, 조회수, 스크랩수를 크롤링했습니다. 크롤링한 내용은 단순히 나열된 CSV 파일일 뿐이었습니다. 어떤 키워드가 조회수를 높이는지, 성공한 타이틀의 공통 구조가 무엇인지 감으로만 짐작할 뿐 객관적인 데이터 근거가 부족했습니다.

### 시작하게 된 계기

"전에 사용해봤던 로직을 가져와서 지금의 크롤링 내용 분석에 적용해보면 어떨까?"라는 생각에 작업을 시작했습니다.

진행 방법

### 사용한 도구

- 도구명: Antigravity, Claude Code

- 모델: Claude 3.5 Sonnet (Sonnet 4.5 level logic), Gemini 3 Flash

- 언어: Python 3.12

STEP 1. 기존 프레임워크 탐색 및 재사용 전략 수립

우선 크롤링된 데이터를 알려주면서 기존 수집된 명령어들 중에서 쓸만한 agent나 skills이 없는지 Claude code plan mode에서 분석을 요청하고 활용 방안을 짰습니다. 결과로 analyzer.mdmorpheme.md가 가장 적합하다고 추천해줬습니다.

한국어 한국어 한국어 한국어 한국어 한국어 한국어 한국어

STEP 2. 데이터 분석 스크립트 제작 및 실행

한국어는 흰색 배경 스티커에 적혀 있습니다

1. analyzer_title_analysis.py: 숫자 활용률, 타이틀 길이 등 구조적 패턴 분석

2. morpheme_seo_analysis.py: 형태소별 조회수 상관관계 및 SEO 점수(0-10점) 산출

3. COMPREHENSIVE_ANALYSIS_REPORT.md: 통합 인사이트 리포트 자동 생성


STEP 3. 분석 리포트 시각화

Plan

이제 리포트를 만들었으니 텍스트만 있는 걸 시각화된 보고서 형태?로 만들고 싶었습니다. Claude 토큰을 다 써서 Gemini로 claude 스킬을 찾아 작업을 시작했습니다.

- 워크스페이스 내부(`.claude/skills/canvas-design`)와 외부(`anthropics_skills-main`)의 숨겨진 스킬들을 탐색하여 최적의 경로 제안.

- 브릿지 역할: canvas-design의 미적 원칙과 reportlab의 기술적 구현을 연결하는 설계도(Implementation Plan) 작성 후 실행

시각화 작업 과정

1) 스킬 탐색 및 리포트 PDF 생성, 디자인 스타일 결정

  • .claude/skills/canvas-designpdf-reader 분석.

  • canvas-design claude skill 활용

  • 'design_philosophy.md' 생성

2) 시각화 자동화

  • 파이썬(`matplotlib`, pandas, reportlab) 기반의 통합 생성 스크립트 작성.

  • scripts/generate_visual_report.py 생성

  • Matplotlib Agg 백엔드를 사용하여 터미널 환경에서도 문제없이 실행되도록 최적화.

  • 'COMPREHENSIVE_ANALYSIS_REPORT_CANVAS.pdf' 생성

결과와 배운 점

1) 분석 리포트 발행

Before vs After

| 항목 | Before | After |

|------|--------|-------|

| 데이터 이해 | 50개 타이틀의 단순 나열 | 구조 패턴, 키워드 영향력 식별 |

| 인사이트 추출 | "숫자를 많이 쓰는 것 같음" (감) | 고성과 그룹 85.7%가 숫자 활용 (수치화) |

| 성과 예측 | 알 수 없음 | '아파트' 포함 시 조회수 3.7배 증가 증명 |

| 분석 생산성 | 수작업 분석 불가 | 스크립트 실행으로 2분 만에 리포트 완성 |

리포트 결과물

  • 데이터 기반 타이틀 공식: [구체적 숫자] + [주거 유형/평수] + ["아파트"] + [차별화 포인트] + [의문형]

  • '아파트' 키워드의 위력: 포함 시 평균 조회수가 3,267 → 12,021로 수직 상승하는 것을 확인했습니다.

  • 과포화 키워드 주의: '화이트', '34평' 같은 단어는 시중에 너무 많아 오히려 성과에 -9% ~ -31%의 역효과를 줄 수 있다는 점을 확인했습니다.

2) 리포트 시각화

Before vs After

| 항목 | Before | After |

|------|--------|-------|

| 리포트 가독성 | 텍스트 위주 (낮음) | 시각적 차트/하이라이트 (높음) |

| 생성 방식 | 수동 변환 필요 | 파이썬 스크립트 1회 실행으로 자동 생성 |

| 디자인 품질 | 기본 마크다운 스타일 | '분석적 브루탈리즘' 철학이 적용된 전문 디자인 |

| 소요 시간 | 수동 정리 시 30분+ | 자동화 후 5초 이내 |

시각화 결과물

  • COMPREHENSIVE_ANALYSIS_REPORT_CANVAS.pdf 생성

  • 디자인 철학 문서(`design_philosophy.md`)를 통한 미적 일관성 확보

  • 파이썬 자동화 스크립트(`scripts/` 하위) 자산화

Claude 토큰이 다 되어서 예정했던 새 Skill로 저장하는 작업은 못했습니다. Gemini로 만든 시각화 결과물이 별로였지만 향후에 다시 Claude로 다시 할 생각이고, 일련의 agent로 통합해볼 예정입니다.

도움 받은 글 (옵션)

AI워크스페이스 2주차 공유 자료 - Custom_Scraping.md

(내용 입력)

3
3개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요