서울시 정보소통광장 보도자료를 레퍼런스로 대시보드 제작

배경

3주차 과제는 "AI에게 레퍼런스를 주고 만들어보기"입니다. 레퍼런스란, 내가 참고할 사이트나 문서를 AI에게 직접 보여주고 "이걸 기반으로 만들어줘"라고 하는 것입니다. 추상적으로 "뭐 만들어줘"가 아니라, 구체적인 참고 자료를 주는 것이 핵심입니다.

저는 서울시 정보소통광장(https://opengov.seoul.go.kr) 레퍼런스로 선택했습니다. 보도자료가 44,901건이나 쌓여있는데 (opengov.seoul.go.kr/press/list), 일일이 들어가서 읽기엔 너무 많고, 어떤 분야 뉴스가 많은지 한눈에 파악이 안 되어서, 해당 사이트의 보도자료를 자동 수집하여 대시보드로 제작해보았습니다.

과정

1단계: 레퍼런스 사이트 탐색

Claude Code의 브라우저(MCP) 기능으로 서울 정보소통광장을 직접 탐색했습니다.

  • 메뉴 구조 파악: 원문정보, 시정정보, 통계정보, 시민소통

  • 보도자료 섹션 발견: 44,901건, 번호/제목/부서/날짜/조회수 테이블 구조

  • 상세 페이지 확인: 본문 텍스트 추출 가능 확인

이 과정에서 Claude Code가 직접 사이트를 스크린샷 찍고, 메뉴를 클릭하고, HTML 구조를 분석했습니다. 제가 한 건 URL을 알려주고 "여기 정보소통 여기에서 자료 보고 활용할만한거 풀링해서 작업해볼 수 있어?" 라고 한 것뿐입니다.

2단계: 자동 수집 도구 구현

[서울 정보소통광장 보도자료]
    ↓ requests + BeautifulSoup
[75건 수집 (5페이지)]
    ↓ 키워드 기반 9개 카테고리 분류
[분석: 부서별, 날짜별, 카테고리별 통계]
    ↓ HTML 생성
[대시보드 자동 생성]

9개 카테고리 자동 분류: AI/디지털, 교통, 주거/부동산, 환경/기후, 문화/관광, 경제/일자리, 복지/건강, 안전, 기타

3단계: 실행 결과 (스크립트 실행 ~30초)

  • 75건 보도자료 수집 (최근 약 1주일치)

  • 52% 카테고리 매칭 (39건이 9개 카테고리 중 하나 이상 해당)

  • 15개 부서에서 발행

  • 조회수 TOP 10 + 부서별/날짜별 통계 자동 추출

  • HTML 대시보드 + JSON 데이터 자동 생성

결과

대시보드에서 발견한 것들

항목

내용

가장 많은 카테고리

경제/일자리 (14.7%), 교통 (12.0%)

조회수 1위

'325개 역세권 복합개발 대상지로' (140회)

AI 관련 보도

3건 — 인공지능위원회 출범, AI행정 본격화 등

Before vs After

항목

Before

After

보도자료 확인

사이트 직접 방문, 스크롤

스크립트 실행 30초

트렌드 파악

불가능

카테고리별 분포 한눈에

관심 분야 필터

수동 검색

키워드 자동 필터링

데이터 보관

없음

JSON 자동 아카이빙

배운 점

레퍼런스를 주는 것의 의미

"대시보드 만들어줘"라고만 하면 AI가 샘플 데이터로 껍데기를 만듭니다. 하지만 실제 사이트 URL을 레퍼런스로 주면:

  • AI가 직접 사이트를 탐색하고 구조를 파악

  • 실제 데이터에 맞는 스크래핑 코드를 작성

  • 진짜 데이터가 들어간 결과물이 나옴

레퍼런스 = 구체성. 구체성 = 결과물 품질.

브라우저 탐색 → 코드 생성의 흐름

Claude Code가 브라우저로 사이트를 직접 보고 → HTML 구조를 분석하고 → 그에 맞는 코드를 생성하는 과정이 자연스러웠습니다. 사람이 "개발자 도구 열어서 셀렉터 확인하고..." 하는 과정을 AI가 대신 한 셈입니다.

시행착오

보도자료 상세 페이지 본문이 HWPX 뷰어로 렌더링돼서 스크래핑이 어려웠습니다. → 리스트 페이지의 제목/부서/날짜 정보만으로도 충분한 분석이 가능했습니다. 막히면 우회로를 찾는 것도 전략입니다.

1

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요