[코인프 스터디] 정부 부처 보도자료 워드클라우드 만들기(미완성)


국가 정책이 알게 모르게 우리 일상에 많은 영향을 미치고 있겠죠?

저는 업무 연관성도 높아서 정부 부처별 보도자료를 수집해서 주기적으로 분석, 관리해보면 좋겠다는 생각을 해보았습니다. 🙄

“크롤링을 통해서 데이터를 수집하고, 여러가지 분석을 할 수 있다”.
라는 정도의 지식 밖에 없는 비전공자에게 ADA가 불가능을 가능으로 만들어주었습니다.👁️.👁️


처음엔 아주 일반적인 질문에는 일반적인 대답만 듣게 되었고, 구체적인 질문이 필요할 것 같았습니다.


이후로는 과기정통부 홈페이지 보도자료 게시판을 크롤링 하고 싶다고 하니, url과 코드를 작성해줬지만 url이 변경되었는지 오류가 났었고 그래서 원하는 페이지 URL을 직접 입력해주었습니다.
그리고는 ChatGPT를 믿고선 게시판을 그냥 단순히 드래그 & 붙여넣기로 프롬프트로 입력해주었습니다.

그랬더니 이렇게 코드를 잘 만들어주었습니다.


그리고는 크롤링을 하기 위한 몇 가지 프롬프트를 넣어봤었는데 홈페이지 구성에 맞추어 코드가 만들어져야하는 것 같고, 어떻게 해야할지 몰라서 결국엔 해당 홈페이지에 구성되어있는 HTML 구조를 싹다 복사해서 집어넣어봤습니다.

(*개발자 도구(표 부분에 우클릭 → 검사) → 해당 영역 HTML 찾아 복사하고 → 프롬프트로 입력)

HTML에 대해 1도 모르는데 위처럼 HTML을 복사해서 넣어주니…
(공개된 페이지지만 개인정보는 가리고… 🫣)


위처럼 코드를 잘 만들어주고, 크롤링도 잘 되었습니다. ㅎ

(처음에는 제목하고 날짜 정도만 수집하면 되겠지 라고 생각하였으나…
GPT가 알아서 이렇게 (제목, 부서, 담당자, 연락처, 등록일)을 전부 수집해주겠다고 하네요😶)

이렇게 만들어진 코드를 꾸준히 사용하게 될 것 같아서, 코랩에서 사용할 예정이고 만든 코드를 정리해달라고도 해보았습니다.


잘 되었지만, 코랩에서 돌려보니 한 가지 문제가 발생했습니다.

이유는 크롤링하는 대상이 해당 홈페이지에서 직접 가져오는게 아니고, 제가 복사해서 넣어준 HTML을 가지고 데이터를 수집했더라구요.
저는 여러페이지를 다량으로 수집하고 싶고, 또 과기부가 아닌 다른 부처 홈페이지에서도 데이터를 모아오고 싶어서 URL에 직접 접근해서 데이터를 수집하는 방식으로 변경해달라고 했습니다.
(※ ADA에서 원하는 URL에 실시간으로 접근해서 데이터를 수집할 수는 없는 것 같네요.)

그래서 코드를 아래와 같이 수정해주었습니다. (제가 아니고 GPT가…)


이걸 코랩에서 실행했고, 아래처럼 데이터가 잘 수집이 되었습니다. 😱


이후에 세세한 데이터분석을 직접해보지는 못했지만, 위 데이터로 어떤 분석이 가능한지를 물어봤었고,

(현업이 바빠서…ㅜ) 우선은 보도자료 제목을 가지고 워드클라우드를 만들어보았습니다.
(추가로 부서별 빈도 분석까지…)

여기까지 밖에 실습을 해보지 못해서…ㅜ 많이 미완성이고 부족한 결과이지만,

웹 크롤링 지식이 없을 때 위처럼 순차적으로,
HTML복사해서 코드를 만들어 놓고,
URL 규칙을 찾아서 순차적으로 페이지별로 데이터를 수집하도록 코드를 수정하면,
데이터 수집이 잘 되는 것을 확인할 수 있었습니다.





7
2개의 답글

👉 이 게시글도 읽어보세요