뉴스 크롤링, 요약, 배포 자동화

#9기ai알바생


안녕하세요 예보입니다.

9기 AI알바생 부트캠프에 참여 중입니다. 캠프 시작전에 분명한 분석 과제가 있었던 것이 아니고, 캠프에 참여하면서 데이터분석/업무자동화 스킬을 배우는 것을 목표로 했었던 지라 과제를 선정하는 데 시간이 오래 걸렸습니다.

결과적으로 저는 부트 캠프 기간 동안 특정 웹사이트의 뉴스를 1)크롤링하여 2)요약하고 3)리스트업하여 4) 배포하는 업무를 자동화하는 것입니다. 이미 다양한 뉴스레터가 시장에서 무료로 배포되고 있습니다. 다른 뉴스레터와 경쟁할 새로운 뉴스레터를 만들겠다는 것이 아니라, 기존에 다른 매체에서 생산한 뉴스를 1)수집 2)요약 3)정리 4)배포하는 과정을 자동화하는 방법을 GPT로부터 얻어내는 것이 제 목표입니다.


  1. 페르소나 부여

우선, GPT에게 "데이터분석 전문가이자, 웹크롤링 컨설턴트"라는 페르소나를 부여했습니다.


2. 노코딩 조건 부여

제가 코딩 지식이 부족해서, 노코딩 조건을 추가했습니다.



하지만 이후 이어지는 답에서 GPT는 코딩 기반으로 안내를 해서 이 부분은 앞으로 계속 물어봐야 할것 같습니다.


3. 과제 목표 부여

다음으로 크롤링할 대상을 선정했습니다. 다양한 매체가 있지만, 수출관련 해외시장 정보를 매일 확인해야하는 업의 특성상 KOTRA의 해외시장뉴스를 선정했습니다. 이 중, 비교적 양이 적고 텍스트로 게시되어 있는 "단신 속보뉴스"를 선택했습니다. 이후 구체적인 과제 1) 크롤링 2)요약 3)정리 4)배포하는 코드 작성을 요청했습니다.


필요한 파이썬 패키지 설치부터 각 단계에 대해 간략히 안내를 해줬습니다.


4. 테스트


안내한 작업에 대해 테스트 작업을 요청했습니다.


하지만 "현재 환경에서 수행할 수 없다"고 하여 다소 의아했습니다. 공개 웹사이트의 내용을 확인하는 것이 불가능하다는 것인지, 크롤링하는 것이 불가능하다는 것인지 모호해서, 이 역시 추가적으로 확인해야겠습니다.


5. 프롬프트 및 작업지시 평가요청


제가 요청한 내용에 대해 개선/수할 부분을 요청했습니다. 하지만 구체적인 "작업지시"에 대한 feedback 보다는 크롤링과 데이터 처리에 대한 일반적인 주의사항을 안내했습니다.


아직 갈길이 머네요. 부트캠프 진행하면서 차차 발전시켜나가야 겠습니다.





2
2개의 답글

👉 이 게시글도 읽어보세요