#9기AI알바생
지난번 <뉴스 크롤링, 요약, 배포 자동화>라는 야심찬 목표를 세우고 시도했다가 잘 안되었다는 결과를 공유드린 바 있습니다. (https://www.gpters.org/data-science/post/automate-news-crawling-summarization-TU2BF2jpgJaUtV3) 부트캠프를 진행하면서 해답을 찾을 수 있을거라 기대했지만, 그 뒤로 2주가 더 흘렀지만 결과적으로 바뀐 것은 없네요.
제가 너무 헤매고 있으니 몽주님도 이러저러한 아이디어를 주셨고, 그 아이디어를 반영 해서 프롬프트를 바꾸어 보았지만 결과는 바뀌지 않았습니다. 그러던 중 “김정욱”님 의 작업물(https://www.gpters.org/nocode/post/crawl-melon-charts-knowing-1HwT5n9mfTWsLzz)에서 gpt가 크롤링을 해줬다는 솟식을 듣고 추가로 요청을 해봤지만 .. 결과적으로 실패했습니다. 오늘은 그 과정을 공유드릴까 합니다.
노코딩 욕심 / 데이터 시각화 목표 버리기
우선 ChatGPT말고 다른 툴도 이용해보라는 조언을 듣고 Gemini를 시도해 봤습니다.
하지만 막상 하라는데로 따라 해봤더니, 잘 되지 않았습니다. 대놓고 “제가 할수 없는 명령입니다”라고 하더군요.
ChatGPT, 바드, Gemini 모두 크롤링을 직접 수행해주지는 않는 다는 교훈을 얻고, 그렇다면 노코딩 욕심을 버리고 최소한의 코딩을 해보자고 마음 먹었습니다. GPT가 지속적으로 본인은 크롤링을 위한 코드만 제공해줄 수 있다고 했거든요..
다시 GPT로 돌아와서 지난한 질문을 반복했습니다.
너는 3.5가 아니라 유료버전인 4.0이라고 상기했지만, 단호하게 외부 웹사이트에 접근할 기능이 없다는 말에 신경질이 많이 났습니다. 많이 당황했습니다.
어쨋거나 파이썬과 아나콘다를 설치하고, 코딩을 시작했습니다. 코드를 복사해서 쥬피터 노트북에 복사하고 실행을 하면 되니 새삼 간편하긴 했습니다. 하지만 얼마 안가 잘 알지 못하는 분야를 gpt에게 시키면 절대 좋은 결과를 얻을 수 없다는 고수들의 경험담을 저도 경험하게 되었습니다.
제가 확인하고 자 하는 컨텐츠의 구조를 GPT가 파악은 하고 있는지 확인하려고 했는데, 직접 접근하지 못한다고만 하네요. 저의 말투에서도 이제 슬슬 짜증이 느껴지네요.
결국에는 데이터 구조를 재검토 하라는 답을 얻었습니다. 코딩도 잘 못하는데 남이 만든 웹사이트데이터 구조를 재검토 하라길래 포기 했습니다.
2. 크롤링 → 클리핑으로 변경
욕심을 조금더 버려서, 크롤링에서 스크래핑/클리핑 정도로 눈을 조금더 낮춰 봤습니다. 제가 상상한 그림은 아침에 출근해서 1)구글 sheet를 새로고침하면, 2)오늘 날짜로 특정 키워드가 포함된 기사들이 클리핑되기를 바랐습니다. GPT도 Gemini도 처음에는 선뜻 그런 작업을 해줄 수 있다고 했거든요.
하지만 단계를 진행하다보니, 활용해야 하는 서비스(UiPath Studio 등)가 많아지고, 막상 설치하고 실행하는데 또 공부를 해야하고, 배보다 배꼽이 더 커지는 상황이 되어버렸습니다.
2.1 또한, 혹시나 제가 크롤링/클리핑 하려는 사이트가 공공기관이 운영하는 것이어서 문제가 되는가 싶어서, 네이버 뉴스에서 특정 키워드의 뉴스를 스크래핑하는 것을 시도해 봤습니다. 크롤링/클리핑이라는 목표 외에는 처음 생각했던 것과 많이 달라졌죠.
그런데 정말 이상하게, 유독 GPT는 웹사이트에 접속해 정보를 파악하는것도 불가능하다고 하네요. 제가 다른 ip주소로도 접속해서 다시 질문해봐도, 웹사이트에 접속해 정보를 파악하는 것 조차 안된다고 해서 무력감을 느꼈습니다. 구글 sheet를 csv파일로 만들어서 함수로 문제를 풀어보려고 했는데 그마저도 여의치 않네요. 구글 sheet에 직접 접근은 못하는 것은 그렇다 하더라도 네이버 뉴스도 못들어간다고 하니.. 앞서 다른 분들 사례에서 멜론/네이버 뉴스등의 내용을 확인한 GPT가 야속하더군요.
이번주 동안 이 문제를 해결할 방법을 좀 찾아보겠습니다. 다른 분들도 이런 경험을 해보셨다면 혹시나 팁을 주시면 큰 도움이 될 것 같습니다.
감사합니다.