업무를 작업하다보면, 가끔 크롤링을 해야하는 니즈가 있습니다.
예전에 Octoparse를 사용할려다가, 작업이 너무 어려워서 실패한 경험이 있었죠
그래서 이번에는 더 쉬운 툴을 찾다보니, ‘Browse.AI’를 발견하였습니다.
Browse.ai를 들어가시면 다음과 같은 화면 구성을 볼 수 있습니다. 하나씩 확인해보죠
=
아래의 두 가지 기능 중에서 저희는 Extract Structured Data를 사용합니다.
만약 로그인이 필요한 곳이라도, 다음과 같이 버튼클릭 하나만으로 뚫을 수 있습니다!
저는 로그인을 해야만 추가적인 정보가 보이는 환경이여서, Login with my session cookies를 클릭합니다.
이러면 기존 구글크롬으로 로그인이 된 환경이라면, 로그인이 이미 된 상태로 크롤링이 진행됩니다.
Start Recording을 선택하시면, 다음과 같이 Chrome Extenstion을 설치하는 안내창이 있습니다.
일단 시키는대로 이를 설치하고, Permission까지 줍니다.
그럼 다음과 같 이 시크릿모드로 크롬창이 열리게되고, 옆에는 귀여운 로봇이 등장합니다.
로봇을 클릭하면, 다음과 같이 조건을 줍니다.
List : 특정한 칸 안에 있는 정보를 가져옵니다 » 저희는 이 기능을 사용합니다!
Text : 택스트 정보를 가져옵니다
Screenshot : 스크린샷을 추출합니다
다음과 같이 추출하고자하는 정보를 클릭한 후, 추출할 시 정보를 입력해야합니다.
해당 기능은 과정이 쉽지않아, 참조를 위해 아래의 영상을 첨부해두었습니다.
실습 때 자세히 설명드릴게요!
Screen Recording 2023-10-17 at 6.00.40 PM.mov이렇게 선택한다면, 다음과 같이 결과 페이지가 나옵니다.
특히 하단에, 최대 몇개를 추출할지, 그리고 추가정보를 위해 어떠한 이동버튼이 있는지 선택할 수 있습니다.
이후 Capture List가 나오면 다음과 같이, Final Screen을 볼 수 있습니다.
최종 결과물이 본인이 생각한 결과물이 맞다면, Finish Setup을 누르시면 됩니다.
Monitor 기능을 통해서, 언제 해당 봇을 돌릴지 설정할 수 있습니다.
이 기능 정말 편하고 좋습니다~!
Browse.ai의 가장 큰 장점은 Integrate 기능이 잘되어있다는 점입니다.
저는 일단 모든 결과물을 Spreadsheet를 통해서 받아보기로 하죠!
스프레드시트를 연결하면 다음과같이 결과를 보게됩니다.
하지만 위 정보는 채용리스트만 나와있고, 해당 채용공고의 Job Description은 나와있지않네요!
그래서 필요한 기능이 Workflow기능입니다.
먼저 위와 동일한 방법으로 Job Description을 추출하는 로봇을 하나더 만듭니다.
그리고 위 두 로봇의 작업순서를 설정하게되는게 그것이 Workflow 기능의 핵심입니다
다음과 같이 A, B로봇을 선택 및 세팅하면됩니다.
A로봇에서 추출한 Link 정보를 B로봇이 받아 바로 링크 접속 후, 내용 스크랩하는 WorkFlow입니다.
이렇게 하면 다음과 같은 결과가 나오게 됩니다.
제 처음 생각은 동일 기업정보라면 모두 다 같은 행에 나오면 좋겠지만 ㅎㅎ
이 부분은 Vlookup으로 해결하더라도, 저희가 원하는 결과는 모두 추출할 수 있습니다~!
마지막 가격정보!! 비쌉니다;
크롤링 도구가 비쌀 때 GPT로 Appscript 활용방법