업무를 작업하다보면, 가끔 크롤링을 해야하는 니즈가 있습니다.
예전에 Octoparse를 사용할려다가, 작업이 너무 어려워서 실패한 경험이 있었죠
그래서 이번에는 더 쉬운 툴을 찾다보니, ‘Browse.AI’를 발견하였습니다.
Browse.ai를 들어가시면 다음과 같은 화면 구성을 볼 수 있습니다. 하나씩 확인해보죠
=
아래의 두 가지 기능 중에서 저희는 Extract Structured Data를 사용합니다.
만약 로그인이 필요한 곳이라도, 다음과 같이 버튼클릭 하나만으로 뚫을 수 있습니다!
저는 로그인을 해야만 추가적인 정보가 보이는 환경이여서, Login with my session cookies를 클릭합니다.
이러 면 기존 구글크롬으로 로그인이 된 환경이라면, 로그인이 이미 된 상태로 크롤링이 진행됩니다.
Start Recording을 선택하시면, 다음과 같이 Chrome Extenstion을 설치하는 안내창이 있습니다.
일단 시키는대로 이를 설치하고, Permission까지 줍니다.
그럼 다음과 같이 시크릿모드로 크롬창이 열리게되고, 옆에는 귀여운 로봇이 등장합니다.
로봇을 클릭하면, 다음과 같이 조건을 줍니다.
List : 특정한 칸 안에 있는 정보를 가져옵니다 » 저희는 이 기능을 사용합니다!
Text : 택스트 정보를 가져옵니다
Screenshot : 스크린샷을 추출합니다
다음과 같이 추출하고자하는 정보를 클릭한 후, 추출할 시 정보를 입력해야합니다.
해당 기능은 과정이 쉽지않아, 참조를 위해 아래의 영상을 첨부해두었습니다.
실습 때 자세히 설명드릴게요!
Screen Recording 2023-10-17 at 6.00.40 PM.mov이렇게 선택한다면, 다음과 같이 결과 페이지가 나옵니다.
특히 하단에, 최대 몇개를 추출할지, 그리고 추가정보를 위해 어떠한 이동버튼이 있는지 선택할 수 있습니다.
이후 Capture List가 나오면 다음과 같이, Final Screen을 볼 수 있습니다.
최종 결과물이 본인이 생각한 결과물이 맞다면, Finish Setup을 누르시면 됩니다.
Monitor 기능을 통해서, 언제 해당 봇을 돌릴지 설정할 수 있습니다.
이 기능 정말 편하고 좋습니다~!
Browse.ai의 가장 큰 장점은 Integrate 기능이 잘되어있다는 점입니다.
저는 일단 모든 결과물을 Spreadsheet를 통해서 받아보기로 하죠!
스프레드시트를 연결하면 다음과같이 결과를 보게됩니다.
하지만 위 정보는 채용리스트만 나와있고, 해당 채용공고의 Job Description은 나와있지않네요!
그래서 필요한 기능이 Workflow기능입니다.
먼저 위와 동일한 방법으로 Job Description을 추출하는 로봇을 하나더 만듭니다.
그리고 위 두 로봇의 작업순서를 설정하게되는게 그것이 Workflow 기능의 핵심입니다
다음과 같이 A, B로봇을 선택 및 세팅하면됩니다.
A로봇에서 추출한 Link 정보를 B로봇이 받아 바로 링크 접속 후, 내용 스크랩하는 WorkFlow입니다.
이렇게 하면 다음과 같은 결과가 나오게 됩니다.
제 처음 생각은 동일 기업정보라면 모두 다 같은 행에 나오면 좋겠지만 ㅎㅎ
이 부분은 Vlookup으로 해결하더라도, 저희가 원하는 결과는 모두 추출할 수 있습니다~!
마지막 가격정보!! 비쌉니다;
크롤링 도구가 비쌀 때 GPT로 Appscript 활용방법