AI가 내 컴퓨터를 움직인다고? AI 자동화 Agent Claude 'Computer Use Demo' 이용 후기

소개

시간이 지날 수록 일상생활 속에 Chat GPT, Claude를 필두로 다양한 AI 서비스가 나오고 있습니다. LLM을 통해 텍스트, 음성, 영상, 이미지등의 결과물을 받거나 메이크, 재피어와 같은 서비스를 이용해 다양한 업무를 자동화 할 수도 있습니다.
그런데 아직까지 내 PC나 스마트폰을 자동으로 움직여서 내가 명령한 지시를 수행하는 AI도구가 눈에 보이진 않았습니다.

그러던 중, 박정기 스터디장님이 올려주신 '엥? AI에게 명령을 내리면, AI가 직접 웹사이트에 열어서 원하는 목표를 달성한다고?'를 보며 얼마전 Claude에서 발표한 'Computer use Demo'가 떠올랐습니다.

박 스터디장님의 사례에서는 웹페이지의 코드를 분석하여 AI Agent가 적절한 행동을 하는 것으로 보였는데, 클로드에서 발표한 'Computer use demo'의 경우 화면을 캡쳐하여 이미지를 분석하고 분석된 이미지를 기반으로 특정 좌표의 클릭을 할 것인지, 스크롤을 내릴 지, 키보드를 이용해 특정 값을 넣을지 등의 행동을 결정합니다.

진행 방법

  1. 설치 방법

    Computer use가 도커 컨테이너 기반으로 돌아가기 떄문에 PC에 도커를 설치하고 그 위에 Computer use를 올려야 합니다.

    윈도우에도 Docker를 설치하여 테스트 가능 합니다.다만 도커 설치부터 Computer use의 설치까지 설명이 길어지기 때문에 아래의 링크를 참조하여 주세요.

    혹시나 포테이너(도커를 좀 더 쉽게 이용할 수 있게 해주는 어플리케이션)를 사용하시는 분들은 포테이너용 yml을 복붙하여 이용하셔도 됩니다.

  2. 작동 방법 : 웹브라우저에서 localhost:8080으로 접속

  3. 작동


    Computer use demo'이름에서 볼 수 있듯이 아직 완전한 서비스는 아닙니다. 가상머신으로 리눅스 환경을 기반으로 제한된 어플리케이션(파이어폭스, 리브레칼크[무료 스프레드시트], 계산기 등)을 활용하여 자동화를 진행 합니다.

아래의 사례에선 Skyvern에서 실패했던 '쿠팡에 접속해서 맥미니 장바구니에 넣기'를 진행했습니다.

(화면 우측은 우리가 바라표는 PC화면이고, 좌측은 Claude가 확인한 이미지, 행동 명령 등을 확인 할 수 있습니다.)

마지막에 '장바구니 담기'만 클릭하면 되는데, API 호출 에러(리미트)가 걸리는 바람에 실패같은 성공을 했습니다.

결과와 배운 점

테스트를 통해 알게된 것들

간단하게 원하는 목적을 설명하면, 어떤 절차로 목적을 달성할 지 고민한 뒤 여러 과정을 거칩니다. 그 과정에서 다양한 변수를 직면하게 되는데 다양한 방법으로 해결하는 것이 인상적이었습니다.

  • 쿠팡 사이트에 접속하기 위해 검색창에 쿠팡의 URL을 이용하여 접속하기도 하고, 영상속 예처럼 창에 '쿠팡'숏컷이 있을 경우 숏컷으로 접속합니다.

  • 사이트에 접속하면 검색을 시도 하는데 팝업이 있을 경우 팝업을 제거하고 다시 검색을 시도하기도 하고, '맥 미니'를 검색하고 상품이 나오는 것이 아니라 세부 카테고리가 나올 경우(상품은 안보임), 세부 카테고리를 다시 한번 파고 들어가서 상품을 찾아냅니다.

  • 매순간 마다 화면을 캡쳐하여 상황을 파악하고, 적절한 액션(팝업 제거, 상품이 없으니 어떤 상황인지 분석하고, 다음 액션으로 무엇을 해야 하는지 고민)을 취하는 것이 인상적이었습니다.

한계점

  • 무시못한 토큰량 : 매번 이미지 분석을 시도하기 때문에 토큰 사용량이 무시무시 합니다. (여러가지 테스트를 5분간 해봤는데, 0.64$ 소요)

  • 한글지원 미숙 : 처음엔 한글폰트가 모두 깨져 나와서, computer use기능안에서 '한글이 깨지니 폰트를 설치해'라는 명령을 주었습니다. 좀 더 완성도 높은 버젼이 나오면 한글도 잘 지원되겠죠~?^^

  • 가상환경의 한계 : 내 PC(윈도우, 맥)를 직접 조종하는 것이 아니라 가상 환경 속의 PC를 조작하다보니 한계가 있습니다.

이처럼 아직 한계는 많지만 그래도 RPA(Robotic Process Automation)솔루션들의 진입장벽을 생각하면, Computer use와 같은 AI agent가 새로운 이정표를 제시하고 있다는 생각이 들었고, 자동화(매크로)영역에서 어떻게 AI 도구들을 활용할 지 아이디어를 얻을 수 있었습니다.

도움 받은 글 (옵션)

6
4개의 답글

👉 이 게시글도 읽어보세요