n8n과 카메라 분석 기반의 공간제어 자동화 워크플로우 (2)

소개

조명 등 다양한 IOT장치, 스마트홈 디바이스들을 LLM Agent 에 의해 자동화되도록 시도하고자 합니다.

보통 스마트홈 시스템의 자동화는 대개, IF ... THEN ... 과 같은 로직으로 만들어지는데,

이것을 LLM이 수행한다면 훨씬 더 다양하고, 현재 공간 내에서 일어나는 상황을 맥락 기반으로 분석할 수 있을거라고 생각했습니다.

그리고 그 기반 데이터는 카메라만을 사용하며,
카메라 정보 하나만으로도 멀티모달 LLM이 많은 정보를 찾아낼 수 있을 것이라고 생각합니다.

진행 방법

사용된 도구

  • N8N (전체 워크플로우 작동)

  • IP 카메라

  • 로컬 LLM 모델 (QWEN 2.5VL 3B, OWLv2 ) : 카메라 영상분석

  • CHAT GPT 4.1 : 맥락 분석

  • 홈어시스턴트 (IOT 장치 제어)

전체 워크플로우

게임의 흐름을 보여주는 다이어그램

(1) 카메라 정보 입수

  • 본인의 사무실에 시험적용을 하였기에 사무실 카메라 1개를 활용하고, 워크플로우 내에서 실시간 캡처

  • 이것을 해상도를 세로기준 480px정도로 줄이고, Zone1, 2로 구분

녹색 화면이있는 방의 두 장

(2) 로컬모델로 이미지 분석

  • 워크플로우 순환 속도는 15s~30s단위로 계속반복 실행되기에, API비용을 줄이고자 이미지분석에는 로컬모델을 사용

  • Qwen 2.5VL-3B를 사용해보았으나, 만족도는 다소 낮아 다른 모델로 변경 적용 예정

  • 재실중인 사람의 수와, 현재 하고있는 활동, 특이사항을 출력하도록 설정했습니다.

    출력 설정을 보여주는 화면의 스크린 샷

(3) 순간순간의 이미지분석 데이터를 Supabase에 저장

  • 순간의 이미지 분석 데이터를 Supabase에 저장하고, 추후 AI Agent는 이 데이터를 누적분석하여 일정 시간의 맥락을 찾아 분석하도록 셋업합니다

(4) AI Agent Node

  • 10분 전의 시간을 지정하고, 10분간의 Supabase 데이터를 Get row 기능으로 가져오고,
    10분간의 누적된 상황을 기반으로 GPT4.1이 현재 상황을 도출합니다.

  • 시스템 프롬프트는 '시설관리자' 라는 아이덴티티로 현재 상황을 분석하고, 조명/설비 제어 계획을 출력하도록 했습니다.

  • 아래처럼 10분간의 맥락을 기반으로 현재 상황을 분석하고, 조명, 냉방, 공기청정기 3가지의 작동방향을 제시합니다.

  • 출력된 데이터는, 각 항목별로 적절한 Http Request를 요청하도록 Code 노드로 연결합니다. (예정)

결과와 배운 점

  • n8n 너무 좋아요

  • 로컬 모델을 사용해보니 CHAT GPT가 정말 너무너무 좋다는.. 생각이 듭니다 ㅠㅠ

  • 로컬 모델을 잘 튜닝하는 법을 배우고싶어요.

  • 일단 끝까지 한번 Working 하도록 시켜보고, 이후 세세하게 튜닝하며, 알고리즘을 개선시켜보려고 합니다.
    GPTers 스터디에서 여러가지 사례를 보면서 아이디어를 계속해서 얻고 있습니다.

6
3개의 답글

👉 이 게시글도 읽어보세요