소개
안녕하세요, 이번에 맥돌님의 가성비 Hermes Agent 세팅 스터디에 참여하게 된 베이컨리얼리즘의 Nikky 입니다. 저는 회사에서 운영총괄을 맡고 있어요. 최종적으로는 반복적으로 진행하는 업무들을 대신해줄 에이전트를 세팅하기 전에, Hermes Agent를 무과금으로 테스트해보고 제대로된 부서 직원들로 키워보고 싶어 스터디를 함께하게 됐습니다. (전에 클로드 API 연결했다가 비용 뚜들겨 맞아서 보수적으로 우회했습니다..)
이번 다운로드-연결-사용부터 병목이고.. 갑자기 노트북도 다운되고.. 자 꾸 중국어해서 곤란하긴 한데.. 우선 이번 스터디동안 매주 10시에 제가 구축한 주문대시보드로 매일 주문 집계를 하는 직원 한 명으로 키워보는 것이 목표입니다.
한줄 요약
클라우드 사용료(쓸 때마다 돈이 빠져나가는 방식)를 한 푼도 내지 않고, AI 에이전트를 내 맥북 안에서 직접 돌아가게 만든 기록입니다. 오류 5번을 넘기며 약 4시간 만에 "무과금 + 정상 작동" 상태에 도달했습니다.
바쁘시면 이것만 읽어도 돼요:
목표: 유료 API 대신 내 컴퓨터 안에서 공짜로 돌아가는 AI 에이전트 만들기 (월 0원)
핵심 깨달음: "에이전트로 쓰려면" 모델이 도구를 호출할 줄 알아야 한다 — 아무 AI 모델이나 되는 게 아니다
가장 큰 벽: 16GB 메모리라는 한정된 공간 안에 큰 모델을 욱여넣는 일
해결법: 메모리를 절약하는 "압축" 옵션을 켜서 17GB짜리를 8.2GB로 줄임
인상적이었던 순간: AI가 직접 속도를 측정해서 "모델은 멀쩡하고, 화면 설정이 문제"라고 짚어준 것
교훈: 오류 메시지를 그대로 복사해서 AI에게 주면, 대부분 그 자리에서 풀린다.
이런 분들께 도움돼요
AI를 쓰고 싶은데 사용한 만큼 돈이 빠져나가는 구조가 부담스러운 분
노트북에 AI를 직접 설치해보고 싶지만 설정이 막막한 분
설치하다 영어 오류 메시지를 만나면 멈춰버리는 비개발자
문제 상황 (Before)
AI 에이전트 도구(여기서는 'Hermes Agent'라는 프로그램)를 터미널에서 켰는 데, 빨간 경고가 떴습니다.
Nous Research Hermes 3 & 4 models are NOT agentic and are not designed for use with Hermes Agent. They lack tool-calling capabilities required for agent workflows.요약하면 "지금 연결된 AI 모델은 에이전트로 못 쓴다"는 뜻이었습니다.
용어 풀이 — '에이전트'와 '도구 호출'
일반 AI 채팅은 질문하면 글로만 답합니다. 반면 에이전트(Agent)는 답만 하는 게 아니라 파일을 열고, 검색을 돌리고, 명령을 실행하는 등 실제 행동을 합니다. 이렇게 행동하려면 AI가 "이 도구를 써야겠다"고 스스로 판단해 호출할 줄 알아야 하는데, 이 능력을 도구 호출(tool-calling)이라고 합니다. 이 능력이 없는 모델 은 아무리 똑똑해도 에이전트로는 못 씁니다.
선택지는 두 가지였습니다. 하나는 클라우드 유료 AI(쓸 때마다 과금)를 연결하는 것, 다른 하나는 공짜로 돌아갈 방법을 찾는 것. 저는 후자를 원했고, 그래서 AI에게 그대로 물어봤습니다.
근데 난 얘를 Agent 로 쓰고 싶은데 어떤 걸로 써야 무과금이 돼?
사용한 도구
도구명: Claude Code (터미널에서 대화하며 작업을 대신 해주는 AI)
모델: Claude Opus 4.7
설치 대상: Hermes Agent(AI 에이전트 프로그램) + Ollama(내 컴퓨터에서 AI 모델을 돌려주는 프로그램)
환경: 맥북 M1, 메모리 16GB
용어 풀이 — '모델'을 돌리는 데 왜 '프로그램'이 또 필요한가
모델(model)은 AI의 두뇌에 해당하는 거대한 파일입니다. 이 파일 자체는 혼자 작동하지 못하고, 이걸 읽어서 실행시켜 주는 엔진이 필요합니다. Ollama가 바로 그 엔진입니다. 무료이고, 내 컴퓨터 안에서만 돌기 때문에 인터넷 사용료도, API 과금도 없습니다.
작업 과정
모델 고르기: 아무 AI나 되는 게 아니구나
공짜로 쓰는 방법은 의외로 명확했습니다. 내 컴퓨터에서 직접 AI를 돌리면 됩니다. 다만 조건이 있었습니다 — 앞서 말한 '도구 호출'이 되는 모델이어야 한다는 것.
AI는 제 컴퓨터 사양부터 물었습니다. 큰 모델일수록 메모리를 많이 먹기 때문입니다.
M1 16GB이 사양에 맞춰 'qwen2.5:7b'라는 모델을 추천받았습니다.
용어 풀이 — 모델 이름의 '7b'가 뭔가요
모델 이름 뒤의 7b는 'parameter 70억 개'라는 뜻입니다. parameter는 AI가 학습으로 익힌 '지식의 매듭' 같은 것으로, 숫자가 클수록 똑똑하지만 그만큼 메모리도 많이 차지합니다. 16GB 컴퓨터에는 7b(70억) 정도가 적당하고, 14b(140억)부터는 버거워집니다.
설치는 순조로웠다 — 첫 성공
여기서 저는 일일이 따라 하는 대신 한 문장만 보냈습니다.
너가 진행해줘그러자 AI가 알아서 제 설정 파일을 열어보고, 기존 설정이 잘못된 곳(엉뚱한 프로그램을 가리키고 있었음)을 찾아내고, 모델을 내려받고, 설정을 고친 뒤, "도구 호출이 잘 되는지" 직접 시험까지 마쳤습니다. 첫 테스트는 통과였습니다.
첫 번째 벽 — "기억 공간이 부족합니다"
다시 켰더니 새 오류가 떴습니다.
context window of 32,768 tokens, which is below the minimum 64,000 required용어 풀이 — '컨텍스트 윈도우'는 AI의 단기 기억력
컨텍스트 윈도우(context window)는 AI가 한 번에 기억할 수 있는 대화의 양입니다. 책상 넓이에 비유하면, 넓을수록 더 많은 서류를 동시에 펼쳐놓고 일할 수 있습니다. Hermes Agent는 "최소 6만 4천 칸짜리 책상"을 요구했는데, 추천받은 모델의 책상은 3만 2천 칸이라 거절당한 겁니다.
AI는 책상이 더 넓은 다른 모델(llama3.1)을 시도했습니다. 그런데 이번엔 진짜 물리적 한계에 부딪혔습니다 — 그 모델을 넓은 책상으로 펼치니 17GB가 필요했는데, 제 컴퓨터 메모리는 16GB뿐이었습니다. 공간이 넘쳐서 작업 일부가 느린 쪽으로 밀려났고, 속도가 떨어졌습니다.
여기서 AI의 판단이 좋았습니다. 새 모델은 도구 호출도 불안정하다는 걸 테스트로 확인하고는, "처음 모델로 되돌리되 다른 방법으로 책상을 넓히자" 고 방향을 틀었습니다.
메모리를 쥐어짜다 — 17GB를 8.2GB로
핵심 해결책은 '압축'이었습니다.
용어 풀이 — 'KV 캐시 양자화'
AI가 긴 대화를 기억할 때 쓰는 임시 메모장을 KV 캐시라고 합니다. 이게 책상 공간을 많이 잡아먹습니다. 양자화(quantization)는 이 메모장의 글씨를 살짝 작게 줄여 쓰는 기술입니다. 정보를 약간 압축하는 대신 공간을 절반으로 아낄 수 있습니다. 사진을 약간 압축해 용량을 줄이는 것과 비슷합니다.
이 압축 옵션을 켜자, 64칸 책상을 펼쳐도 8.2GB만 차지하게 됐습니다. 16GB 안에 여유 있게 들어갔고, 작업도 전부 빠른 쪽(그래픽 칩)에서 처리됐습니다.
같은 오류가 또? — 한 번에 막아버리기
오류가 또 떴습니다. 이번엔 본체 모델이 아니라 '보조 모델'에서였습니다.
용어 풀이 — '보조 모델'
Hermes Agent는 대화용 본체 모델 외에도, 대화 요약·제목 짓기 같은 잔일을 처리하는 작은 보조 모델을 여러 개 둡니다. 본체만 고쳤더니 보조 모델들이 같은 이유로 줄줄이 막힌 것입니다.
하나 고치면 다음 게 막히는 두더지잡기가 될 것 같아서, 저는 이렇게 요청했습니다. (바이브코딩하면 맨날 이런식이라 지겨웠습니다..)
미리 한 번에 처리해두자AI는 보조 모델 12개를 한꺼번에 찾아 같은 설정을 일괄 적용했습니다. 본체까지 13곳. 이제 다시 켜기 한 번으로 모든 오류가 사라졌습니다.
"오류는 없는데 느림" — 진짜 원인은 따로 있었다
오류는 안뜨는데 답변이 너무 느린데?AI는 추측하지 않고 속도를 직접 측정했습니다. 결과는 의외였습니다 — 모델 자체는 정상 속도였습니다. 느리게 느껴진 진짜 이유는 두 가지였습니다.
스트리밍이 꺼져 있었음: 답변이 다 만들어질 때까지 화면에 아무것도 안 뜨고 있었습니다. (스트리밍 = 글자가 만들어지는 대로 실시간으로 보여주는 기능. 켜면 기다리는 체감이 확 줄어듭니다.)
모델이 자꾸 잠들었음: 5분만 쉬면 모델이 메모리에서 내려가, 다음 질문 때 다시 불러오느라 지연이 생겼습니다.
둘 다 고쳤습니다. 스트리밍을 켜고, 모델이 잠들지 않고 항상 대기하도록 설정했습니다.
마지막 — 재부팅해도 유지되게, 그리고 청소
ㅇㅇ 영구등록해줘지금까지의 설정은 컴퓨터를 끄면 사라지는 임시 설정이었습니다. AI는 '컴퓨터를 켤 때마다 자동으로 이 설정을 적용하는 작은 예약 프로그램'을 만들어 등록했습니다. 이제 재부팅해도 그대로입니다.
마지막으로 테스트하느라 받아둔 쓸모없는 모델 파일들과 중복 설치된 프로그램을 정리해 약 19GB의 저장 공간을 되찾았습니다.
결과 (After)
Before vs After
항목
Before
After
사용료
클라우드 유료 API 필요
월 0원 (내 컴퓨터에서 실행)
에이전트 작동
❌ 오류로 실행 불가
✅ 정상 작동
메모리 사용
17GB (16GB 초과 → 느려짐)
8.2GB (여유 있게 안착)
체감 속도
답변 끝까지 무응답 대기
실시간으로 글자 표시
재부팅 후
설정 사라짐
자동 유지
결과물
내 맥북 안에서만 돌아가는, 사용료가 전혀 없는 AI 에이전트. 인터넷 연결이 끊겨도 작동하고, 대화 내용이 외부 서버로 나가지 않아 보안에도 유리합니다.
이 과정에서 배운 AI 활용 팁
효과적이었던 것
오류 메시지는 통째로 복사해서 붙여넣기. 요약하거나 "이런 오류 떴어"라고 설명하지 말고, 영어 그대로 복사해 주면 AI가 정확히 진단합니다. 이 작업의 오류 5개가 전부 이렇게 풀렸습니다. (OCR은 토큰을 많이 먹는다고 해서 복사할 수 있는 내용들은 최대한 복사했습니다. 원래는 이미지로 복붙을 선호하긴 합니다..)
"너가 진행해줘"라고 맡기기. 단계마다 따라 하는 대신 큰 방향만 주면, AI가 확인-수정-테스트를 알아서 반복합니다.
"한 번에 처리해두자"고 미리 막기. 같은 오류가 반복될 조짐이 보이면, 하나씩 고치지 말고 일괄 처리를 요청하면 시간이 크게 절약됩니다.
이렇게 하면 안 돼요
"제일 똑똑한 모델"만 고르지 말기. 큰 모델이 무조건 좋은 게 아닙니다. 내 컴퓨터 메모리에 안 들어가면 오히려 더 느려집니다. 사양에 맞는 크기를 골라야 합니다.
느리다고 바로 모델을 바꾸지 말기. 느림의 원인이 모델이 아니라 화면 설정일 수 있습니다. 원인을 측정으로 확인한 뒤 손대는 게 맞습니다.
다른 업무에 적용한다면?
"내 컴퓨터 안에서 공짜로 AI 돌리기"는 이 사례 말고도 쓸모가 많습니다. 외부에 새어 나가면 안 되는 회사 문서를 AI로 요약하거나, 인터넷이 불안정한 환경에서 AI 도움을 받거나, 사용량이 많아 클라우드 요금이 부담될 때 모두 같은 방식이 답이 됩니다.
앞으로의 계획
작업 성격에 따라 더 작고 빠른 모델과 크고 똑똑한 모델을 바꿔 쓰며 최적점 찾기 (오..)
잘 안 쓰는 기능을 꺼서 에이전트를 더 가볍고 빠르게 만들기 (에이전트 스스로 셀프 체크하는 기능이 있을지 궁금..)
이 무과금 에이전트로 실제 반복 업무 한 가지를 자동화해보기 (주문만 처리하는 에이전트는 되겠지..)
재사용 가능한 프롬프트
프롬프트 1: 무과금 로컬 AI 세팅 요청
나는 [AI 에이전트 도구 이름]을 무과금으로 쓰고 싶어. 내 컴퓨터는 [맥북 M1 / 윈도우 등], 메모리 [16GB] 야.
1) 이 사양에서 도구 호출(tool-calling)이 되는 무료 로컬 모델을 추천해주고
2) 설치부터 설정 변경, 작동 테스트까지 네가 직접 진행해줘.
중간에 오류가 나면 원인을 설명하고 바로 고쳐줘.
프롬프트 2: 오류 진단 요청
아래는 [프로그램 이름]에서 뜬 오류 메시지야. 그대로 복사한 거야.
[오류 메시지 전체 붙여넣기]
이 오류가 왜 나는지 비개 발자도 알 수 있게 설명하고, 해결까지 진행해줘.
프롬프트 3: 느림 원인 진단 요청
[프로그램]이 느린데 원인을 모르겠어. 추측하지 말고, 먼저 속도를 실제로 측정해서
진짜 원인이 모델 성능인지 설정 문제인지 구분해줘. 그다음 개선해줘.