한줄 요약
AI 팀(클코+엘라+토니)을 구축한 뒤, 하네스 엔지니어링 개념을 적용해 시스템이 스스로 점검하고 개선하는 구조를 만든 과정입니다. 자동화는 만드는 게 30%, 운영/개선이 70%였습니다.
이런 분들께 도움돼요
AI 에이전트를 세팅했는데 "그 다음에 뭘 해야 하지?" 싶은 분
크론잡 돌려놨는데 에러 나도 모르고 방치한 경험 있는 분
자동화를 만들 때마다 문서가 흩어져서 나중에 못 찾는 분
"하네스 엔지니어링"이 뭔지 실전 사례로 이해하고 싶은 분
소개: 시도하고자 했던 것과 그 이유
이전 글에서 만든 것
이전 게시글에서 이런 시스템을 구축했습니다:
AI 팀: 클코(Claude Code, 참모/개발) + 엘라(GPT-5.4, 기획/수집) + 토니(GPT-5.4, 실행/재테크)
크론잡 6개: 아침 브리핑, 저녁 정리, 주간 점검 등 자동 실행
AI 워크스페이스: 폴더 구조 + 스킬 22개 + 에이전트 3개
근데 만들고 나니...
만들어놓으면 알아서 잘 돌아갈 줄 알았는데, 현실은 달랐습니다.
문제
상황
"했어요" 사기
엘라가 "학습 완료했습니다" → 실제 파일 없음
크론잡 에러 방치
저녁 정리 크론잡이 4일 연속 에러 → 아무도 모름
말투 이상
일기체("~하겠다") + 존댓말 섞여서 어색
문서 미아
"그거 어디 있었지?" → 폴더 뒤지기 30분
서로 칭찬만
슬랙에서 "잘 했어!" "산출물 나왔어!" → 구체적 내용 없음
수동 정보 수집
새로운 스킬/사례 → 내가 직접 찾아야 함
자동화를 만든 게 끝이 아니라, 자동화를 관리하는 자동화가 필요했습니다.
진행 방법: 하네스 엔지니어링 적용
"하네스 엔지니어링"이 뭔데?
Anthropic(Claude 만든 회사) 공식 문서에 나오는 개념입니다.
하네스(harness) = 말의 고삐. AI 에이전트가 잘 달리도록 고삐를 잡는 설계.
핵심 원칙 3가지:
에이전트는 자기 작업을 객관적으로 평가 못 함 → 별도 평가자 필요
플래너(계획) - 생성기(실행) - 평가자(검증) 3역할 분리
파일 기반 통신이 가장 안정적 (API 호출보다)
랄프톤(해커톤) 사례가 증명한 것
최근 OpenAI 후원 AI 해커톤(Ralphthon)에서:
"계획 수립만 3시간 → AI 12시간 자동 실행 → 아침에 결과 평가"
중요한 건 그냥 자동 도는 게 아니라, 계획 수립 단계에서 업무 정의, 워크플로우, 오류 처리, 예외 처리를 빡빡하게 세운다는 것. 계획이 탄탄하면 12시간도 자동으로 돌아간다고 합니다.
우리 팀이 이미 이 구조였다
돌아보니, 우리 AI 팀이 이미 하네스 구조를 자연스럽게 만들고 있었습니다:
Anthropic 모델: 우리 팀:
플래너 (계획/스펙) → 엘라 (기획/분석/방향 설정)
생성기 (구현/실행) → 토니 (재테크 분석) + 클코 (개발)
평가자 (테스트/검증) → 클코봇 (매일 자동 점검) + 클코 (검증/보정)
파일 기반 통신도 이미 하고 있었습니다:
회의실 notes/ = 에이전트 간 핸드오프 공간
소통보드 = 보정 지시 전달
daily-tasks.md = 작업 상태 추적
방향은 맞았는데, 체계가 부족했습니다. 그래서 이번에 본격적으로 정비했습니다.
이번에 새로 구축한 것들
1. 살아있는 아키텍처 문서 (8개)
시스템 전체를 문서화했는데, 핵심은 "개선할 때마다 같이 업데이트된다"는 점입니다.
00-system/03-architecture/
├── README.md ← 전체 개요 + 빠른 세팅 가이드
├── 01-overview.md ← AI팀 구조, 데이터 흐름, 스킬/에이전트 전체 목록
├── 02-openclaw.md ← OpenClaw 세팅, 크론잡, 운영 규칙
├── 03-automation.md ← 자동화 파이프라인 5개 상세
├── 04-content.md ← 콘텐츠 자동화 (유튜브 대본/블로그)
├── 05-knowledge.md ← 지식관리 (메모리/작업일지/옵시디언)
├── 06-monitoring.md ← 모니터링 (점검/토큰/백업)
├── 07-revenue.md ← 수익화 연결
├── 08-skill-evaluation.md ← 스킬/도구 평가 체계
└── CHANGELOG.md ← 변경 이력 (매 변경 시 한 줄 기록)
운영 방식: 자동화를 바꿀 때마다 CHANGELOG에 한 줄 메모 → 매주 일요일 일괄 갱신
왜 이렇게 했냐면:
매번 갱신하면 토큰 낭비
일주일치 모아서 한 번에 → 최소 비용 최대 효율
나중에 새 환경에서 이 문서만 보고 동일 시스템 재현 가능
2. 사용 매뉴얼 (7개)
아키텍처 문서가 "어떻게 만들었는지"라면, 매뉴얼은 "어떻게 쓰는지"입니다.
00-system/06-user-manual/
├── 01-시작하기.md ← 시스템 뭔지, 첫날 체크리스트
├── 02-매일-하는-것.md ← 아침 확인 5분, 저녁 확인 1분
├── 03-주간-하는-것.md ← 주간 리뷰, 진단
├── 04-에이전트-사용법.md ← 엘라/토니/클코 지시하는 법
├── 05-스킬-명령어-사전.md ← 22개 스킬 + 8개 명령어 사용법
├── 06-문제-해결.md ← 자주 발생하는 문제 + 해결법
└── 07-커스터마이징.md ← 크론잡/스킬/말투 변경하는 법
이 매뉴얼만 주면 다른 사람도 바로 사용 가능합니다.
3. 8단계 정보 검색 체계
"이전에 한 작업 어디 있지?" 할 때 헤매지 않도록:
1순위: 메모리 (MEMORY.md) → "이건 뭐였지?" (규칙/현황)
2순위: 작업일지 (INDEX.md) → "언제 뭐 했지?"
3순위: 백로그 (BACKLOG.md) → "남겨둔 것/할 일"
4순위: 아키텍처 (03-architecture/) → "시스템이 어떻게 돌아가지?"
5순위: 수집 자료 (30-collected/) → "외부에서 가져온 것"
6순위: 프로젝트 (10-working/) → "실제 작업물"
7순위: 설정 가이드 (02-setup-guides/) → "어떻게 세팅했지?"
8순위: 참조 URL (05-reference-urls.md) → "외부 링크"
모든 계층에 INDEX 파일을 만들어서, 어디서든 "입구"가 있도록 했습니다. 실제로는 클코한테 "이거 찾아줘" 하면 인덱스+검색 조합으로 몇 초 만에 찾아줍니다.
4. 자기진단 + 개선 루프 (핵심!)
이게 이번 작업의 가장 중요한 포인트입니다.
매주 일요일 오후 (클코와 대화 시 3-in-1)
1. 메모리 리뷰 — 오래된 거 정리, 빠뜨린 거 보완
2. 아키텍처 갱신 — CHANGELOG 보고 문서 업데이트
3. 시스템 진단 + 개선안
├── 크론잡 에러율/성과 분석
├── 폴더/프로세스 비효율 발견
├── "이건 스킬로 만들면 좋겠다"
├── "이 크론잡 합치면 토큰 절약"
├── "이건 프로그램으로 개발하면 더 효율적"
└── 대표님 승인 → 반영 → 다음 주 효과 확인
1주일 돌려보고 → 비효율 발견 → 개선안 → 승인 → 반영 → 다시 1주일
이 루프를 계속 돌리면, 한 달 뒤에는 지금보다 훨씬 효율적인 시스템이 됩니다. "세팅하고 끝"이 아니라, 시간이 지날수록 더 좋아지는 구조입니다.
5. 에이전트 보정 루프
에이전트가 잘못하면 어떻게 고치느냐:
클코봇 아침 자동 점검 (매일 08:30)
→ 엘라/토니 산출물 검증 (파일 존재? 내용 정확? 날짜 맞음?)
→ 문제 발견 시 소통보드에 보정 지시
→ 엘라/토니가 다음 세션에서 읽고 반영
→ 다음 날 아침에 개선됐는지 확인
→ 안 됐으면 AGENTS.md 규칙 강화
실제 보정 예시:
말투 이상 → SOUL.md에 말투 규칙 추가 (일기체 금지, 상황별 유연 전환)
빈말 보고 → AGENTS.md에 "구체적 증빙 필수" 규칙 추가
역질문 → "보고하는 자리에서 역질문 하지 마" 규칙 추가
6. 키워드 진화형 수집
정보 수집도 수동에서 자동으로:
1주차: 기본 키워드 10개로 시작 (오픈클로, 자동화, 바이브코딩 등)
↓
엘라 주간 크론잡: 키워드로 검색 → 결과 분석 → 유용한 것 선별
↓
키워드 성과 평가: "이 키워드는 유용한 결과 많았다/적었다"
↓
다음 주 키워드 조정 제안 → 클코 검토 → 반영
↓
매주 키워드가 진화 → 수집 품질 향상
고정 키워드가 아니라, 매주 성과를 보고 키워드 자체가 개선되는 구조입니다.
7. 스킬/도구 평가 체계 (7단계)
새로운 스킬이나 오픈소스를 발견했을 때:
발견 → 1차 분류 → 보안 점검(GitHub stars/보안이슈/코드 검사)
→ 활용 분석 → 대표님 승인 → 설치 → 효과 확인
보안 점검 기준표도 만들었습니다:
항목
안전 ✅
주의 🟡
위험 🔴
Stars
100+
10~100
10 미만
최근 업데이트
3개월 내
6개월
1년+ 방치
보안 이슈
없음
대응 중
방치
외부 전송
없음
분석용
알 수 없는 서버
🔴 하나라도 있으면 설치 금지.
그리고 좋은 GitHub 프로젝트를 발견하면 → 엘라가 README/구조 분석 → 우리 개발할 때 참조 활용. 0에서 시작하지 않고 검증된 구조를 베이스로 개발하면 품질이 올라갑니다.
결과와 배운 점
Before vs After
항목
Before (구축만 한 상태)
After (하네스 적용 후)
에이전트 신뢰도
"했다"고 해도 진짜인지 모름
클코봇이 매일 검증 + 증빙 필수
크론잡 에러
며칠간 몰랐음
아침 점검에서 바로 발견
문서 찾기
폴더 뒤지기 30분
인덱스+검색으로 몇 초
시스템 개선
문제 느낄 때만 수동으로
매주 자동 진단 + 개선안
정보 수집
수동 검색
키워드 진화형 자동 수집
새 스킬 도입
느낌으로 설치
7단계 평가 + 보안 점검
배운 점
자동화는 만드는 게 30%, 운영/개선이 70% — 만들고 방치하면 썩습니다
에이전트는 자기 작업을 객관적으로 평가 못 함 — 반드시 평가자를 분리하세요 (Anthropic 공식 원칙)
"단순함으로 시작, 필요할 때만 복잡성 추가" — 처음부터 완벽하게 만들려 하지 마세요
파일 기반 통신이 가장 안정적 — API 호출보다 파일 핸드오프가 상태 추적이 명확합니다
최소 비용 최대 효율 — 한번에 다 하지 말고, 단계별로 필요할 때만
주의할 점
매번 문서 갱신하면 토큰 폭발 — 주간 단위로 모아서 일괄 갱신하세요
에이전트한테 "다 알아서 해" 하면 안 됨 — 구체적 완료 기준을 주세요
보안 없이 오픈소스 설치하지 마세요 — GitHub stars, 최근 업데이트, 코드 검사 필수
앞으로의 계획
AI 워크스페이스를 사용자 Need에 맞춰 재설계 — 인터뷰 기반으로 폴더 구조/스킬/에이전트 자동 생성
OpenSpace (자기진화 MCP) — 에이전트가 실패 패턴을 자동 학습하는 구조 검토 중
Harness 100 — 에이전트 팀 하네스 패턴 100개 학습 → 우리 팀에 맞는 것 선별 적용
옵시디언 + OpenClaw + Claude Code 지식 베이스 연결 — 검증된 사례(잔마왕님)를 참고해서 진행 예정
자기진단 루프가 몇 달 돌면 → 시스템이 알아서 "이건 비효율이에요" 보고하는 수준까지
도움 받은 글
참고한 자료
Anthropic: 하네스 설계 — 장시간 에이전트 운영
GitHub: Harness 100 — 에이전트 팀 하네스 패턴 모음
GitHub: OpenSpace — 자기진화 에이전트
gpters: 이전 게시글 — 유튜브 자동화에서 AI 팀 구축까지
작성일: 2026-04-10 작성자: 김춘식 (GPTers 21기) 도구: Claude Code (Opus 4.6) + OpenClaw + 텔레그램